AnyText多语言文字生成与编辑

AnyText图文融合

近年来,随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。不过,当合成图片中出现文字内容时,仍能够使AI露出马脚,因为当前主流方法尚无法在图片中生成准确可读的字符。最近半年来已有学者开始研究文本生成的问题,但这些方法大多以英文为主,无法解决中文这种字形繁杂、字符数以万计的文字生成。因此,我们提出了一种新颖的文字生成方法AnyText,通过创新性的算法设计,可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。本模型所涉及的文字生成技术为电商海报、Logo设计、创意涂鸦、表情包等新型AIGC应用提供了可能性。

代码链接:GitHub - tyxsspa/AnyText

论文链接:https://arxiv.org/abs/2311.03054

在线Demo:创空间(推荐), 

模型介绍

AnyText主要基于扩散(Diffusion)模型,包含两个核心模块:隐空间辅助模块(Auxiliary Latent Module)和文本嵌入模块(Text Embedding Module)。其中,隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以进一步提升文字书写精度。 

     基于文本到图像的扩散模型最近取得了令人瞩目的成就。尽管当前合成图像的技术非常先进,能够生成高保真的图像,但在聚焦生成图像中的文本区域时,仍有可能显示出来。为了解决这个问题,我们引入了AnyText,这是一种基于扩散的多语言视觉文本生成和编辑模型,重点是在图像中呈现准确连贯的文本。AnyText包含一个扩散管道,该管道具有两个主要元素:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和屏蔽图像等输入来生成文本生成或编辑的潜在特征。后者使用OCR模型将笔画数据编码为嵌入,将其与标记器中的图像标题嵌入混合,生成与背景无缝集成的文本。我们采用文本控制扩散损失和文本感知损失进行训练,以进一步提高写作准确性。据我们所知,AnyText可以用多种语言书写字符,这是解决多语言可视文本生成的第一项工作。值得一提的是,AnyText可以插入社区中现有的扩散模型中,以便准确地呈现或编辑文本。在进行了广泛的评估实验后,我们的方法大大优于所有其他方法。此外,我们还贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,它包含300万个图像-文本对,并带有多种语言的OCR注释。基于AnyWord-3M数据集,我们提出了用于评估可视文本生成准确性和质量的AnyText基准。我们的项目将于此https URL改进和促进文本生成技术的发展。

期望模型使用方式以及使用范围

本模型使用范围较广,能基于输入的提示词以及指定的位置生成包含多语言字符的图像,或对输入图像中的文本进行编辑或修复。

环境配置

 
# 安装git(如有请跳过)
conda install -c anaconda git
# 克隆anytext仓库
git clone https://github.com/tyxsspa/AnyText.git
cd AnyText
# 准备字库文件(推荐Arial Unicode MS,需自行下载)
mv your/path/to/arialuni.ttf ./font/Arial_Unicode.ttf
# 方式一:如果使用modelscope notebook最新镜像(ubuntu22.04-cuda11.8.0-py310-torch2.1.0-tf2.14.0-1.10.0),直接安装如下包即可
pip install Pillow==9.5.0
pip install gradio==3.50.0
# 方式二:重新创建一个独立虚拟环境(耗时较长)
conda env create -f environment.yaml
conda activate anytext

示例代码

参照如下示例代码,使用anytext进行文字生成或文字编辑

(首次运行时,会下载模型文件至:~/.cache/modelscope/hub中,请耐心等待;如果需要修改下载目录,可以手动指定环境变量:MODELSCOPE_CACHE)

 
from modelscope.pipelines import pipeline
from util import save_images
pipe = pipeline('my-anytext-task', model='damo/cv_anytext_text_generation_editing', model_revision='v1.1.1', use_fp16=True, use_translator=False)
img_save_folder = "SaveImages"
params = {"show_debug": True,"image_count": 2,"ddim_steps": 20,
}# 1. text generation
mode = 'text-generation'
input_data = {"prompt": 'photo of caramel macchiato coffee on the table, top-down perspective, with "Any" "Text" written on it using cream',"seed": 66273235,"draw_pos": 'example_images/gen9.png'
}
results, rtn_code, rtn_warning, debug_info = pipe(input_data, mode=mode, **params)
if rtn_code >= 0:save_images(results, img_save_folder)
# 2. text editing
mode = 'text-editing'
input_data = {"prompt": 'A cake with colorful characters that reads "EVERYDAY"',"seed": 8943410,"draw_pos": 'example_images/edit7.png',"ori_image": 'example_images/ref7.jpg'
}
results, rtn_code, rtn_warning, debug_info = pipe(input_data, mode=mode, **params)
if rtn_code >= 0:save_images(results, img_save_folder)
print(f'Done, result images are saved in: {img_save_folder}')

交互式Demo[推荐]

使用基于gradio搭建的交互式demo,内含使用说明、操作界面及丰富的示例,可完整体验AnyText,执行如下语句启动:

export CUDA_VISIBLE_DEVICES=0 && python demo.py

默认情况下使用FP16推理,并预加载一个中译英的模型用于直接输入中文提示词(占用约4G显存)。可通过指令修改默认行为,如执行如下语句将使用FP32推理,且不适用翻译模型:

export CUDA_VISIBLE_DEVICES=0 && python demo.py --use_fp32 --no_translator

如果使用FP16推理,不加载翻译模型或使用CPU推理(方法),每次生成1张512x512的图片,显存占用约7.5G。 此外支持用户使用其他字体文件(可能影响效果):

export CUDA_VISIBLE_DEVICES=0 && python demo.py --font_path your/path/to/font/file.ttf

也可以直接访问如下在线Demo: 创空间(推荐), HuggingFace

画廊

模型局限性以及可能得偏差

  • 由于训练数据的原因,当前模型对中文和英文的书写精度要好于其他语种;
  • 有一定概率会产生文本模糊、扭曲、拼写错误等现象;
  • 有一定概率在背景中生成不可读的伪文字或水印;
  • 基于互联网公开数据的训练,生成结果与训练数据分布存在较大关联;

训练数据介绍

本模型的训练数据集为AnyWord-3M(即将开源),主要来源于互联网开源数据集,包括LAION-400M, Noah-Wukong以及部分OCR数据集,按照一定规则从中筛选出包含文字的图片,并使用OCR模型和BLIP-2模型进行全自动打标,总计得到300万高质量的图文对,涵盖自然图像、电影海报、书籍封面等各类场景。

模型评测指标

我们使用全句准确率(Sen. ACC)和归一化编辑距离(NED)评价生成文字的准确度,使用FID指标评价图像的生成质量。与现有方法相比,AnyText在中英文的文字生成方面均具备显著优势,达到SOTA水平。

相关论文及引用信息

@article{tuo2023anytext,title={AnyText: Multilingual Visual Text Generation And Editing}, author={Yuxiang Tuo and Wangmeng Xiang and Jun-Yan He and Yifeng Geng and Xuansong Xie},year={2023},eprint={2311.03054},archivePrefix={arXiv},primaryClass={cs.CV}
}

AnyText图文融合

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/412588.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mybatis----面向接口

让mybatis自动生成dao层接口的实现类 这是dao层接口的实现类,在mybatis中我们可以省略这种实现接口的方式,直接面向接口操作数据库,mybatis可以帮我们自动生成接口的实现类,也就是下面这个实现类mybatis帮我们生成了。 1、修改se…

Gateway网关限流

在高并发的系统中,往往需要在系统中做限流,一方面是为了防止大量的请求使服务器过载,导致服务不可用,另一方面是为了防止恶意网络攻击 文章目录 一、常见限流场景1.1 限流的对象1.2 限流的处理1.3 限流的架构 二、常见的限流算法2…

互联网上门预约洗护小程序解决洗衣洗鞋店拓客难题

洗衣洗鞋店软件作为多分店多用户管理系统,能够满足洗衣店和干洗店在管理上的各种需求。通过互联网,它能够提供加盟或直营连锁管理服务,实现全流程的会员洗护服务。这种系统对于提高洗衣洗鞋店的工作效率、提升店铺形象以及拓宽业务范围都非常…

[EMV]一文读懂GAC

文章目录 联机交易脱机交易脱机认证 GACGAC的全称和含义?GAC在EMV交易中的定义和作用?什么情况需要一次GAC,什么情况需要两次? QA脱机认证难度可以一直不联网吗?有第一次GAC和第二次GAC,它们之间什么区别和…

本地运行LlaMA 2的简易指南

大家好,像LLaMA 2这样的新开源模型已经变得相当先进,并且可以免费使用。可以在商业上使用它们,也可以根据自己的数据进行微调,以开发专业版本。凭借其易用性,现在可以在自己的设备上本地运行它们。 本文将介绍如何下载…

【Python】新鲜出炉的海洋捕食者算法Python版本

2020年发表的海洋捕食者算法《Marine Predators Algorithm: A nature-inspired metaheuristic》。 作者只在原论文中给出了MATLAB代码,网上也没有Python版本,我自己用Python重写了MATLAB代码。 """2020海洋捕食者算法 """…

4.如何关闭软件开机自启动

1.打开任务管理器 第一步 第二步 第三步

Flink编程——风险欺诈检测

Flink 风险欺诈检测 文章目录 Flink 风险欺诈检测背景准备条件FraudDetectionJob.javaFraudDetector.java 代码分析执行环境创建数据源对事件分区 & 欺诈检测输出结果运行作业欺诈检测器 欺诈检测器 v1:状态欺诈检测器 v2:状态 时间完整的程序期望的…

Java开发的审批流系统,前端使用vue,支持常态化工作审批流程

一、项目形式 springbootvueactiviti集成了activiti在线编辑器,快速开发平台,可插拔工作流服务。 二、项目介绍 本项目拥有用户管理,部门管理,代码生成,系统监管,报表,大屏展示,业…

uniapp APP接入Paypal

1. 登录paypal开发者中心, 2. 选择 Apps & Credentials 点击 Create App创建应用,创建后点击编辑按钮,如图: 3. 进入应用详情,勾选Log in with PayPal点击 Advanced Settings 添加return URL等信息并保存。如图&a…

如何使用VNC实现Win系统远程桌面Ubuntu图形化界面【内网穿透】

文章目录 推荐前言1. ubuntu安装VNC2. 设置vnc开机启动3. windows 安装VNC viewer连接工具4. 内网穿透4.1 安装cpolar【支持使用一键脚本命令安装】4.2 创建隧道映射4.3 测试公网远程访问 5. 配置固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址5.3 …

封装日期时间组件

概述 该组件包含日期选择&#xff0c;任意时间选择、固定时间点选择。 子组件代码(date-picker.vue) <template><div id"date_picker"><el-popover placement"top" width"322" trigger"click" ref"popover&quo…