AI绘图模型不会写字的难题解决了

介绍

大家好,最近有个开源项目比较有意思,解决了图像中不支持带有中文的问题。
https://github.com/tyxsspa/AnyText。

为什么不能带有中文?

数据集局限

Stable Diffusion的训练数据集以英文数据为主,没有大量包含其他语言文本的图像数据。这导致模型对非英文语言的理解和生成能力比较弱。

DALL·E 3 也是类似情况,带有英文情况可以,带有其它语言效果不理想。

多语言处理能力有限

Stable Diffusion的底层语言模型是英文预训练的,没有经过中文细化。它对中文词汇、语法、语义的理解和生成能力有限。

文本渲染能力有限

将文本渲染成逼真图像方面存在局限性,较难生成自然、连贯的中文文本。

DALL·E 3

AnyText的绘图工具

阿里巴巴推出开源项目,指定位置精准地向图中加入文字。

项目支持中英日韩四种语言,如图。

https://github.com/tyxsspa/AnyText/blob/main/docs/sample.jpg

快速使用

官网提供两个环境。
https://huggingface.co/spaces/modelscope/AnyText
https://modelscope.cn/studios/damo/studio_anytext/summary
https://modelscope.cn/studios/damo/studio_anytext/summary
https://modelscope.cn/studios/damo/studio_anytext/summary

在这里插入图片描述

架构

AnyText
AnyText的架构,一个基于扩散方法设计的文本生成和编辑系统。

  1. 辅助潜在模块:

    • 输入包括文本字形、位置和遮蔽图像。
    • 生成有助于在图像中创建或修改文本的潜在特征。
  2. 文本嵌入模块:

    • 利用光学字符识别(OCR)模型将笔画数据编码成嵌入。
    • 这些嵌入与由分词器产生的图像标题嵌入相结合。
    • 结果是与图像背景无缝融合的文本。

为了训练这个模型,使用了特定的损失函数:

  • 文本控制扩散损失: 旨在确保生成的文本准确地遵循控制条件(如位置、风格)。
  • 文本感知损失: 提高文本的感知精度,确保其与图像的视觉方面(如字体和比例)保持一致。

这个系统允许准确地生成文本,与图像内容的上下文和视觉效果协调一致。

总结

现在不支持stable diffusion webui 插件,使用只能在官方Demo或者写代码执行。

欢迎交流分享这方面问题,我也深入再尝试下。

朋友们帮忙点赞关注收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/323071.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

书生·浦语大模型实战1

书生浦语大模型全链路开源体系 视频链接:书生浦语大模型全链路开源体系_哔哩哔哩_bilibili 大模型之所以能收到这么高的关注度,一个重要原因是大模型是发展通用人工智能的重要途径 深度信念网络: (1)又被称为贝叶斯网…

javaWeb案例知识点

一.rest风格编程 二.综合案例结构 三.分页查询 分页插件PageHelper 四.部门管理开发 五.员工管理开发 六.文件上传

消费盲返:重塑消费力量

在数字化时代的浪潮下,商业模式正在经历前所未有的变革。其中,消费盲返作为一种创新的消费模式,正逐渐成为重塑商业生态的新力量。本文将深入探讨消费盲返的核心理念、运作机制及其对商业生态的影响。 一、消费盲返的核心理念 消费盲返模式的…

OpenAI ChatGPT-4开发笔记2024-05:windows下anaconda中设置visual studio code workspace

这里写自定义目录标题 1 安装anaconda和vscode2 Create an Anaconda Environment3 select Python Interpreter4 Workspace5 Open Workspace With File6 开发文件夹加入workspace7 美化 1 安装anaconda和vscode 标配。 2 Create an Anaconda Environment conda create --name…

React组件之间的8种通讯方式

在 React 社区,遇到最多的其中一个问题是“不同组件之间如何相互通讯”。 在网上搜索了一些答案之后,早晚会有人提到 Flux,随后问题来了:“怎么用Flux解决通讯问题?Flux是必须的吗?”。 有时候 Flux 能解…

【React系列】React中的CSS

本文来自#React系列教程:https://mp.weixin.qq.com/mp/appmsgalbum?__bizMzg5MDAzNzkwNA&actiongetalbum&album_id1566025152667107329) 一. React中的css方案 1.1. react 中的 css 事实上,css 一直是 React 的痛点,也是被很多开发…

C#利用openvino部署PP-TinyPose人体姿态识别

【官方框架地址】 github.com/PaddlePaddle/PaddleDetection 【算法介绍】 关键点检测算法往往需要部署在轻量化、边缘端设备上,因此长期以来都存在一个难题:精度高、速度则慢、算法体积也随之增加。而PP-TinyPose的出世彻底打破了这个僵局&#xff0c…

【MyBatis】MyBatis基础操作

文章目录 前言注解方式书写 MyBatis打印 MyBatis 日志参数传递MyBatis 增加操作返回主键 MyBatis 删除操作MyBatis 修改操作MyBatis 查找操作1. 对查询结果进行别名2. Results注解3. 开启驼峰命名(推荐) XML 配置文件方法书写 MyBatis配置数据库的相关配…

本地部署Stable Diffusion教程,亲测可以安装成功

系列文章目录 Stable Diffusion界面参数及模型使用 谷歌Colab云端部署Stable Diffusion 进行绘图 文章目录 系列文章目录前言一、Stable Diffusion是什么?二、安装前的准备1.检查自己的电脑配置是否符合要求2.下载安装Git3.下载安装Python 三、下载stable-diffusi…

CSS基本知识

文章目录 1. CSS 是什么2. 基本语法规范3. 引入方式3.1 内部样式表3.2 行内样式表3.3 外部样式 4. 选择器4.1 选择器的功能4.2 选择器的种类4.3 基础选择器4.3.1 标签选择器4.3.2 类选择器4.3.3 id 选择器4.3.4 通配符选择器 4.4 复合选择器4.4.1 后代选择器4.4.2 伪类选择器 5…

硬件开发避坑日志

FT232 串口工具会,多发和漏发0x00. 对比之下STC工具更稳定。 红外接收关 5 V 和 3.3V 工作电压的接收波形不一样。 3.3V工作不正常,接收不正常 。 5V工作是标准的NEC协议

WPF DatePicker与Calendar的使用和样式修改

什么是DatePicker,Calendar Calendar:日历(显示年月日视图控件)DatePicker:日期选择器(是一个更小的控件,点击控件时才会弹出一个日历) Calendar使用 常用属性 DisplayMode&#…