DALL·E 3:Improving Image Generation with Better Captions

论文链接:https://cdn.openai.com/papers/dall-e-3.pdf
DALLE3 API:https://github.com/Agora-X/Dalle3
官网链接:添加链接描述

DALLE3讲解视频:B站视频
推荐DALLE2的讲解视频:B站:跟李沐学AI 之前精讲的DALLE2论文

北理&上海AI Lab&清华提出 Mini DALL·E 3:https://arxiv.org/pdf/2310.07653.pdf
code:https://github.com/Zeqiang-Lai/Mini-DALLE3

要点分析

文章主要在讲:通过更好的文本标注(Better Captions),提升图像生成质量

1. 摘要(Abstract)

  • 解决问题:因为数据比较noise,很难按照prompt生成需要的图片
  • 方法/贡献:提出image captioner(图片标注器),生成图像精准的标注,去训练模型

3. 文章主体

3.1. 数据生成方法

  • 两种标注模式:
    • 1.短标注:只描述主要物体,主体
    • 详细标注:主体、环境、背景、文字、风格等
      • Clip scores高于短标注
  • 生成标注+原始文本标注的比例【意思train的时候加入生成标签,test的时候不加入呗?】
    • 混合原因:生成文本是基于数据的模式,用户的文本(原始标注)有自己的风格,原始标注相当于正则
    • 95%> 90% > 80%,但是不是100%最好
  • 用户的prompt简短,不能充分发挥模型能力
    • 用GPT扩写用户的prompt

3.2. 评估方式

  • 自动评估:
    • Clip scores:用Ms COCO的caption生成图片,然后用Clip scores去评估图片文本之间的匹配程度
    • Drawbench:Images提出的比较全的评测prompts,然后用GPT-V(多模态)来评估生成突破和Prompts的匹配度(生成模型评估生成模型hh)
    • T2l-Compbench:与Drawbench类似,区别在于GPT-V换成VQA
  • 人工评估:
    • Prompt fllowing:Prompts和图像匹配程度
    • style:图片质量,评估者是看不到Prompts,直接看两张图片哪个更好
    • coherence:观察不合理的结构,虚幻的场景人工评估打低分,作者换成用MS COCO的Caption生成的图像去做评估

4. 实验效果

  • 评估结果:DALL-E 3 > Midjourney 5.2 > Stable Diffusion XL > DALL-E 2

5. 总结

方法局限性:

  • 位置关系不准确
  • 文字的生成不行:因为T5 text encoder的局限性,它会把用户的prompts分隔开,整体把握小

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/494154.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring08、使用注解开发

8、使用注解开发 8.1、说明 在spring4之后&#xff0c;想要使用注解形式&#xff0c;必须得要引入aop的包 在配置文件当中&#xff0c;还得要引入一个context约束 <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.sprin…

一次奇怪的事故:机器网络连接打满,导致服务不可用

业务背景 发生事故的业务系统是一个toB业务&#xff0c;业务是服务很多中小企业进行某项公共信息指标查询。系统特点:业务处理相对简单&#xff0c;但是流量大&#xff0c;且对请求响应要求较高&#xff1a; 业务请求峰值qps达50w&#xff0c;平时流量达20w左右。 请求响应时…

算法沉淀——动态规划之子数组、子串系列(上)(leetcode真题剖析)

算法沉淀——动态规划之子数组、子串系列 01.最大子数组和02.环形子数组的最大和03.乘积最大子数组04.乘积为正数的最长子数组长度 01.最大子数组和 题目链接&#xff1a;https://leetcode.cn/problems/maximum-subarray/、 给你一个整数数组 nums &#xff0c;请你找出一个具…

GDB动态调试学习-2-【断点 观察点】

文章目录 在程序地址上打断点在程序入口处打断点获取程序入口地址 在命名空间设置断点命名空间给命名空间的函数下断电 在文件行号上打断点保存已经设置的断点设置临时断点设置条件断点忽略断点 在程序地址上打断点 当调试汇编程序&#xff0c;或者没有调试信息的程序时&#…

【c语言】if 选择语句

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;C语言 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进步&…

项目登录方案选型

一.Cookie + Session 登录 大家都知道,HTTP 是一种无状态的协议。无状态是指协议对于事务处理没有记忆能力,服务器不知道客户端是什么状态。即我们给服务器发送 HTTP 请求之后,服务器根据请求返回数据,但不会记录任何信息。为了解决 HTTP 无状态的问题,出现了 Cookie。Co…

网络编程(JAVA)

前言&#xff1a;Java 是 Internet 上的语言&#xff0c;它从语言级上提供了对网络应用程序的支持&#xff0c;程序员能够很容易开发常见的网络应用程序。 Java 提供的网络类库&#xff0c;可以实现无痛的网络连接&#xff0c;联网的底层细节被隐藏在 Java 的本机安装系统里&a…

【一】【SQL】表的增删查改(部分)

表之“增”操作 建表的操作 mysql> create table students(-> id int unsigned primary key auto_increment,-> sn int unsigned unique key,-> name varchar(20) not null,-> qq varchar(32) unique key-> ); Query OK, 0 rows affected (0.03 sec)mysql&g…

代码随想录Leetcode474. 一和零

题目&#xff1a; 代码(首刷看解析 2024年2月26日&#xff09; class Solution { public:// 二维 0 1背包int findMaxForm(vector<string>& strs, int m, int n) {// 1 二维 [i]表示 0 的个数&#xff0c;上限m; [j]表示 1 的个数&#xff0c;上限nvector<vector…

CMU15445实验总结(Spring 2023)

CMU15445实验总结(Spring 2023) 背景 菜鸟博主是2024届毕业生&#xff0c;学历背景太差&#xff0c;导致23年秋招无果&#xff0c;准备奋战春招。此前有读过LevelDB源码的经历&#xff0c;对数据库的了解也仅限于LevelDB。奔着”有对比才能学的深“的理念&#xff0c;以及缓解…

【深度学习:微模型过度拟合】微模型简介或:我如何学会停止担忧并热爱过度拟合

【深度学习&#xff1a;微模型过度拟合】微模型简介或&#xff1a;我如何学会停止担忧并热爱过度拟合 起源微模型到底是什么&#xff1f;一维标记蝙蝠侠效率额外的好处面向数据的编程 这篇文章的目的是介绍我们在 Encord 中用于自动化数据注释的“微模型”方法。我们已将这种方…

测试环境搭建整套大数据系统(七:集群搭建kafka(2.13)+flink(1.14)+dinky+hudi)

一&#xff1a;搭建kafka。 1. 三台机器执行以下命令。 cd /opt wget wget https://dlcdn.apache.org/kafka/3.6.1/kafka_2.13-3.6.1.tgz tar zxvf kafka_2.13-3.6.1.tgz cd kafka_2.13-3.6.1/config vim server.properties修改以下俩内容 1.三台机器分别给予各自的broker_id…