【论文阅读】(DALLE-3)Improving Image Generation with Better Captions

(DALLE-3)Improving Image Generation with Better Captions

文章目录

  • (DALLE-3)Improving Image Generation with Better Captions
    • 简介
    • Method
    • 实验

引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.

论文链接: https://arxiv.org/abs/2212.09748

简介

论文展示了通过在高度描述性的生成图像captions上训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型在遵循详细图像描述方面存在困难,经常忽略提示中的单词或混淆提示的含义。作者假设这个问题源于训练数据集中图像标题的噪声和不准确性。通过训练一个定制的图像captions生成器并用它来重新标注训练数据集来解决这个问题。然后,训练了几个文本到图像模型,并发现在这些合成captions上训练可靠地提高了提示跟随能力。最后,使用这些发现构建了DALLE 3:一个新的文本到图像生成系统,并在设计用来衡量提示跟随、连贯性和美学的评估中测试了其性能,发现它与竞争对手相比具有优势。

Method

论文提出的文本到图像模型是在由大量配对(t,i)组成的数据集上训练的,其中i是图像,t是描述该图像的文本。在大规模数据集中,t通常来源于人类作者,他们专注于对图像主题的简单描述,而忽略了图像中描绘的背景细节或常识关系。t中通常省略的重要细节可能包括:

  1. 厨房水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置和这些对象的数量。
  3. 常识性细节,如场景中对象的颜色和大小。
  4. 显示在图像中的文本。

糟糕的是,在互联网上发现的captions往往根本不正确;描述图像的切向相关细节。例如,在通常用于为图像制作captions的文本中,通常会发现广告或表情包。作者假设所有这些缺点都可以通过综合生成的 captions来解决。

图像字幕与预测文本的传统语言模型非常相似。语言模型首先使用标记器将文本字符串分解为离散的标记。一旦以这种方式分解,语料库的文本部分就可以表示为一个序列,t=[t1,t2,…,tn]。然后,可以通过最大化以下可能性函数,在文本上建立一个语言模型:

其中,θ是要优化的captioner的参数。要将此语言模型转换为captioner,只需要对图像进行调整即可。这里的挑战是图像是由成千上万的像素值组成的。对目前的神经网络来说,对所有这些信息进行调节是非常低效的,所以需要一个压缩的表示空间。方便的是,CLIP提供了这一点。因此,给定预先训练的CLIP图像嵌入函数F(i),扩展语言模型的优化目标如下:

为了改进图像生成数据集中的captions,希望使caption生成器产生有利于学习文本到图像模型的图像描述。在第一次尝试中,构建了一个小的caption数据集,只描述图像的主要主题。然后继续在这个数据集上训练captioner。该过程引起的θ更新可以导致模型偏向于描述图像的主要主题。将此微调生成的captions称为"short synthetic captions"。

然后,第二次重复这个过程,创建一个由长的、高度描述性的captions组成的数据集,描述微调数据集中每个图像的内容。这些captions不仅描述了图像的主要主题,还描述了图像周围的环境、背景、图像中的文本、风格、颜色等。再次在此数据集上captioner。将此captioner生成的captions称为“描descriptive synthetic captions”。图3显示了基本事实、简短合成和描述性合成captions的示例。

构建完成后,将图像captioner微调应用于文本到图像数据集中的每个图像,从而生成一组合成字幕,用于后续实验。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/513566.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外包干了3个月,技术倒退明显

先说情况,大专毕业,18年通过校招进入湖南某软件公司,干了接近6年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

【英文文献笔记记录方法】

英文文献笔记记录方法 本文是根据b站up主视频总结的文字版,方便后面自己查阅。感兴趣的话可以去看原版视频: 英文文献笔记方法 文献笔记记录的目的 深化文献阅读的理解帮助快速回忆文献内容 查看作者 主要看第一作者和通讯作者。 在谷歌学术搜索作者…

第三百八十四回

【toc] 我们在上一章回中介绍了Visibility组件相关的内容,本章回中将介绍Flutter与原生平台通信相关的内容.闲话休提,让我们一起Talk Flutter吧。 概念介绍 在移动开发领域以Android和IOS SDK开发出的应用程序叫原生开发,开发同一个程序需要…

力扣--动态规划64.最小路径和

思路分析: 基本思路: 本算法采用动态规划的思想,通过构建一个额外的二维矢量 dp 来存储每个位置的最小路径和。最终目标是求得右下角位置的最小路径和,即整个网格的最小路径和。 初始化: 初始化矢量的行数和列数&…

软件测试--性能测试实战篇

软件测试--性能测试实战篇 项目介绍和部署1. 轻商城项目介绍1.1 背景1.2 简介2. 项目功能架构3. 项目技术架构4. 熟悉数据库设计5. 轻商城项目搭建5.1 准备工作5.2 项目搭建步骤性能测试需求分析1. 性能测试需求分析1.1 如何获取有效的需求2. 性能测试点的提取2.1 性能测试点的…

基于springboot+vue的精简博客系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

网工内推 | 国企运维,年薪最高30W,RHCE认证优先

01 上海华力微电子有限公司 招聘岗位:系统运维资深/主任工程师 职责描述: 1、负责IT基础设施(包括服务器、存储、中间件等系统基础技术平台)的设计建设和日常运维管理; 2、负责生产、开发和测试环境的技术支持&#x…

边缘计算网关在智能工业园区中的的应用及其优势-天拓四方

边缘计算网关是一种部署在网络边缘的设备,它具备数据采集、处理、存储和传输等功能。通过集成传感器、执行器、通信模块和计算单元,边缘计算网关能够实现对物联网设备的实时监控和控制,同时优化数据传输效率,降低网络延迟&#xf…

julia语言使用PyCall包调用Python代码及Python包

Julia语言虽然好,但是包管理方面和生态环境感觉还有一点小小的缺陷,但是Julia可以调用Python丰富的包,用起来很方便。 安装PyCall 在安装之前先确认下Julia和Python的版本,我使用的稳定版本的 Julia1.6.7,Python版本是…

基于深度学习的人员指纹身份识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 指纹图像预处理与特征提取 4.2 卷积神经网络架构 4.3 特征编码与匹配 4.4 损失函数与训练 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程…

01:HAL库---时钟

一:前言 我们使用的是STM32F103CT86的型号 1:介绍 时钟在在我们的单片机中非常重要,相当于我们的人类的心脏;简单来说,时钟是具有周期性的脉冲信号,最常用的是占空比50%的方波; 三种不同的时钟…

UE5 UE4 开发常用工具AssetDeveTool

AssetDeveTool工具,支持UE5 5.0-.5.3 UE4 4.26/4.27 下载链接: 面包多 https://mbd.pub/o/bread/ZZubkphu 工坊: https://gf.bilibili.com/item/detail/1104960041 包含功能: 自动化批量展UV功能 快速选择功能 自动化批量减面功能…