GPT-4充当“规划师、审计师”,颠覆性双层文生图表模型

DALL-E 3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力,通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片,但在生成科学图表(柱状、直方、箱线、树状等)方面却略显不足。

这是因为模型在生成图表时会遗漏重要的对象,生成错误的对象关系箭头,以及产生不可读的文本标签,缺乏对对象的精细布局控制。尤其是当多个对象存在复杂的箭头或线段关系时,无法渲染清晰可读的文本,而这两点对于图表生成至关重要。

为了解决这两大难题,北卡罗来纳大学提出了DiagrammerGPT框架。首先,使用GPT-4充当“规划师”,根据文本描述生成图表的布局规划信息

规划信息包含实体(对象和文本标签)、实体之间的关系(箭头、线段等)以及实体的布局信息(边界框坐标)。然后再用GPT-4充当“审计师”来审核整个规划计划,进行图表细节优化

图片

在图表生成阶段,通过DiagramGLIGEN扩散模型能够根据图表规划生成精准图表,并用Pillow库对文本标签进行渲染提升精准度。

根据测试数据显示,在多个量化指标上,DiagrammerGPT 显著优于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的图表。

在图表与文本相关性和对象关系的准确性评估方面,DiagrammerGPT分别取得36%和48%的优于基准模型的评分。该研究对于文本生成高精准图表模型来说,有着重大突破。

开源地址:https://github.com/aszala/DiagrammerGPT

论文地址:https://arxiv.org/abs/2310.12128

图表规划

DiagrammerGPT框架的最大创新在于,利用GPT-4的强大自然语言处理能力指导图表布局生成。为了生成更准确的规划,还设计了闭环反馈机制。

一个GPT-4 充当“规划师”生成初始规划,另一个 GPT-4 充当“审计师”,评估规划的准确性并提供反馈。而规划师可以根据反馈调整规划布局。

图片

1)初始图表规划生成

研究人员对GPT-4通过10个语境学习样例进行了训练,每个样例都包含完整的图表文本描述、实体、关系和布局信息。规划包含3个要素:

实体:对象和文本标签的列表。对象指图表中的图像元素,文本标签指对象的文字说明。

关系:实体之间的关系,比如箭头连接、线段连接、文本标签标注对象等。

布局:所有实体的边界框坐标信息,[x,y,w,h]格式。

2)规划优化

为进一步提高规划质量,提出了规划师、审计师的闭环反馈机制进行迭代优化。其中GPT-4充当规划师,另一个GPT-4充当审计师。审计师会检查规划与文本描述是否匹配,提供反馈意见;规划师根据反馈更新规划。

图片

其中,审计师GPT-4也是通过特定语境学习进行训练的,以提供有效的反馈意见。两者训练使用不同的语境学习样本。

图片

图表生成

研究人员通过Diagram GLIGEN扩散模型用于图表生成,并加入了门控自注意力层,可以利用图表规划的布局信息指导图像生成。

与原始的GLIGEN模型只处理物体不同,DiagramGLIGEN可同时处理文本标签和箭头关系作为布局输入。DiagramGLIGEN在AI2D-Caption数据集上进行了训练,使其能生成特定领域的科学图表。

图片

但由于扩散模型本身文本渲染效果不佳,无法输出清晰可读的文本,研究人员使用Pillow库显式渲染文本标签,提升文本的清晰度。

训练、评估数据集

研究人员基于AI2D科学图表数据集构建了AI2D-Caption数据集,用于文本到图表生成的训练和数据测试。AI2D包含约4900张科学图表图像,涵盖天文、生物、工程等领域。

其中选取了105张图表,使用大语言模型为每个图表生成详细的图像标题和对象描述。其中30张作为语言模型的语境学习样本,75张作为测试集。

相比原始AI2D只有简单的标题,AI2D-Caption提供了更丰富的文本描述,包括完整的图表标题和每个对象的详情。

图片

多个基准测试数据显示,在VPEval上,DiagrammerGPT的对象、数量、关系和文本渲染准确性均明显优于基准模型,从多个方面证明了其生成图表的高质量。

在图像字幕上,DiagrammerGPT生成的图表能产生更相关的标题,标题与真值更加接近。在CLIPScore上,DiagrammerGPT的图像-文本和图像-图像相似度更高,更接近真值图表和标题。还进行了人类评估,多数人表示,更喜欢DiagrammerGPT生成的图表。

本文素材来源北卡罗来纳大学论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/197357.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信怎么发状态?简单教程,一学就会!

微信是一个非常实用的社交应用,不仅提供了基础的聊天功能,还推出了很多其他有趣的功能。比如微信个人状态,这个功能可以让用户随时随地分享自己的心情和动态。那么,微信怎么发状态呢?本文将为大家介绍有关微信发状态的…

PlayCover“模拟器”作弊解决方案

当下的游戏市场,移动游戏已占据了主导地位,但移动端游戏碍于屏幕大小影响操作、性能限制导致卡顿等因素,开始逐步支持多端互通。但仍有一些游戏存在移动端与 PC 端不互通、不支持 PC 端或没有 Mac 版本,导致 Mac 设备体验游戏不方…

『亚马逊云科技产品测评』活动征文|构建生态农场家禽系统

『亚马逊云科技产品测评』活动征文|构建生态农场家禽系统 授权声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 Developer Centre, 知乎,自媒体平台,第三方开发者媒体等亚马逊云科技官方渠道 前…

AIGC|一次性了解向量数据库原理及应用,小白也能读懂的入门知识!【建议收藏】

目录 一、向量数据库是什么 (一)向量数据库发展历史 (二)向量是什么 二、向量数据库的应用场景 (一)向量数据库应用场景 (二)向量数据库产品 (三)向量数…

软件测试入门很容易,但想要深造就还是要费功夫

现如今,越来越多的外行人员开始转战到软件测试岗位,而这也让许多不了解软件测试人疑惑“软件测试有那么好学吗?为什么都开始转行到软件测试呢?” 而关于这两个问题的答案,作者在以下为大家进行了讲解,希望…

PLC信号发生器(余弦信号)

SMART PLC正弦信号发生器算法公式和梯形图代码请查看下面文章链接: PLC信号发生器(梯形图)-CSDN博客文章浏览阅读393次。PLC信号发生器(SCL语言)的详细介绍请参看下面文章PLC信号发生器(博途SCL)_RXXW_Dor的博客-CSDN博客信号发生器的应用请参看下面的博客文章,在演示滤波器…

BLE协议栈入门学习

蓝牙LE栈 物理层 频带 蓝牙LE在2400MHz到2483.5MHz范围内的2.4GHz免授权频段工作,该频段分为40个信道,每个信道间隔为2MHz。 时分 蓝牙LE是半双工的,可以发送和接收,但不能同时发送和接收,然而,所有的设…

echarts 实现3D立体柱状图示例

该示例有如下几个特点: ①实现tooltip自定义样式(echarts 实现tooltip提示框样式自定义-CSDN博客) ②数据为0时,顶部四边形不展示 ③legend图标设置为自定义图片 【第②也是一个难点,我没有找到其他解决办法&#xff…

【性能测试】稳定性测试要点-监控关键指标总结(超细整理)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、稳定性测试的要…

论文阅读:“iOrthoPredictor: Model-guided Deep Prediction of Teeth Alignment“

文章目录 IntroductionMethodologyProblem FormulationConditional Geometry GenerationTSynNetAligned Teeth Silhouette Maps Generation ResultsReferences Github 项目地址:https://github.com/Lingchen-chen/iOrthopredictor Introduction 这篇文章提出了一种…

软件测试面试时问你的项目经验,你知道该怎么说吗?

很简单,我来给你们一个公式 0 自我介绍,名字 学历 荣誉。 1 简述项目背景,你身处这个项目是做什么的。 不要太细,试着引导一下面试官让他提问。这样,请问您对此有什么疑问吗? 2 简述 你在项目中的角色&…

uniapp小程序定位;解决调试可以,发布不行的问题

遇见这个问题;一般情况就两种 1、域名配置问题; 2、隐私协议问题 当然,如果你的微信小程序定位接口没开启;定位也会有问题; 第一种,小程序一般是腾讯地图;所以一般都会用https://apis.map.qq.co…