超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源

随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenAI在发布GPT-4V时就已经明确表示:

将额外模态(如图像输入)融入大语言模型(LLMs)被认为是 AI 研究和发展的一个关键新领域。

昨天,HyperGAI 研究团队推出了 HPT(Hyper-Pretrained Transformers)系列,包含两个模型,HPT Air 和 HPT Pro。

其中HPT Pro 在部分基准测试中已经超越了 GPT-4V 和 Gemini Pro 的表现。同时,高效的版本 HPT Air 也相当强大,在同等小规模的模型中效果达到了最优,且已经开源。

分享几个自用的Claude 3和GPT-4的镜像站给大家吧,均为国内可用:


hujiaoai.cn(最牛的Claude 3 Opus,注册即用,测评下来完全吊打了GPT4)

higpt4.cn(稳定使用一年的chatgpt-4研究测试站,非商业目的,而且用的是最牛的128k窗口的版本)

图片

图1.HPT(Hyper-Pretrained Transformers)模型结构的介绍。

项目地址:

Github: https://github.com/hyperGAI/HPT

huggingface: https://huggingface.co/HyperGAI/HPT

过去模型只处理单一类型的数据,如文本、图像或者音频,往往单一模态下优化的模型的能力要强于多模态的模型。

去年,许多研究团队推出了自己的多模态大模型,比如DeepMind的Flamingo、Salesforce的Blip、Google的PaLM-E和Gemini等。从输入输出看,多模态可以简单分为模态转换、输入多模态、输出多模态,输入输出多模态。

HyperGAI 研究团队提出了一种名为“Hyper-Pretrained Transformers”(HPT)的新型多模态LLM预训练框架,可以理解多种输入模态。

HPT介绍

HPT的主要部件,如大语言模型和视觉编码器都可以使用开源的预训练模型,而HPT中连接视觉和语言模态的桥梁,称之为H-former,它将视觉数据转换为语言标记。

为了使语言模型能够充分理解视觉信息,H-Former 采用双网络设计,学习视觉—语言对齐的本地特征和全局特征,使 HPT 能够理解细粒度细节和抽象的高层信息。

如下图所示,H-former将图像转换成视觉嵌入,该嵌入具备与文本对齐的信息,可以直接作为视觉嵌入与文本嵌入一齐送入语言模型,如Yi-6B。

图片

图2.H-former在传统的视觉编码器之后对视觉嵌入进行重新表示,生成的视觉嵌入可与文本嵌入组合送入预训练语言模型。

图片

图3. 破案了,其实H-former就是Q-former,或者说是基于Q-former,其全局与局部的视觉—语言对齐应该是体现在对q_feat的处理上。

在原则上,HPT 可以从头开始训练,也可以利用现有的预训练视觉和语言模型。对于开源的 HPT Air 模型,作者利用了一个预训练的语言模型(Yi-6B)和视觉编码器(clip-vit-large-patch14-336),在只有大约 160 万个文本—图像样本的多模态训练数据集上进一步训练,其中文本仅使用英文数据。

实验结果

作者在多个具有挑战性的多模态基准上进行了实验,包括 MMMU、CMMMU、SEED(img)、MMBench 和 MMBench-CN。

这些基准涵盖了各种图像类别,包括图表、图解、肖像和照片,需要对大学水平的学科知识和多学科领域的推理(MMMU 和 CMMMU),或者对各种视觉和语言任务中的常识和空间理解(SEED(img)、MMBench 和 MMBench-CN)。

在许多情况下,HPT Pro 和 HPT Air 在多项基准测试中表现出色,优于 GPT-4V、Gemini Pro 和 Qwen-VL 等。例如,在 SEED(img)基准测试中,HPT Pro 在所有对比的方法里取得了最佳结果(73.1%),而 HPT Air 在性能上超过了 Qwen-VL-Chat(69.7% 比 65.4%),甚至接近 Gemini Pro 的性能水平(69.7% 比 70.7%)。

在 MMBench 和 MMBench-CN 基准测试中也可以观察到类似的结论,唯一的例外是 LLaVA-NeXT 在 SEED(img)基准测试上优于 HPT Air。

图片

对于需要大学级学科知识和深思熟虑的 MMMU 和 CMMMU 基准测试,HPT Pro 和 HPT Air 分别是同类尺寸模型中最好的。截止至2024年3月21日,MMMU官网的验证集leaderboard如下:

图片

据作者介绍,HPT 模型仅基于英语多模态数据进行训练,但在 Bench-CN 和 CMMMU 基准测试上的竞争表明,HPT 模型可以很好地泛到其他语言,比如中文。综合来看,HPT模型在多模态基准测试中的成绩还是非常出色的。

HPT示例效果

在一系列实际的定性示例中,展示了 HPT 的多模态能力,包括理解、推理、艺术表达等方面的能力。以下的示例均来自官方博客:

  1. 查看、描述并遵循指令 HPT可以理解和表达视觉图像的内容。尽管示例 1.1 和 1.2 中的图像具有非常规性质,但 HPT 准确地辨别了主要主题并阐明了其特征。值得注意的是,示例 1.1 与图 1 中的示例相似。HPT 可以根据用户偏好定制其描述的详细程度,在提示关键字“简短答案”时提供简洁的响应。此功能可确保 HPT 可以按照说明满足用户的需求。

图片

图片

  1. 解释和推理。HPT 可以解释图表、图表,并回答基于所提供数据的科学问题。例如,在示例 2.1 中,HPT 演示了其识别与图表数据相对应的数字序列(76、_、68、67、58)的能力,能够通过图表分析推断出缺失的数字。在示例 2.2 中,HPT 可以回答大学水平的问题并提供正确的解释。这些例子说明了HPT从视觉数据中提取和应用信息以解决复杂问题。

图片

图片

  1. 了解概念艺术。HPT还擅长把握艺术表现形式,准确诠释例3.1中传达的情感,并在例3.2中认识到鱼尾狮作为新加坡象征的文化意义。这种能力证明了HPT在分析和理解艺术品中复杂的视觉和概念线索方面的熟练程度。

图片

图片

  1. 创意。 HPT不仅理解力强,而且创造力强。如例 4.1 所示,它不仅了解在爱因斯坦时代不存在智能手机,而且还可以创造性地推测他获得现代技术的可能性。此外,HPT准确地解释了代词的引用,如第二个问题所示,它正确地将“他”识别为阿尔伯特·爱因斯坦并做出适当的回应。这凸显了HPT细致入微的理解和富有想象力的推理。HPT 还可以根据提供的图像编写有趣的小说故事,如示例 4.2 所示。

图片

图片

  1. 推荐和协助。HPT还可以提供有用的建议。尽管示例 5.1 中的视觉外观很棘手,但它理解图像内容,推荐可以使用此类食材烹制的菜肴,以及享用此类餐点的地方。同样,根据用户的图像,HPT 可以帮助规划下一艘游轮并提供缓解晕船的建议(示例 5.2)。这展示了HPT提供可操作的见解和有用建议以增强用户体验的能力。

图片

图片

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/557616.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1236 - 二分查找

代码 #include<bits/stdc.h> using namespace std; int a[1100000]; int main() {int n,x,l,r,p,mid,i;cin>>n;for(i1;i<n;i)cin>>a[i];cin>>x;l1;rn;p-1;while(l<r){mid(rl)/2;if(a[mid]x){pmid;break;}else if(x<a[mid]) rmid-1;else if(x…

3D轻量引擎HOOPS SDK:EDA应用程序高效开发利器

电子设计自动化&#xff08;EDA&#xff09;软件在现代工程实践中扮演着至关重要的角色。随着技术的不断进步和市场的竞争加剧&#xff0c;开发高效、可靠的EDA应用程序成为了行业内的一项迫切需求。在这一背景下&#xff0c;Tech Soft 3D的HOOPS SDK&#xff08;Software Deve…

两步法搞定:Python中的h5ad文件 转为R中的seurat对象

问题来源 AnnData对象&#xff08;Python中&#xff09;和Seurat对象&#xff08;R中&#xff09;分别是两个非常流行的单细胞RNA测序数据分析框架中的核心数据结构。 有很多工具可以完成python对象adata和R中seurat对象的转换&#xff0c;但是很多情况下&#xff0c;我们使用…

python家政服务系统flask-django-php-nodejs

相比于以前的传统手工管理方式&#xff0c;智能化的管理方式可以大幅降低家政公司的运营人员成本&#xff0c;实现了家政服务的标准化、制度化、程序化的管理&#xff0c;有效地防止了家政服务的随意管理&#xff0c;提高了信息的处理速度和精确度&#xff0c;能够及时、准确地…

UG NX二次开发(C#)-通过曲线组生成NURBS曲面

文章目录 1、前言2、UG NX中通过曲线组生成NURBS曲面的操作3、采用NXOpen C#方法的源代码1、前言 在UG NX中,曲线、曲面的操作使用比较多,对于创建NURBS曲面,可以通过曲线组来生成,本文以NXOpen C#的方法实现通过曲线组生成NURBS曲面的功能。对于UG NX二次开发感兴趣或者有…

uniApp中使用小程序XR-Frame创建3D场景(1)环境搭建

1.XR-Frame简介 XR-Frame作为微信小程序官方推出的3D框架&#xff0c;是目前所有小程序平台中3D效果最好的一个&#xff0c;由于其本身针对微信小程序做了优化&#xff0c;在性能方面比其他第三方库都要高很多。 2.与Three.js的区别 做3D小程序的同学们对Three.js一定不陌生…

工控机丨丨工业电脑丨工控计算机丨工业一体机丨什么是工业一体机

工业一体机俗称工控机&#xff0c;是一种专门为工业应用而设计的计算机设备&#xff0c;主要应用于工厂、车间、仓库等工业场所。此外工控机还叫做工控计算机&#xff0c;通常采用工业级主板、工业级CPU、工业级硬盘、工业级内存和工业级电源等硬件组件&#xff0c;以确保其在高…

数据结构(实验一 顺序表的存储和运算)

实验一、顺序表的表示和运算 实验目的&#xff1a; 熟悉顺序表的逻辑特性、存储表示方法和顺序表的基本操作。 实验要求&#xff1a; 能够实现线性表的顺序存储表示&#xff0c;能够实现顺序表的基本操作及应用。 实验内容&#xff1a; 编写程序实现下列的要求&#xff1…

WebGIS航线编辑器(无人机航线规划)

无人机航点、航线规划&#xff0c;实现全自动航点飞行作业及飞行航拍。禁飞区、作业区功能保障飞行安全。 GIS引擎加载 const viewer new Cesium.Viewer("cesiumContainer", { imageryProvider: new Cesium.IonImageryProvider({ assetId: 3872 }), }); const im…

【开源】SpringBoot框架开发知识图谱构建系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 知识图谱模块2.2 知识点模块2.3 学生测评模块2.4 学生成绩模块 三、系统展示四、核心代码4.1 查询知识点4.2 新增知识点4.3 查询知识图谱4.4 查询学生成绩4.5 查询学生成绩 五、免责说明 一、摘要 1.1 项目介绍 基于J…

好用的GPTs:指定主题搜索、爬虫、数据清洗、数据分析自动化

好用的GPTs&#xff1a;指定主题搜索、爬虫、数据清洗、数据分析自动化 Scholar&#xff1a;搜索 YOLO小目标医学方面最新论文Scraper&#xff1a;爬虫自动化数据清洗数据分析 点击 Explore GPTs&#xff1a; Scholar&#xff1a;搜索 YOLO小目标医学方面最新论文 搜索 Scho…

基于python+vue渔船出海及海货统计系统的设计与实现flask-django-php-nodejs

当今社会已经步入了科学技术进步和经济社会快速发展的新时期&#xff0c;国际信息和学术交流也不断加强&#xff0c;计算机技术对经济社会发展和人民生活改善的影响也日益突出&#xff0c;人类的生存和思考方式也产生了变化。传统渔船出海及海货统计采取了人工的管理方法&#…