How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

news/2025/3/10 16:10:53/文章来源:https://www.cnblogs.com/weihangzhang/p/18678454

InternVL1.5：更强的视觉编码器，动态处理高分辨率图像，高质量的双语数据集。

主要内容

对标商业模型，提出InternVL1.5。更强的视觉编码器（InternViT-6B），动态处理高分辨率图像（将图像分成448*448的tails，最高支持4K分辨率），高质量的双语数据集（显著提高了OCR和中文相关任务的性能）。与开源和商业模型相比，在 8/18 个多模态benchmark上sota。

动机和方法

Dynamic High-Resolution & Pixel Shuffle
受UReader的启发，我们采用了一种动态的高分辨率训练方法，可以有效地适应输入图像的分辨率和宽高比的变化。该方法利用了图像分块的灵活性，增强了模型对细节的处理能力。
Pixel Shuffle减少了Image tokens（1024 -> 256）。

Two Stage Training
第一阶段微调ViT+Projector，第二阶段微调ViT+Projector+LLM
High-Quality Bilingual Dataset
包含了大量的图文数据集，提供了一个数据翻译的pipeline

实验分析

在OCR任务上表现出色，

总结

开源做的很好，大量的pretrain datasets和benchmark，一般人也做不来

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/871343.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

在ByteTrack中使用DanceTrack数据集

在ByteTrack中使用DanceTrack数据集

从github下载DanceTrack项目(不包含数据集，数据集需要单独下载) git clone https://github.com/DanceTrack/DanceTrack.git修改convert_dance_to_coco.py中数据集的位置，然后运行，将数据集格式转化为coco格式将DanceTrack中ByteTrack中的相关文件拷贝到ByteTrack项目中 Danc…

阅读更多...

EdgeRunner

EdgeRunner

WSL2配置代理 - Sherioc - 博客园 EdgeRunner论文解读环境配置显示报错是FlashAttention需要CUDA 11.7及以上版本。之前FriNet是CUDA 11.1，重新装了CUDA 11.8（并且已经改好设置），但是还是构建失败。 2025/1/18，又能构建了……（very slow）代码首先注意到了License 1、l…

阅读更多...

1月15日证书来啦！工信部人才交流中心PostgreSQL中级/高级认证

1月15日证书来啦！工信部人才交流中心PostgreSQL中级/高级认证

恭喜在2024年11月参加工信部人才交流中心PostgreSQL管理员PG中级和PG高级认证考试的各位同学，之前已经能够查到电子版的证书，现在纸质版证书也到啦! 部分学员电子证书：部分学员纸质证书：............ 为什么选择工信人才PostgreSQL认证：发证机构：工信部人才交流中心属于…

阅读更多...

「NOIP2024」树上查询

「NOIP2024」树上查询

update 2024/12/28 题目描述给定一棵树，每次询问区间 \([l,r]\) 的 \[\max_{l \le l \le r \le r \land r - l + 1 \ge k}\text{dep}_ {\text{LCA*}(l, r)} \]引理证明先来证两个区间 \(\text{LCA}\) 的引理：对于 \(\text{LCA} \{ l, l + 1, \dots r\}\) 我们有 \(\text{L…

阅读更多...

Flask Web开发实战：入门、进阶与原理解析PDF免费下载

Flask Web开发实战：入门、进阶与原理解析PDF免费下载

PythonWeb框架Flask开发团队成员撰写，内容全面，从基础知识到进阶实战，再到源码分析，提供完善的Flask学习路径适读人群：本书适合了解Python基本语法，想要自己动手做网站的编程人员；熟悉Python。想要从事Python Web开发的后端工程师、运维工程师和爬虫工程师；香葱Django…

阅读更多...

CMU 15-445 23Fall总结

CMU 15-445 23Fall总结

注：编译、测试之前运行sudo sysctl vm.mmap_rnd_bits=28 BusTubs architecture: 1. Query Processing (查询处理层) 负责将输入的 SQL 查询转化为可执行的物理查询计划。Parser（解析器）：将输入的 SQL 字符串解析为抽象语法树 (AST)，检查 SQL 语法是否合法。 Binder（绑定器…

阅读更多...

从数据到模型，足球预测方法解析

从数据到模型，足球预测方法解析

在足球赛事范畴内，比赛结局始终蕴含着诸多不确定性，而这恰恰构成了足球独特的魅力要素。对于广大球迷而言，尝试预测足球比赛的最终结果，向来是一项极具吸引力与挑战性的活动。近年来，伴随数据科学以及机器学习技术的迅猛发展，足球预测领域发生了深刻变革。这些先进技术为…

阅读更多...

传奇三虚拟机服务端-客户端win10可用

传奇三虚拟机服务端-客户端win10可用

论坛转来的，还没有实验架设传奇3 虚拟机服务端一键架设。。。好吧，三键架设，据说WIN10可玩服务端启动稍微有点步骤，还算简单吧QQ截图20200414142743.jpg (73.53 KB, 下载次数: 0)下载附件2020-4-14 14:41 上传QQ截图20200414142828.jpg (74.73 KB, 下载次数: 0)下载附件20…

阅读更多...

THREE.js学习笔记9——Materials

THREE.js学习笔记9——Materials

这一小节主要学习材质材质用于为几何物理模型的每个可见像素添加颜色。 Materials are used to put a color on each visible pixel of the geometries. 决定每个像素颜色的算法是在程序中编写的，称为着色器。 Three.js 具有许多带有预制着色器的内置材料。 Algorithms that …

阅读更多...

[HarekazeCTF2019]baby_rop2（read的libc）

[HarekazeCTF2019]baby_rop2（read的libc）

一个normal的栈溢出，没有system和binsh，为ret2libc 这里也没有常见的write和puts，所以我们用read泄露libc基址，并使用printf打印read的地址这里注意printf的第一个参数必须是格式字符串，即Welcome to the Pwn World again（地址为0x0400770，第二个参数设为read_got(got表…

阅读更多...

Living-Dream 系列笔记第93期

Living-Dream 系列笔记第93期

最大流 EK & Dinic本文讲解 EK & Dinic 算法。最大流最大流的模型：特别注意：这个流量上限不是单次流量不超过它，而是多次的总和不超过它。 EK 显然这个问题是可以使用 dfs 解决的，但是效率低下。考虑如下的图。我们发现 dfs 有可能走了 \(S \to A \to B \to T\)…

阅读更多...

【每日一题】20250118

【每日一题】20250118

我是时间唯一的主人。成为自己的时间的主人是一种奢侈。我认为这是人类能够送给自己的最奢侈的东西之一。【每日一题】 1.(16分) \(\hspace{0.6cm}\)如图所示，在以坐标原点 \(O\) 为圆心、半径为 \(R\) 的半圆形区域内，有相互垂直的匀强电场和匀强磁场，磁感应强度为 \(B\)，…

阅读更多...

推荐文章

最新文章