Qwen2.5-VL：更强大的多模态大模型｜附实测结果

news/2025/3/6 10:03:43/文章来源:https://www.cnblogs.com/deeplearningmachine/p/18696206

模型更新简述

几天前，通义千问更新了最新的多模态大模型Qwen2.5-VL，拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸，同时完全开源，可在huggingface和modelscope下载到所有模型权重。

1. 更灵活的时空维度处理

● 空间维度上，动态地将不同尺寸的图像转换为不同长度的token，并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上，使用了动态FPS训练和绝对时间编码，使得模型能够通过时间维度 id 的间隔来学习时间的节奏

2. 更精简高效的视觉编码器

● 引入了窗口注意力机制，有效减少了 ViT 端的计算负担，提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构，使 ViT 架构与 LLMs 更加一致，简化了整体网络结构。

模型能力简述

● 视觉理解：具备更强的图片识别能力，能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力：具备推理能力，能够推理和使用工具，支持在电脑、手机上进行交互。
● 长视频理解：能够处理小时级的视频，精确定位视频中的具体时间段和事件。
● 精确定位：提升了物体检测、指向和计数的准确性，支持生成边界框和JSON输出，进行准确的对象检测。
● 结构化数据输出：可以处理多场景、多语言的文档，支持手写文字、表格、图表、化学公式和乐谱等多种格式识别，适用于金融和商业领域，处理发票、表格等。

效果实测

1. 表格解析

直接输入一张带有合并单元格的表格，并且单元格边框不明确，让模型转换为Markdown格式。

可以看到Markdown的结果丢失了表头，导致正文部分最后一列被忽略了。对于这种带有单元格合并的表格，会存在部分单元格却失的情况。

2. 票据识别与计算

第一个测试比较简单，让模型理解发票的金额。

第二个测试稍微难了些，需要进行简单的计算，但是过程和结果都是对的。

3. 文字识别

识别图片中的文字，并且按顺序输出。

4 文档解析

Qwen2.5-VL支持将文档解析为HTML 格式，但是从实际测试来看，没有完全将文档的布局进行还原，文档中的图片也无法恢复。

总结

这版模型增强了对于文档的解析和问答效果，可以一定程度上替代OCR模型的使用，也具备关键信息提取的能力，同时能够实现格式化输出。
表格解析和文档解析可能会有丢失格式的情况，在文档解析中，原始文档中的图片是没法复原的。这个过程可能也与提示词有关，或者需要多轮交互让模型输出正确的样式。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/877501.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

第五节上，图像分类实战，食物分类

第五节上，图像分类实战，食物分类

随机种子固定随机结果,方便复现 def seed_everything(seed):torch.manual_seed(seed)torch.cuda.manual_seed(seed)torch.cuda.manual_seed_all(seed)torch.backends.cudnn.benchmark = Falsetorch.backends.cudnn.deterministic = Truerandom.seed(seed)np.random.seed(seed)o…

阅读更多...

对比使用DeepSeek与文新一言，了解DeepSeek的关键技术论文

对比使用DeepSeek与文新一言，了解DeepSeek的关键技术论文

DeepSeek是国内大模型技术的新秀，最近也在业界和媒体界火爆出圈，所以想学习一下其技术。大模型时代，学习知识，当然首先想到利用大模型，由于在过去一年，对DeepSeek使用不多，所以想和文新一言（4.0 Turbo）对比使用。通过对比，针对同一个问题“DeepSeek发扬开源文化，将…

阅读更多...

Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件

Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件

Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件 NX-OS 网络操作系统请访问原文链接：https://sysin.org/blog/cisco-nx-os-10/ 查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgCisco NX-OS…

阅读更多...

pdf处理--tts（待重写）

pdf处理--tts（待重写）

1.提取正文2.裁剪页眉 https://smallpdf.com/cn/crop-pdf#r=crop-pages3.拆分4.ocr 效果图--白描：效果图--4Videosoft PDF Converter Ultimate：5.阅读器与tts引擎开源阅读：https://github.com/gedoor/legado tts-server-android：https://github.com/jing332/tts-server-an…

阅读更多...

INFINI Labs 产品更新 | Console 发布 TopN 功能，Easysearch 新增 Rollup 能力等

INFINI Labs 产品更新 | Console 发布 TopN 功能，Easysearch 新增 Rollup 能力等

INFINI Labs 产品全新发布！此次更新为大家带来了 Console 的全新 TopN 功能，让您能够更高效地定位最关键的节点或索引；Easysearch 新增 Rollup 能力，大幅提升监控指标的存储周期并优化分析体验；此外，Framework 还修复了多项缺陷并进行了多处优化。欢迎下载体验，探索更多…

阅读更多...

03-一个例子

03-一个例子

登录被测系统bysms双击运行runserver.bat 访问页面：http://127.0.0.1/mgr/sign.html 账号：byhy，密码：88888888 可以直接在pycharm的Terminal中运行hytest，不需要打开命令行窗口浏览器驱动的打印信息：禁止 chromedriver 日志写屏1 from selenium import webdriver 2 3 …

阅读更多...

blog tips

blog tips

markdown 内嵌 html 使图片并排点击查看代码 <div style="display: flex; gap: 10px; justify-content: space-between;"><img src="图片1地址" style="width: 49%; height: auto;"/><img src="图片2地址" style="…

阅读更多...

【数学】已知正方形相邻两点坐标求另外两点坐标

【数学】已知正方形相邻两点坐标求另外两点坐标

已知正方形相邻两点(a,b)与(c,d)坐标公式： \( (x_3,y_3) = (c + (b-d), d - (a-c)) \\ (x_4,y_4) = (a + (b-d), b - (a-c)) \\ (x_5,y_5) = (a - (b-d), b + (a-c)) \\ (x_6,y_6) = (c - (b-d), d + (a-c)) \)

阅读更多...

25.1.31小记

25.1.31小记

多态类型声明类型：定义时候的类型动态类型：运行到那里的时候对应的具体类型向上造型（cast）：将子类类型的对象赋给父类的变量（不能将一个父类的变量赋予一个子类的变量）赋值运算符：将管理者管理的对象进行改变（改变的是指针）其中造型（cast）的意义是将某…

阅读更多...

MacOS修改应用快捷键的一般思路

MacOS修改应用快捷键的一般思路

具体步骤为：使用CheatSheet软件查看菜单项名称在系统设置中修改菜单项的快捷键举个例子：修改Chrome中左右切换tab的快捷键（系统语言为英文，中文同理）默认采用Ccontrol Tab和Control + Shift + Tab（或Command Shift [和Command Shift ]）可以左右切换tab。现在希望将其…

阅读更多...

UE4.27, 模块实践, Slate的UI开发 (一)

UE4.27, 模块实践, Slate的UI开发 (一)

1. 基本概念1.1. Slate是虚幻UI框架设计的底层，该框架中最基本的类是SWidget1.1.1.显然，我们容易注意到，直属于该框架的类拥有着指定的命名规则，即以S开头1.2. UMG, UWidget, Slate关联1.2.1. UMG:Unreal Motion Graphics UI Designer 虚幻的图形界面设计工具1.2.2. 单纯Sl…

阅读更多...

Brainfly: 用 C# 类型系统构建 Brainfuck 编译器

Brainfly: 用 C# 类型系统构建 Brainfuck 编译器

Brainfly: 用 C# 类型系统构建 Brainfuck 编译器Brainfuck 简介 Brainfuck 是由 Urban Mller 在 1993 年创造的一门非常精简的图灵完备的编程语言。正所谓大道至简，这门编程语言简单到语法只有 8 个字符，每一个字符对应一个指令，用 C 语言来描述的话就是：字符含义> ++…

阅读更多...

推荐文章

最新文章