Qwen2.5-VL:更强大的多模态大模型|附实测结果

模型更新简述

几天前,通义千问更新了最新的多模态大模型Qwen2.5-VL,拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸,同时完全开源,可在huggingface和modelscope下载到所有模型权重。

1. 更灵活的时空维度处理

● 空间维度上,动态地将不同尺寸的图像转换为不同长度的token,并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上,使用了动态FPS训练和绝对时间编码,使得模型能够通过时间维度 id 的间隔来学习时间的节奏

2. 更精简高效的视觉编码器

● 引入了窗口注意力机制,有效减少了 ViT 端的计算负担,提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构,使 ViT 架构与 LLMs 更加一致,简化了整体网络结构。

模型能力简述

● 视觉理解:具备更强的图片识别能力,能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力:具备推理能力,能够推理和使用工具,支持在电脑、手机上进行交互。
● 长视频理解:能够处理小时级的视频,精确定位视频中的具体时间段和事件。
● 精确定位:提升了物体检测、指向和计数的准确性,支持生成边界框和JSON输出,进行准确的对象检测。
● 结构化数据输出:可以处理多场景、多语言的文档,支持手写文字、表格、图表、化学公式和乐谱等多种格式识别,适用于金融和商业领域,处理发票、表格等。

效果实测

1. 表格解析

直接输入一张带有合并单元格的表格,并且单元格边框不明确,让模型转换为Markdown格式。

可以看到Markdown的结果丢失了表头,导致正文部分最后一列被忽略了。对于这种带有单元格合并的表格,会存在部分单元格却失的情况。

2. 票据识别与计算

第一个测试比较简单,让模型理解发票的金额。

第二个测试稍微难了些,需要进行简单的计算,但是过程和结果都是对的。

3. 文字识别

识别图片中的文字,并且按顺序输出。

4 文档解析

Qwen2.5-VL支持将文档解析为HTML 格式,但是从实际测试来看,没有完全将文档的布局进行还原,文档中的图片也无法恢复。

总结

这版模型增强了对于文档的解析和问答效果,可以一定程度上替代OCR模型的使用,也具备关键信息提取的能力,同时能够实现格式化输出。
表格解析和文档解析可能会有丢失格式的情况,在文档解析中,原始文档中的图片是没法复原的。这个过程可能也与提示词有关,或者需要多轮交互让模型输出正确的样式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/877501.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第五节上,图像分类实战,食物分类

随机种子固定随机结果,方便复现 def seed_everything(seed):torch.manual_seed(seed)torch.cuda.manual_seed(seed)torch.cuda.manual_seed_all(seed)torch.backends.cudnn.benchmark = Falsetorch.backends.cudnn.deterministic = Truerandom.seed(seed)np.random.seed(seed)o…

对比使用DeepSeek与文新一言,了解DeepSeek的关键技术论文

DeepSeek是国内大模型技术的新秀,最近也在业界和媒体界火爆出圈,所以想学习一下其技术。 大模型时代,学习知识,当然首先想到利用大模型,由于在过去一年,对DeepSeek使用不多,所以想和文新一言(4.0 Turbo)对比使用。 通过对比,针对同一个问题“DeepSeek发扬开源文化,将…

Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件

Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件Cisco NX-OS Software Release 10.5(2)F - 网络操作系统软件 NX-OS 网络操作系统 请访问原文链接:https://sysin.org/blog/cisco-nx-os-10/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.orgCisco NX-OS…

pdf处理--tts(待重写)

1.提取正文2.裁剪页眉 https://smallpdf.com/cn/crop-pdf#r=crop-pages3.拆分4.ocr 效果图--白描:效果图--4Videosoft PDF Converter Ultimate:5.阅读器与tts引擎 开源阅读:https://github.com/gedoor/legado tts-server-android:https://github.com/jing332/tts-server-an…

INFINI Labs 产品更新 | Console 发布 TopN 功能,Easysearch 新增 Rollup 能力等

INFINI Labs 产品全新发布!此次更新为大家带来了 Console 的全新 TopN 功能,让您能够更高效地定位最关键的节点或索引;Easysearch 新增 Rollup 能力,大幅提升监控指标的存储周期并优化分析体验;此外,Framework 还修复了多项缺陷并进行了多处优化。欢迎下载体验,探索更多…

03-一个例子

登录被测系统bysms双击运行runserver.bat 访问页面:http://127.0.0.1/mgr/sign.html 账号:byhy,密码:88888888 可以直接在pycharm的Terminal中运行hytest,不需要打开命令行窗口 浏览器驱动的打印信息: 禁止 chromedriver 日志写屏1 from selenium import webdriver 2 3 …

blog tips

markdown 内嵌 html 使图片并排点击查看代码 <div style="display: flex; gap: 10px; justify-content: space-between;"><img src="图片1地址" style="width: 49%; height: auto;"/><img src="图片2地址" style="…

【数学】已知正方形相邻两点坐标求另外两点坐标

已知正方形相邻两点(a,b)与(c,d)坐标公式: \( (x_3,y_3) = (c + (b-d), d - (a-c)) \\ (x_4,y_4) = (a + (b-d), b - (a-c)) \\ (x_5,y_5) = (a - (b-d), b + (a-c)) \\ (x_6,y_6) = (c - (b-d), d + (a-c)) \)

25.1.31小记

多态类型声明类型 : 定义时候的类型 动态类型 : 运行到那里的时候对应的具体类型 向上造型(cast) : 将子类类型的对象赋给父类的变量 (不能将一个父类的变量赋予一个子类的变量) 赋值运算符 : 将管理者管理的对象进行改变(改变的是指针)其中造型(cast)的意义是将某…

MacOS修改应用快捷键的一般思路

具体步骤为:使用CheatSheet软件查看菜单项名称 在系统设置中修改菜单项的快捷键举个例子:修改Chrome中左右切换tab的快捷键(系统语言为英文,中文同理) 默认采用Ccontrol Tab和Control + Shift + Tab(或Command Shift [和Command Shift ])可以左右切换tab。 现在希望将其…

UE4.27, 模块实践, Slate的UI开发 (一)

1. 基本概念1.1. Slate是虚幻UI框架设计的底层,该框架中最基本的类是SWidget1.1.1.显然,我们容易注意到,直属于该框架的类拥有着指定的命名规则,即以S开头1.2. UMG, UWidget, Slate关联1.2.1. UMG:Unreal Motion Graphics UI Designer 虚幻的图形界面设计工具1.2.2. 单纯Sl…

Brainfly: 用 C# 类型系统构建 Brainfuck 编译器

Brainfly: 用 C# 类型系统构建 Brainfuck 编译器Brainfuck 简介 Brainfuck 是由 Urban Mller 在 1993 年创造的一门非常精简的图灵完备的编程语言。 正所谓大道至简,这门编程语言简单到语法只有 8 个字符,每一个字符对应一个指令,用 C 语言来描述的话就是:字符 含义> ++…