模型更新简述
几天前,通义千问更新了最新的多模态大模型Qwen2.5-VL,拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸,同时完全开源,可在huggingface和modelscope下载到所有模型权重。
1. 更灵活的时空维度处理
● 空间维度上,动态地将不同尺寸的图像转换为不同长度的token,并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上,使用了动态FPS训练和绝对时间编码,使得模型能够通过时间维度 id 的间隔来学习时间的节奏
2. 更精简高效的视觉编码器
● 引入了窗口注意力机制,有效减少了 ViT 端的计算负担,提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构,使 ViT 架构与 LLMs 更加一致,简化了整体网络结构。
模型能力简述
● 视觉理解:具备更强的图片识别能力,能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力:具备推理能力,能够推理和使用工具,支持在电脑、手机上进行交互。
● 长视频理解:能够处理小时级的视频,精确定位视频中的具体时间段和事件。
● 精确定位:提升了物体检测、指向和计数的准确性,支持生成边界框和JSON输出,进行准确的对象检测。
● 结构化数据输出:可以处理多场景、多语言的文档,支持手写文字、表格、图表、化学公式和乐谱等多种格式识别,适用于金融和商业领域,处理发票、表格等。
效果实测
1. 表格解析
直接输入一张带有合并单元格的表格,并且单元格边框不明确,让模型转换为Markdown格式。
可以看到Markdown的结果丢失了表头,导致正文部分最后一列被忽略了。对于这种带有单元格合并的表格,会存在部分单元格却失的情况。
2. 票据识别与计算
第一个测试比较简单,让模型理解发票的金额。
第二个测试稍微难了些,需要进行简单的计算,但是过程和结果都是对的。
3. 文字识别
识别图片中的文字,并且按顺序输出。
4 文档解析
Qwen2.5-VL支持将文档解析为HTML 格式,但是从实际测试来看,没有完全将文档的布局进行还原,文档中的图片也无法恢复。
总结
这版模型增强了对于文档的解析和问答效果,可以一定程度上替代OCR模型的使用,也具备关键信息提取的能力,同时能够实现格式化输出。
表格解析和文档解析可能会有丢失格式的情况,在文档解析中,原始文档中的图片是没法复原的。这个过程可能也与提示词有关,或者需要多轮交互让模型输出正确的样式。