综合、诊断和优化:迈向精细视觉语言理解
6.8.1 综合、诊断和优化:迈向精细视觉语言理解概述
视觉语言模型(VLM)在各种下游任务中表现出了卓越的性能。
然而,理解细粒度的视觉语言概念,如属性和对象间关系,仍然是一个重大的挑战。虽然有几个基准旨在以更精细的粒度评估VLM,但它们的主要重点仍然是语言方面,而忽略了视觉维度。在这里,强调了从文本和视觉角度评估VLM的重要性。引入了一个渐进式流水线来合成在特定属性上变化的图像,同时确保所有其他方面的一致性。利用这个数据引擎,精心设计了一个基准SPEC,用于诊断对对象大小、位置、存在和计数的理解。随后,对SPEC上的四种领先的VLM进行了全面评估。
令人惊讶的是,他们的表现接近随机猜测,揭示了明显的局限性。考虑到这一点,提出了一种简单而有效的方法来优化模糊理解中的VLM,在不影响零样本性能的情况下实现对SPEC的显著改进。
另外两个细粒度基准测试的结果也显示了一致的改进,进一步验证了方法的可转移性。
6.8.2 综合、诊断和优化:迈向精细视觉语言理解技术分析
数据渐进式构建管道的整体说明,如图6-11所示。
图6-11 数据渐进式构建管道的整体说明
在图6-11中,通过生成包含单个对象的一批图像来启动该过程。随后,从图像中的背景中提取对象。之后,根据指定(控制属性)在空白画布上排列无背景图像。最后,精心筛选缺失的背景,确保候选人之间的一致性。
一致的背景修复策略如图6-12所示。
图6-12 一致的背景修复策略
在图6-12中,首先生成所有候选图像共享的初始背景。然后,围绕这个区域展开,确保不同图像背景的一致性。
6.8.3 结论
探讨了视觉语言模型(VLMs)对细粒度视觉语言概念的理解能力。首先建立了一个有效的管道来合成在特定视觉属性上完全不同的候选图像。利用此管道,创建了SPEC基准,以诊断VLM在对象大小、位置、存在和计数方面的理解能力。评估四大领先使用SPEC的VLM,发现了实质性的性能限制。为了解决这个问题,引入了一种增强策略,该策略有效地优化了模型以进行模糊粒度理解,同时保持了其原始的零样本能力。