OmniParser
是微软开发的一个用于解析用户界面(UI)截图的工具,旨在将这些截图转换为结构化数据。这个工具的主要目标是提升大型语言模型(如GPT-4V)与图形用户界面的互动能力。它能够识别截图中可交互的元素(如图标和按钮),并理解这些元素的语义,以便生成相应的操作指令。
OmniParser由两个专门训练的模型组成:一个基于YOLOv8的模型负责检测屏幕上的可点击区域,另一个基于BLIP-2的模型用于生成图标的功能描述。这些模型使用从热门网页收集的数据集进行微调,能够自动检测界面中的互动图标并提供文字描述。该工具在多个基准测试中表现优异,特别是在ScreenSpot等任务中,OmniParser明显提升了语言模型在处理UI元素时的准确性和效率。
此外,它还在Mind2Web和AITW等数据集上表现优于依赖额外信息的其他模型。不过需要注意的是,OmniParser在处理敏感内容或推断某些UI元素(如性别、种族)时仍存在一定的局限性。
模型地址
https://huggingface.co/microsoft/OmniParser
源码地址
https://github.com/microsoft/OmniParser