开放世界检测,前文也写OV-DINO(感兴趣的童鞋,请移步
一、模型介绍
IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。发布了DINO系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。同时构建了一个包含超过 1 亿个高质量基础样本的大规模数据集,称为 Grounding-100M,以提高模型的开放词汇检测性能。还扩展了 DINO-X 以集成多个感知头,从而同时支持多个物体感知和理解任务,包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。
DINO-X的特点:
(1)全面检测
DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。
(2)最强的开放集检测性能
DINO-X Pro 在零样本转移检测基准上创下了新的 SOTA 结果:COCO 上的56.0 AP、LVIS-minival 上的59.8 AP和LVIS-val 上的52.4 AP。将之前的 SOTA 性能提高了 5.8 个AP 和5.0 个 AP,凸显了其识别长尾物体的能力显著提高。
(3)多样化的输入提示和多层次的输出语义表示
DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。
(4)丰富实用的功能
DINO-X可以同时支持许多实用性极强的任务,包括开放集物体检测与分割、短语基础、视觉提示计数、姿势估计和区域字幕。进一步开发了通用物体提示,以实现无提示的任何物体检测和识别。
二、环境搭建
代码下载
git clone
docker run -it -v /datas/work/zzq/:/workspace --gpus=all df5a406e137e bash
cd /workspace/DINO-X/DINO-X-API-main#
pip install -r requirements.txt -i
三、推理测试
python demo.py
好吧,需要申请token。。。