DINO-X环境搭建推理测试-编程知识

DINO-X环境搭建推理测试

news/2025/1/8 0:58:04/文章来源:https://www.cnblogs.com/nick-algorithmer/p/18656468

引子

开放世界检测，前文也写OV-DINO（感兴趣的童鞋，请移步OV-DINO开放词检测环境安装与推理-CSDN博客）。这不，DINO系列又更新了。OK，那就让我们开始吧。

一、模型介绍

IDEA 开发了一个通用物体提示来支持无提示的开放世界检测，从而无需用户提供任何提示即可检测图像中的任何内容。发布了DINO系列最新的DINO-X通用视觉大模型，拥有真正的物体级别理解能力，具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。同时构建了一个包含超过 1 亿个高质量基础样本的大规模数据集，称为 Grounding-100M，以提高模型的开放词汇检测性能。还扩展了 DINO-X 以集成多个感知头，从而同时支持多个物体感知和理解任务，包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。

DINO-X的特点：

（1）全面检测

DINO-X在物体检测领域树立新标杆，无需任何提示，即可识别几乎所有物体，并给出其类别，包括罕见的长尾物体（出现频率低但种类繁多的物体）。

（2）最强的开放集检测性能

DINO-X Pro 在零样本转移检测基准上创下了新的 SOTA 结果：COCO 上的56.0 AP、LVIS-minival 上的59.8 AP和LVIS-val 上的52.4 AP。将之前的 SOTA 性能提高了 5.8 个AP 和5.0 个 AP，凸显了其识别长尾物体的能力显著提高。

（3）多样化的输入提示和多层次的输出语义表示

DINO-X整合了多个感知头，支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务，让感知到理解逐步成为了现实。

（4）丰富实用的功能

DINO-X可以同时支持许多实用性极强的任务，包括开放集物体检测与分割、短语基础、视觉提示计数、姿势估计和区域字幕。进一步开发了通用物体提示，以实现无提示的任何物体检测和识别。

二、环境搭建

代码下载

git clone https://github.com/IDEA-Research/DINO-X-API.git