DINO-X环境搭建推理测试

引子

开放世界检测,前文也写OV-DINO(感兴趣的童鞋,请移步OV-DINO开放词检测环境安装与推理-CSDN博客)。这不,DINO系列又更新了。OK,那就让我们开始吧。

 

一、模型介绍

IDEA 开发了一个通用物体提示来支持无提示的开放世界检测,从而无需用户提供任何提示即可检测图像中的任何内容。发布了DINO系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。同时构建了一个包含超过 1 亿个高质量基础样本的大规模数据集,称为 Grounding-100M,以提高模型的开放词汇检测性能。还扩展了 DINO-X 以集成多个感知头,从而同时支持多个物体感知和理解任务,包括检测、分割、姿势估计、物体字幕、基于物体的 QA 等。

DINO-X的特点:

(1)全面检测

DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

(2)最强的开放集检测性能

DINO-X Pro 在零样本转移检测基准上创下了新的 SOTA 结果:COCO 上的56.0 AP、LVIS-minival 上的59.8 AP和LVIS-val 上的52.4 AP。将之前的 SOTA 性能提高了 5.8 个AP 和5.0 个 AP,凸显了其识别长尾物体的能力显著提高。

(3)多样化的输入提示和多层次的输出语义表示

DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

(4)丰富实用的功能

DINO-X可以同时支持许多实用性极强的任务,包括开放集物体检测与分割、短语基础、视觉提示计数、姿势估计和区域字幕。进一步开发了通用物体提示,以实现无提示的任何物体检测和识别。

二、环境搭建

代码下载

git clone https://github.com/IDEA-Research/DINO-X-API.git

docker run -it -v /datas/work/zzq/:/workspace --gpus=all df5a406e137e bash

cd /workspace/DINO-X/DINO-X-API-main#

pip install -r requirements.txt -i Simple Index

三、推理测试

python demo.py

好吧,需要申请token。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/865086.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文说透汇编语言中的各种地址

本文讨论了学习汇编语言时一些易混淆的、关于地址的概念前言 由于笔者水平有限,随笔中难免有些许纰漏和错误,希望广大读者能指正。 一、各种地址之间的区分 笔者在刚开始学习汇编语言时,不是很能分清楚汇编地址、逻辑地址、物理地址、段地址、偏移地址、线性地址等概念,这对…

什么是自动化测试?为什么要做自动化测试?如何学习自动化测试?

自动化测试是指使用软件工具和脚本来执行测试任务的过程。它可以自动化执行测试用例、生成测试报告和进行结果分析。自动化测试可以减少人工测试的工作量,并提高测试的效率和准确性。它在软件开发过程中起到了重要的作用,可以帮助开发团队快速发现和修复软件中的缺陷,确保软…

o3 发布了,摔碎了码农的饭碗

大家好,我是汤师爷~ 在 2024 年底,OpenAI 发布了最新推理模型 o3。o3模型相当炸裂,在世界级编程比赛中拿下第 175 名,打败 99.9% 的参赛者。AI 写代码都赶上顶级程序员了,程序员是不是要失业?最近不少读者反馈,像 GitHub Copilot、Claude Sonnet 3.5、Cursor 等 AI 辅助…

Diary - 2025.01.06

回到正轨了,感觉今天好像不太摆了,但还是在小摸阿发现昨天日期写成 2024 了。明天计划来说应该是主要写题解了!!! 上午还有个模拟赛,但是说不定又是像之前那样拉个 USACO 来(?)。 仍记那时 USACO 金组没 ak,t3 被卡常了,6。 明天要写的题解:Luogu P11513 [ROIR 201…

前端必备基础系列(七)原型/原型链/this

对象的原型: JavaScript中每个对象都有一个特殊的内置属性[[prototype]],这个特殊属性指向另外一个对象。 当我们访问一个对象上的某个属性时,首先会检查这个对象自身有没有这个属性,如果没有就会去[[prototype]]指向的对象查找。 那么这个特性就可以帮助我们实现继承了。 …

cv2.imwrite保存的图像是全黑的

1.保存,全黑的图像cv2.imwrite(img/test.jpg, imutils.resize(enhancedImg, height=151,width=240))2.原因分析 3.原本image是0-255的数值,现在标准化了,全都是0-1之间的数值,还原,乘以255,图片输出正常。cv2.imwrite(img/test1.jpg, imutils.resize(enhancedImg, height…

SaltStack快速入门

Saltstack快速入门 saltstack介绍 Salt,一种全新的基础设施管理方式,部署轻松,在几分钟内可运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯 主要功能:远程执行 配置管理,参考官方文档: http://docs.saltstack.cn/ 安装说明: https://docs.s…

计数问题选讲做题记录

从 $1+1$ 到 $\exp(\sum\limits_{i=1}^k\ln(1+ix))$。计数杂题。calc 考虑先不管数字之间的顺序,最后给答案乘上一个 \(n!\)。 记 \(dp_{i,j}\) 表示前 \(i\) 个数在 \([1,j]\) 之间选,所产生的总贡献,显然有 \(dp_{i,j}=dp_{i,j-1}+j\times dp_{i-1,j-1}\),最后的答案是 \…

如何构建高效的智能体

简单才是王道:构建高效 AI 智能体的秘诀!工作流为简单任务提供可预测性,而智能体在复杂场景中展现灵活性。本指南深入解析如何优化工具设计、选择框架,并平衡复杂性与性能,助你构建可靠且高效的 AI 系统。 如何构建高效的智能体Anthropic 刚刚发布了一份关于“如何构建高…

昆明理工大学计算机891考研复试真题

--昆工昆明理工大学计算机技术人工智能软件工程网络空间安全计算机系统结构计算机软件与理论计算机应用技术网络与信息安全408考研综合程序设计891计算机专业核心综合数据库系统原理