COCONut:打造下一代通用分割数据集,重塑计算机视觉基准

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,计算机视觉技术由于像COCO这样的综合基准数据集的推动而取得了飞速发展。但是,自COCO面世近十年后,其作为现代AI模型基准的适用性正受到质疑。其标注可能包含早期计算机视觉研究中的偏见和细微差别。随着模型在COCO数据集上的表现逐渐趋于平稳,人们担心过度拟合数据集的特定特征,可能限制了其在现实世界中的应用性。

下载:

COCONut: Modernizing COCO Segmentation

为了使COCO分割现代化,研究人员在本文中提出了COCONut——一种全新的、大规模的通用分割数据集。与之前创建大型数据集时常常为了扩展而牺牲标签精度不同,COCONut提供了383K张由人工验证的掩码标记图像。想象一下手工标注数百万个图像中的物体,这将需要数年时间!COCONut通过一个创新的辅助人工标注流程解决了这一挑战,该流程利用神经网络来增强人工标注者的工作效率。

这一流程包括四个关键阶段:机器生成预测、人工检查和编辑、掩码生成/精细化以及专家质量验证。在每个阶段,不同的神经模型分别处理“物体”(可数对象)和“非物体”(无定形区域)类,以确保标注的高质量。

但这个辅助人工流程是如何实际运作的呢?在第一阶段,边界框检测器和掩码分割器分别为“物体”和“非物体”类生成初步提议。人工标注者随后检查这些提议,并根据需要编辑或新增提议。精细化后的框和点被送入不同的模块生成最终的分割掩码。最后,专家标注者验证这些掩码的随机样本,重新标记任何不符合严格质量标准的掩码。

为了扩大数据集规模的同时保持质量,研究人员构建了一个数据引擎。它使用标注数据反复训练神经网络,为标注流程生成更优的提议。这一正向反馈循环,加上来自其他数据集的额外图像,最终形成了包含358K张图像和475万个掩码的COCONut-L分割。

研究人员进行了全面分析,将COCONut的标注与纯人工标注进行了比较。他们的专家标注者在“物体”和“非物体”掩码上展现了高度一致性。与此同时,辅助人工流程显著加快了“物体”类的标注速度。COCONut分为三种规模——COCONut-S(118K张图像)、COCONut-B(242K张图像)和COCONut-L(358K张图像,带475万个掩码)。量化结果显示,随着训练集规模从COCONut-S扩展到COCONut-L,各种神经架构的表现都有所改善。

有趣的是,尽管较大的伪标签数据集带来的收益有限,但在完全由人工标注的COCONut-B上训练带来了最显著的性能提升。这强调了人工标注

数据对于训练强大的分割模型的重要性。

COCONut代表了COCO基准现代化的重大进步。凭借其精心人工验证的标注和严格策划的25K图像验证集(COCONut-val),它有望成为评估当代分割模型的更具挑战性的测试平台。COCONut的开源发布为开发更能力强大、更公正的计算机视觉系统铺平了道路,这些系统适用于现实世界的场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/640663.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

医院敏感文件交互 如何保障安全和效率?

医院会产生大量的敏感文件,这些敏感文件交互时,都需要使用特殊的手段,来保障数据的安全性。 医院的敏感数据主要包括以下几类: 1、患者基本信息:包括患者的姓名、身份证号码、户籍地或现住址、联系方式、文化程度、既…

vscode ssh远程连接服务器,一直正在下载vscode服务器的解决办法

前言 为方便描述,在本教程中,发起远程连接的叫“主机”,被远程连接的叫“服务器”。 正文 如果主机是首次用vscode远程连接服务器,会在服务器上自动下载vscode服务器,但有时候因为网络问题,会卡在&#xff…

论文笔记:Leveraging Language Foundation Models for Human Mobility Forecasting

SIGSPATIAL 2022 1intro 语言模型POI客流量预测 2 方法 3 实验

燃冬之yum、vim和你

了解了很多指令和权限,搞点真枪实弹来瞅瞅 学Linux不是天天就在那掰扯指令玩,也不是就研究那个权限 准备好迎接Linux相关工具的使用了么码农桑~ yum 软件包 什么是软件包呢? 首先来举个生活中常见点的例子:比如我的手机是华为…

C++之写时复制(CopyOnWrite)

设计模式专栏:http://t.csdnimg.cn/4j9Cq 目录 1.简介 2.实现原理 3.QString的实现分析 3.1.内部结构 3.2.写入时复制 4.示例分析 5.使用场景 6.总结 1.简介 CopyOnWrite (COW) 是一种编程思想,用于优化内存使用和提高性能。COW 的基本思想是&am…

开源博客项目Blog .NET Core源码学习(17:App.Hosting项目结构分析-5)

本文学习并分析App.Hosting项目中前台页面的作品展示页面和首页页面。 作品展示页面 作品展示页面总体上为上下布局,上方显示导航菜单,下方从左向右显示图片数据,支持放大查看图片和下载图片。整个页面使用了layui中的面包屑导航、弹出层、流…

[Linux][多线程][二][线程互斥][互斥量][可重入VS线程安全][常见锁概念]

目录 1.线程互斥1.互斥相关背景概念2.多个线程并发的操作共享变量,会带来一些问题3.互斥量mutex 2.互斥量的接口1.初始化互斥量2.销毁互斥量3.加锁4.解锁5.使用 -- 改善上面代码 3.互斥量实现原理探究1.加锁是如何保证原子性的?2.如何保证锁是原子性的&a…

[Algorithm][二分查找][山峰数组的峰顶索引][寻找峰值][寻找旋转排序数组中的最小值][0~n-1中缺失的数字]详细讲解

目录 1.山脉数组的峰顶索引1.题目链接2.算法原理详解3.代码实现 2.寻找峰值1.题目链接2.算法原理详解3.代码实现 3.寻找旋转排序数组中的最小值1.题目链接2.算法原理详解3.代码实现 4.0〜n-1 中缺失的数字1.题目链接2.算法原理详解3.代码实现 1.山脉数组的峰顶索引 1.题目链接…

智慧安防边缘计算硬件AI智能分析网关V4算法启停的操作步骤

TSINGSEE青犀视频智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为等实时检测分析,上报识别结果,并能进行语音告警播放。硬件管理平台支持RTSP、GB28181协议、以及厂家私有协议接入,可兼容市面上常…

山与路远程控制 一个基于electron和golang实现的远控软件

山与路远程控制 🎥项目演示地址 还在制作… ♻️项目基本介绍 山与路远程控制是基于electron(vue3)和golang实现的远程控制软件(项目界面主要模仿向日葵远程软件,如有侵权请告知),代码可能有点臃肿毕竟只花了一周左右写的无聊项目,如果对其感兴趣的大佬可以fork自…

鸿蒙开发实例:【配置OpenHarmony SDK】

配置OpenHarmony SDK 在设置OpenHarmony应用开发环境时,需要开发者在DevEco Studio中配置对应的SDK信息。 说明: 请注意,OpenHarmony SDK版本精简了部分工具链,因此不适用于HarmonyOS应用开发。 前提条件 已下载并安装好DevEco …

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单人脸检测/识别实战案例 之四 简单行人人体检测效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单人脸检测/识别实战案例 之四 简单行人人体检测效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单人脸检测/识别实战案例 之四 简单行人人体检测效果 一、简单介绍 二、简单行人人体检测效果实现原理 三、简…