2023年计算机视觉领域突破性研究有哪些?

  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

​回顾2023年,计算机视觉领域有哪些较为突出的研究成果?一起看看吧

SAM(Segment Anything Model)

在这里插入图片描述

SAM 由 Meta AI 开发,是 CV 中分割任务的基础模型,彻底改变了像素级分类,几乎可以分割图像中的任何内容。这一发展为各种数据集的复杂分割任务开辟了新的途径

SAM可根据输入提示(如点或方框)生成高质量的对象遮罩,并可用于为图像中的所有对象生成遮罩。该模型已在一个包含 1100 万张图像和 11 亿个遮罩的数据集上进行过训练,在各种分割任务中都具有很强的零误差性能,放眼2023毫无疑问是top级进展

https://github.com/facebookresearch/segment-anything

Multimodal Large Language Models (LLMs)

在这里插入图片描述

像 GPT-4 这样的模型在文本和视觉数据之间架起了桥梁,为人工智能提供了理解和解释复杂的多模态输入的能力。它们在增强人工智能处理文本和视觉线索并对其做出反应的能力方面发挥了至关重要的作用,从而带来了更复杂的人工智能应用

https://openai.com/research/gpt-4

YOLOv8

在这里插入图片描述

YOLO 系列的这一升级版以其更快的速度和更高的精度为物体检测设定了新标准。是一款最先进的 (SOTA) 模型,它在以往 YOLO 版本成功的基础上引入了新的功能和改进,进一步提高了性能和灵活性。YOLOv8 设计快速、准确、易用,是各种物体检测和跟踪、实例分割、图像分类和姿态估计任务的绝佳选择

https://github.com/ultralytics/ultralytics

DINOv2(Self-supervised Learning Model)

在这里插入图片描述

在这里插入图片描述

DINOv2 标志着 CV 在自监督学习方面迈出了重要一步,通过减少对大型注释数据集的依赖,DINOv2 展示了自监督方法的潜力,可以用较少的标注图像训练出高质量的模型

https://ai.meta.com/blog/dino-v2-computer-vision-self-supervised-learning/

Text-to-Image (T2I) Models

涉及这方面的模型有很多

  • Midjourney creations (https://aituts.com/midjourney-versions/)
  • DALL-E 3 (https://openai.com/dall-e-3)
  • Stable Diffusion XL (https://stablediffusionxl.com/)
  • Imagen 2 (https://deepmind.google/technologies/imagen-2/)

这些研究极大地提高了人工智能根据文字描述生成图像的质量和逼真度,促进了数字艺术生成等创造性应用,使人工智能成为艺术家和设计师的宝贵工具

LoRA for CV

在这里插入图片描述

LoRA 最初是为微调大型语言模型而开发的,后来在 CV 中找到了新的应用。提供了一种灵活高效的方法,可针对特定任务调整现有模型,大大提高了 CV 模型的通用性

https://huggingface.co/blog/lcm_lora

Ego-Exo4D Dataset

在这里插入图片描述

Meta 提供的 Ego-Exo4D 数据集代表了视频学习和多模态感知方面的重大进步,提供了丰富的第一人称和第三人称镜头,可以为人类活动识别和其他应用开发更复杂的模型

https://ai.meta.com/blog/ego-exo4d-video-learning-perception/

Text-to-Video (T2V) Models

T2V 模型如

  • Runway (https://runwayml.com/)
  • Pika Labs (https://pika.art/)
  • Emu Video (https://emu-video.metademolab.com/)

通过文本描述创建高质量视频,为人工智能生成内容带来了新的维度。这一创新为娱乐和教育等领域提供了可能性,因为在这些领域动态视觉内容至关重要

Gaussian Splatting for View Synthesis

在这里插入图片描述

这项技术代表了视图合成领域的一种新方法,与神经辐射场(NeRFs)等现有方法相比,它在训练时间、延迟和准确性等方面都有所改进,从而重塑了三维渲染的格局

3D Gaussian Splatting 是《3D Gaussian Splatting for Real-Time Radiance Field Rendering》一书中描述的一种光栅化技术,可实时渲染从小图像样本中学习的逼真场景

https://huggingface.co/blog/gaussian-splatting
https://huggingface.co/papers/2308.04079

StyleGAN3

在这里插入图片描述
StyleGAN3 突破了生成模型的界限,尤其是在创建超逼真图像和视频方面。这一进步拓展了生成模型在创建精细逼真的数字艺术和动画方面的能力

https://github.com/NVlabs/stylegan3

以上就是本期的全部内容,更多文字总结可关注公粽号【啥都会一点的研究生】,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/449534.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Lambda表达式(匿名函数)

C11中引入了lambda表达式,定义匿名的内联函数。 我们可以直接原地定义函数而不用再跑到外面去定义函数跳来跳去。 同时在stl的排序上也有作用。 [capture] (parameters) mutable ->return-type {statement}下面逐一介绍各个参数的含义. [capture] : 捕获&#…

【Rust】——rust前言与安装rust

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

【gcc】webrtc发送侧计算 丢包率

大神的分析 : 提到: 每当收到cc-feedback或者收到RR-report的时候就能统计出丢包率,在cc-controller中就会调用SendSideBandwidthEstimation::UpdatePacketsLost()去更新丢包率,同时进行码率预估 G:\CDN\rtcCli\m98\src\modules\congestion_controller\goog_cc\send_side_b…

《统计学习方法:李航》笔记 从原理到实现(基于python)-- 第6章 逻辑斯谛回归与最大熵模型(1)6.1 逻辑斯谛回归模型

文章目录 第6章 逻辑斯谛回归与最大熵模型6.1 逻辑斯谛回归模型6.1.1 逻辑斯谛分布6.1.2 二项逻辑斯谛回归模型6.1.3 模型参数估计6.1.4 多项逻辑斯谛回归 《统计学习方法:李航》笔记 从原理到实现(基于python)-- 第3章 k邻近邻法 《统计学习…

Vue2+ElementUI 弹窗全局拖拽 支持放大缩小

拖拽组件 dialogDrag.vue <template><div></div> </template> <script>export default {name: dialogDrag,data() {return {originalWidth: null,originalHeight: null}},created() {this.$nextTick(()>{this.dialogDrag()})},mounted() {}…

win wsl2 Ubuntu-22.04 设置时间为国内时间

使用 wsl2 安装 Ubuntu-22.04 后 时间不正确&#xff0c;主要有两个原因 时区设置不正确&#xff0c;国内为京八区。 时区正确后&#xff0c;没有同步时间。&#xff08;大部分人容易忽略这一点&#xff09; Linux 默认情况下使用 UTC 格式作为标准时间格式&#xff0c;如果在…

Go语言的100个错误使用场景(11-20)|项目组织和数据类型

前言 大家好&#xff0c;这里是白泽。 《Go语言的100个错误以及如何避免》 是最近朋友推荐我阅读的书籍&#xff0c;我初步浏览之后&#xff0c;大为惊喜。就像这书中第一章的标题说到的&#xff1a;“Go: Simple to learn but hard to master”&#xff0c;整本书通过分析100…

嵌入式系统学习(一)

嵌入式现状&#xff08;UP经历&#xff09;&#xff1a; 大厂的招聘要求&#xff1a; 技术栈总结&#xff1a; 产品拆解网站&#xff1a; 52audio 方案查询网站iotku,我爱方案网&#xff0c; 主要元器件类型&#xff1a;

冰冻天气恰逢春运,“观冰精灵”化身电力供应守护者

据中国路网&#xff0c;截至2月1日14时&#xff0c;受降雪及路面结冰影响&#xff0c;河北、山西、内蒙古、黑龙江、江苏、安徽、河南、山东、西藏、陕西、宁夏、甘肃、新疆共封闭路段66个&#xff08;涉及44条高速公路、5条普通国道、5条普通省道&#xff09;&#xff0c;关闭…

C语言问题汇总

指针 #include <stdio.h>int main(void){int a[4] {1,2,3,4};int *p &a1;int *p1 a1;printf("%#x,%#x",p[-1],*p1);} 以上代码中存在错误。 int *p &a1; 错误1&#xff1a;取a数组的地址&#xff0c;然后1&#xff0c;即指针跳过int [4]大小的字节…

数据图表方案,企业视频生产数据可视化

在信息爆炸的时代&#xff0c;如何将复杂的数据转化为直观、生动的视觉信息&#xff0c;是企业在数字化转型中面临的挑战。美摄科技凭借其独特的数据图表方案&#xff0c;为企业在数据可视化领域打开了一扇全新的大门。 一、数据图表方案的优势 1、高效便捷&#xff1a;利用数…

计算机网络第4章(网络层)

4.1、网络层概述 简介 网络层的主要任务是实现网络互连&#xff0c;进而实现数据包在各网络之间的传输 这些异构型网络N1~N7如果只是需要各自内部通信&#xff0c;他们只要实现各自的物理层和数据链路层即可 但是如果要将这些异构型网络互连起来&#xff0c;形成一个更大的互…