CV计算机视觉每日开源代码Paper with code速览-2023.12.5

点击@计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】GIFT: Generative Interpretable Fine-Tuning Transformers

  • 论文地址:https://arxiv.org//pdf/2312.00700

  • 工程主页:GIFT: Generative Interpretable Fine-Tuning Transformers

  • 开源代码(即将开源):GitHub - savadikarc/gift

2.【图像分类】BCN: Batch Channel Normalization for Image Classification

  • 论文地址:https://arxiv.org//pdf/2312.00596

  • 开源代码:GitHub - AfifaKhaled/Batch-Channel-Normalization

3.【语义分割】Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning

  • 论文地址:https://arxiv.org//pdf/2312.00360

  • 开源代码(即将开源):GitHub - ShaohuaDong2021/DPLNet

4.【目标跟踪】Dense Optical Tracking: Connecting the Dots

  • 论文地址:https://arxiv.org//pdf/2312.00786

  • 工程主页:Dense Optical Tracking: Connecting the Dots

  • 开源代码(即将开源):GitHub - 16lemoing/dot

5.【目标跟踪】TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00651

  • 工程主页:TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

  • 开源代码(即将开源):GitHub - pixeli99/TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models.

6.【人脸识别】Rethinking the Domain Gap in Near-infrared Face Recognition

  • 论文地址:https://arxiv.org//pdf/2312.00627

  • 开源代码(即将开源):GitHub - michaeltrs/RethinkNIRVIS

7.【多模态】Making Large Multimodal Models Understand Arbitrary Visual Prompts

  • 论文地址:https://arxiv.org//pdf/2312.00784

  • 工程主页:ViP-LLaVA

  • 开源代码:GitHub - mu-cai/ViP-LLaVA

8.【多模态】Merlin:Empowering Multimodal LLMs with Foresight Minds

  • 论文地址:https://arxiv.org//pdf/2312.00589

  • 工程主页:Merlin: Empowering Multimodal LLMs with Foresight Minds

  • 开源代码(即将开源):GitHub - Ahnsun/merlin: Merlin: Empowering Multimodal LLMs with Foresight Minds

9.【多模态】RTQ: Rethinking Video-language Understanding Based on Image-text Model

  • 论文地址:https://arxiv.org//pdf/2312.00347

  • 开源代码:GitHub - SCZwangxiao/RTQ-MM2023: ACM Multimedia 2023 (Oral) - RTQ: Rethinking Video-language Understanding Based on Image-text Model

10.【多模态】StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

  • 论文地址:https://arxiv.org//pdf/2312.00330

  • 工程主页:StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

  • 开源代码:GitHub - GongyeLiu/StyleCrafter: StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

11.【多模态】OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

  • 论文地址:https://arxiv.org//pdf/2312.00096

  • 工程主页:OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

  • 开源代码(即将开源):GitHub - tomchen-ctj/OST: OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

12.【多模态】X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

  • 论文地址:https://arxiv.org//pdf/2312.00085

  • 工程主页:X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

  • 开源代码(即将开源):GitHub - xmu-xiaoma666/X-Dreamer: A pytorch implementation of “X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation”

13.【多模态】Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding

  • 论文地址:https://arxiv.org//pdf/2312.00081

  • 开源代码(即将开源):GitHub - wjpoom/SPEC: The official implementation of paper "synthesize, diagnose, and optimize: towards fine-grained vision-language understanding"

14.【多模态】Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

  • 论文地址:https://arxiv.org//pdf/2312.00057

  • 开源代码:GitHub - South7X/VA3: Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

15.【自动驾驶:BEV】PointBeV: A Sparse Approach to BeV Predictions

  • 论文地址:https://arxiv.org//pdf/2312.00703

  • 开源代码(即将开源):GitHub - valeoai/PointBeV: A new BeV paradigm focusing sparsity and efficiency

16.【自动驾驶:多模态】Dolphins: Multimodal Language Model for Driving

  • 论文地址:https://arxiv.org//pdf/2312.00438

  • 工程主页:VLM-Driver

  • 开源代码(即将开源):GitHub - vlm-driver/Dolphins

17.【Diffusion】Fast ODE-based Sampling for Diffusion Models in Around 5 Steps

  • 论文地址:https://arxiv.org//pdf/2312.00094

  • 开源代码(即将开源):GitHub - zhyzhouu/amed-solver

18.【Diffusion】Unsupervised Keypoints from Pretrained Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00065

  • 工程主页:Unsupervised Keypoints from Pretrained Diffusion Models

  • 开源代码:GitHub - ubc-vision/StableKeypoints

19.【深度补全】SparseDC: Depth Completion from sparse and non-uniform inputs

  • 论文地址:https://arxiv.org//pdf/2312.00097

  • 开源代码:GitHub - WHU-USI3DV/SparseDC: [ArXiv 2023] SparseDC: Depth Completion from sparse and non-uniform inputs

20.【人体运动生成】MoMask: Generative Masked Modeling of 3D Human Motions

  • 论文地址:https://arxiv.org//pdf/2312.00063

  • 工程主页:MoMask: Generative Masked Modeling of 3D Human Motions

  • 开源代码(即将开源):GitHub - EricGuo5513/momask-codes

21.【NeRF】EvE: Exploiting Generative Priors for Radiance Field Enrichment

  • 论文地址:https://arxiv.org//pdf/2312.00639

  • 工程主页:EvE: Exploiting Generative Priors for Radiance Field Enrichment | Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Valérie Gouet-Brunet

  • 代码即将开源

22.【视频生成】VideoBooth: Diffusion-based Video Generation with Image Prompts

  • 论文地址:https://arxiv.org//pdf/2312.00777

  • 工程主页:VideoBooth

  • 开源代码:GitHub - Vchitect/VideoBooth

23.【三维重建】MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video

  • 论文地址:https://arxiv.org//pdf/2312.00778

  • 工程主页:MorpheuS

  • 代码即将开源

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

CV计算机视觉每日开源代码Paper with code速览-2023.11.30

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/264286.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytorch中的归一化:BatchNorm、LayerNorm 和 GroupNorm

1 归一化概述 训练深度神经网络是一项具有挑战性的任务。 多年来,研究人员提出了不同的方法来加速和稳定学习过程。 归一化是一种被证明在这方面非常有效的技术。 1.1 为什么要归一化 数据的归一化操作是数据处理的一项基础性工作,在一些实际问题中&am…

【参天引擎】华为参天引擎内核架构专栏开始更新了,多主分布式数据库的特点,类oracle RAC国产数据开始出现了

cantian引擎的介绍 ​专栏内容: 参天引擎内核架构 本专栏一起来聊聊参天引擎内核架构,以及如何实现多机的数据库节点的多读多写,与传统主备,MPP的区别,技术难点的分析,数据元数据同步,多主节点的…

Html转PDF,前端JS实现Html页面导出PDF(html2canvas+jspdf)

Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf) 文章目录 Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf)一、背景介绍二、疑问三、所使用技术html2canvasjspdf 四、展示开始1、效果展示…

【基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现】

基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现 前言数据获取与清洗数据集数据获取数据清洗 数据分析与可视化数据分析功能可视化功能 创新点结语 前言 随着游戏产业的蓬勃发展,了解游戏销售数据对于游戏从业者和游戏爱好者都至关重要。为了更好地分…

FFmpeg抽取视频h264数据重定向

根据视频重定向技术解析中的 截获解码视频流的思路,首先需要解决如何输出视频码流的问题。 目前只针对h264码流进行获取,步骤如下: 打开mp4文件并创建一个空文件用于存储H264数据 提取一路视频流资源 循环读取流中所有的包(AVPacket),为…

西南科技大学数字电子技术实验三(MSI逻辑器件设计组合逻辑电路及FPGA的实现)FPGA部分

一、实验目的 进一步掌握MIS(中规模集成电路)设计方法。通过用MIS译码器、数据选择器实现电路功能,熟悉它们的应用。进一步学习如何记录实验中遇到的问题及解决方法。二、实验原理 1、4位奇偶校验器 Y=S7i=0DiMi D0=D3=D5=D6=D D1=D2=D4=D7= `D 2、组合逻辑电路 F=A`B C …

【亲测有效】支持横竖屏 微信小程序video禁止进度条拖动,微信小程序遮罩进度条,

背景&#xff1a;部分课程禁止客户拖动视频进度条直至播放结束 红色是遮罩区域遮罩区域 实际遮罩效果&#xff08;有一个很浅的阴影区域&#xff09; 实现代码 .wxml文件 <video enable-progress-gesture"false" ><cover-view class"cover">…

hdlbits系列verilog解答(mt2015_q4)-54

文章目录 一、问题描述二、verilog源码三、仿真结果一、问题描述 本次使用系列文章52和53中实现的子模块,实现以下组合逻辑电路。 二、verilog源码 module top_module (input x, input y, output z);wire [3:0

操作系统笔记——储存系统、文件系统(王道408)

文章目录 前言储存系统地址转换内存扩展覆盖交换 储存器分配——连续分配固定大小分区动态分区分配动态分区分配算法 储存器分配——非连续分配页式管理基本思想地址变换硬件快表&#xff08;TLB&#xff09;多级页表 段式管理段页式管理 虚拟储存器——基于交换的内存扩充技术…

java之SpringBoot开发实用篇

MENU SpringBoot开发实用篇KF-1.热部署KF-1-1.手动启动热部署KF-1-2.自动启动热部署KF-1-3.参与热部署监控的文件范围配置KF-1-4.关闭热部署 KF-2.配置高级KF-2-1.ConfigurationPropertiesKF-2-2.宽松绑定/松散绑定KF-2-3.常用计量单位绑定KF-2-4.校验KF-2-5.数据类型转换 KF-3…

GoLong的学习之路,进阶,微服务之使用,RPC包(包括源码分析)

今天这篇是接上上篇RPC原理之后这篇是讲如何使用go本身自带的标准库RPC。这篇篇幅会比较短。重点在于上一章对的补充。 文章目录 RPC包的概念使用RPC包服务器代码分析如何实现的&#xff1f;总结Server还提供了两个注册服务的方法 客户端代码分析如何实现的&#xff1f;如何异步…

Android Studio连接MYSQL数据库

首先导入mysql的jar包&#xff0c;这里连接的是8版本的。 这里之前到如果mysql的jar包了 首先跳到Project模式&#xff1a; 直接复制粘贴到这里&#xff1a; 这里之前到如果了。想删掉重新导入一次&#xff0c;但是报错,什么ioexception。这里将Project Structure中的Moudle中的…