CV计算机视觉每日开源代码Paper with code速览-2023.12.5-编程知识

CV计算机视觉每日开源代码Paper with code速览-2023.12.5

news/2025/2/23 17:05:36/文章来源:https://blog.csdn.net/zhangkai950121/article/details/134917296

点击@计算机视觉，关注更多CV干货

论文已打包，点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构：Transformer】GIFT: Generative Interpretable Fine-Tuning Transformers

论文地址：https://arxiv.org//pdf/2312.00700
工程主页：GIFT: Generative Interpretable Fine-Tuning Transformers
开源代码（即将开源）：GitHub - savadikarc/gift

2.【图像分类】BCN: Batch Channel Normalization for Image Classification

论文地址：https://arxiv.org//pdf/2312.00596
开源代码：GitHub - AfifaKhaled/Batch-Channel-Normalization

3.【语义分割】Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning

论文地址：https://arxiv.org//pdf/2312.00360
开源代码（即将开源）：GitHub - ShaohuaDong2021/DPLNet

4.【目标跟踪】Dense Optical Tracking: Connecting the Dots

论文地址：https://arxiv.org//pdf/2312.00786
工程主页：Dense Optical Tracking: Connecting the Dots
开源代码（即将开源）：GitHub - 16lemoing/dot

5.【目标跟踪】TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

论文地址：https://arxiv.org//pdf/2312.00651
工程主页：TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models
开源代码（即将开源）：GitHub - pixeli99/TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models.

6.【人脸识别】Rethinking the Domain Gap in Near-infrared Face Recognition

论文地址：https://arxiv.org//pdf/2312.00627
开源代码（即将开源）：GitHub - michaeltrs/RethinkNIRVIS

7.【多模态】Making Large Multimodal Models Understand Arbitrary Visual Prompts

论文地址：https://arxiv.org//pdf/2312.00784
工程主页：ViP-LLaVA
开源代码：GitHub - mu-cai/ViP-LLaVA

8.【多模态】Merlin:Empowering Multimodal LLMs with Foresight Minds

论文地址：https://arxiv.org//pdf/2312.00589
工程主页：Merlin: Empowering Multimodal LLMs with Foresight Minds
开源代码（即将开源）：GitHub - Ahnsun/merlin: Merlin: Empowering Multimodal LLMs with Foresight Minds

9.【多模态】RTQ: Rethinking Video-language Understanding Based on Image-text Model

论文地址：https://arxiv.org//pdf/2312.00347
开源代码：GitHub - SCZwangxiao/RTQ-MM2023: ACM Multimedia 2023 (Oral) - RTQ: Rethinking Video-language Understanding Based on Image-text Model

10.【多模态】StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

论文地址：https://arxiv.org//pdf/2312.00330
工程主页：StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter
开源代码：GitHub - GongyeLiu/StyleCrafter: StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

11.【多模态】OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

论文地址：https://arxiv.org//pdf/2312.00096
工程主页：OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition
开源代码（即将开源）：GitHub - tomchen-ctj/OST: OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

12.【多模态】X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

论文地址：https://arxiv.org//pdf/2312.00085
工程主页：X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation
开源代码（即将开源）：GitHub - xmu-xiaoma666/X-Dreamer: A pytorch implementation of “X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation”

13.【多模态】Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding

论文地址：https://arxiv.org//pdf/2312.00081
开源代码（即将开源）：GitHub - wjpoom/SPEC: The official implementation of paper "synthesize, diagnose, and optimize: towards fine-grained vision-language understanding"

14.【多模态】Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

论文地址：https://arxiv.org//pdf/2312.00057
开源代码：GitHub - South7X/VA3: Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

15.【自动驾驶：BEV】PointBeV: A Sparse Approach to BeV Predictions

论文地址：https://arxiv.org//pdf/2312.00703
开源代码（即将开源）：GitHub - valeoai/PointBeV: A new BeV paradigm focusing sparsity and efficiency

16.【自动驾驶：多模态】Dolphins: Multimodal Language Model for Driving

论文地址：https://arxiv.org//pdf/2312.00438
工程主页：VLM-Driver
开源代码（即将开源）：GitHub - vlm-driver/Dolphins

17.【Diffusion】Fast ODE-based Sampling for Diffusion Models in Around 5 Steps

论文地址：https://arxiv.org//pdf/2312.00094
开源代码（即将开源）：GitHub - zhyzhouu/amed-solver

18.【Diffusion】Unsupervised Keypoints from Pretrained Diffusion Models

论文地址：https://arxiv.org//pdf/2312.00065
工程主页：Unsupervised Keypoints from Pretrained Diffusion Models
开源代码：GitHub - ubc-vision/StableKeypoints

19.【深度补全】SparseDC: Depth Completion from sparse and non-uniform inputs

论文地址：https://arxiv.org//pdf/2312.00097
开源代码：GitHub - WHU-USI3DV/SparseDC: [ArXiv 2023] SparseDC: Depth Completion from sparse and non-uniform inputs

20.【人体运动生成】MoMask: Generative Masked Modeling of 3D Human Motions

论文地址：https://arxiv.org//pdf/2312.00063
工程主页：MoMask: Generative Masked Modeling of 3D Human Motions
开源代码（即将开源）：GitHub - EricGuo5513/momask-codes

21.【NeRF】EvE: Exploiting Generative Priors for Radiance Field Enrichment

论文地址：https://arxiv.org//pdf/2312.00639
工程主页：EvE: Exploiting Generative Priors for Radiance Field Enrichment | Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Valérie Gouet-Brunet
代码即将开源

22.【视频生成】VideoBooth: Diffusion-based Video Generation with Image Prompts

论文地址：https://arxiv.org//pdf/2312.00777
工程主页：VideoBooth
开源代码：GitHub - Vchitect/VideoBooth

23.【三维重建】MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video

论文地址：https://arxiv.org//pdf/2312.00778
工程主页：MorpheuS
代码即将开源

论文已打包，下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬，不定期分享技术知识、面试技巧和内推招聘信息。

想进群的同学请添加微信号联系管理员：PingShanHai666。添加好友时请备注：学校/公司+研究方向+昵称。

推荐阅读：

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

CV计算机视觉每日开源代码Paper with code速览-2023.11.30

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/264286.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

pytorch中的归一化：BatchNorm、LayerNorm 和 GroupNorm

pytorch中的归一化：BatchNorm、LayerNorm 和 GroupNorm

1 归一化概述训练深度神经网络是一项具有挑战性的任务。多年来，研究人员提出了不同的方法来加速和稳定学习过程。归一化是一种被证明在这方面非常有效的技术。 1.1 为什么要归一化数据的归一化操作是数据处理的一项基础性工作，在一些实际问题中&am…

阅读更多...

【参天引擎】华为参天引擎内核架构专栏开始更新了，多主分布式数据库的特点，类oracle RAC国产数据开始出现了

【参天引擎】华为参天引擎内核架构专栏开始更新了，多主分布式数据库的特点，类oracle RAC国产数据开始出现了

cantian引擎的介绍专栏内容： 参天引擎内核架构本专栏一起来聊聊参天引擎内核架构，以及如何实现多机的数据库节点的多读多写，与传统主备，MPP的区别，技术难点的分析，数据元数据同步，多主节点的…

阅读更多...

Html转PDF，前端JS实现Html页面导出PDF（html2canvas+jspdf）

Html转PDF，前端JS实现Html页面导出PDF（html2canvas+jspdf）

Html转PDF，前端JS实现Html页面导出PDF（html2canvasjspdf） 文章目录 Html转PDF，前端JS实现Html页面导出PDF（html2canvasjspdf）一、背景介绍二、疑问三、所使用技术html2canvasjspdf 四、展示开始1、效果展示…

阅读更多...

【基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现】

【基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现】

基于Flask、MySQL和Echarts的热门游戏数据可视化平台设计与实现前言数据获取与清洗数据集数据获取数据清洗数据分析与可视化数据分析功能可视化功能创新点结语前言随着游戏产业的蓬勃发展，了解游戏销售数据对于游戏从业者和游戏爱好者都至关重要。为了更好地分…

阅读更多...

FFmpeg抽取视频h264数据重定向

FFmpeg抽取视频h264数据重定向

根据视频重定向技术解析中的截获解码视频流的思路，首先需要解决如何输出视频码流的问题。目前只针对h264码流进行获取，步骤如下： 打开mp4文件并创建一个空文件用于存储H264数据提取一路视频流资源循环读取流中所有的包(AVPacket),为…

阅读更多...

西南科技大学数字电子技术实验三（MSI逻辑器件设计组合逻辑电路及FPGA的实现）FPGA部分

西南科技大学数字电子技术实验三（MSI逻辑器件设计组合逻辑电路及FPGA的实现）FPGA部分

一、实验目的进一步掌握MIS（中规模集成电路）设计方法。通过用MIS译码器、数据选择器实现电路功能，熟悉它们的应用。进一步学习如何记录实验中遇到的问题及解决方法。二、实验原理 1、4位奇偶校验器 Y=S7i=0DiMi D0=D3=D5=D6=D D1=D2=D4=D7= `D 2、组合逻辑电路 F=A`B C …

阅读更多...

【亲测有效】支持横竖屏微信小程序video禁止进度条拖动，微信小程序遮罩进度条，

【亲测有效】支持横竖屏微信小程序video禁止进度条拖动，微信小程序遮罩进度条，

背景：部分课程禁止客户拖动视频进度条直至播放结束红色是遮罩区域遮罩区域实际遮罩效果（有一个很浅的阴影区域） 实现代码 .wxml文件 <video enable-progress-gesture"false" ><cover-view class"cover">…

阅读更多...

hdlbits系列verilog解答（mt2015_q4）-54

hdlbits系列verilog解答（mt2015_q4）-54

文章目录一、问题描述二、verilog源码三、仿真结果一、问题描述本次使用系列文章52和53中实现的子模块，实现以下组合逻辑电路。二、verilog源码 module top_module (input x, input y, output z);wire [3:0

阅读更多...

操作系统笔记——储存系统、文件系统（王道408）

操作系统笔记——储存系统、文件系统（王道408）

文章目录前言储存系统地址转换内存扩展覆盖交换储存器分配——连续分配固定大小分区动态分区分配动态分区分配算法储存器分配——非连续分配页式管理基本思想地址变换硬件快表（TLB）多级页表段式管理段页式管理虚拟储存器——基于交换的内存扩充技术…

阅读更多...

java之SpringBoot开发实用篇

java之SpringBoot开发实用篇

MENU SpringBoot开发实用篇KF-1.热部署KF-1-1.手动启动热部署KF-1-2.自动启动热部署KF-1-3.参与热部署监控的文件范围配置KF-1-4.关闭热部署 KF-2.配置高级KF-2-1.ConfigurationPropertiesKF-2-2.宽松绑定/松散绑定KF-2-3.常用计量单位绑定KF-2-4.校验KF-2-5.数据类型转换 KF-3…

阅读更多...

GoLong的学习之路，进阶，微服务之使用，RPC包（包括源码分析）

GoLong的学习之路，进阶，微服务之使用，RPC包（包括源码分析）

今天这篇是接上上篇RPC原理之后这篇是讲如何使用go本身自带的标准库RPC。这篇篇幅会比较短。重点在于上一章对的补充。文章目录 RPC包的概念使用RPC包服务器代码分析如何实现的？总结Server还提供了两个注册服务的方法客户端代码分析如何实现的？如何异步…

阅读更多...

Android Studio连接MYSQL数据库

Android Studio连接MYSQL数据库

首先导入mysql的jar包，这里连接的是8版本的。这里之前到如果mysql的jar包了首先跳到Project模式： 直接复制粘贴到这里： 这里之前到如果了。想删掉重新导入一次，但是报错,什么ioexception。这里将Project Structure中的Moudle中的…

阅读更多...

推荐文章

最新文章