CV计算机视觉每日开源代码Paper with code速览-2023.11.14

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】Aggregate, Decompose, and Fine-Tune: A Simple Yet Effective Factor-Tuning Method for Vision Transformer

  • 论文地址:https://arxiv.org//pdf/2311.06749

  • 开源代码(即将开源):https://github.com/Dongping-Chen/EFFT-EFfective-Factor-Tuning

2.【缺陷检测】Self-supervised Context Learning for Visual Inspection of Industrial Defects

  • 论文地址:https://arxiv.org//pdf/2311.06504

  • 开源代码(即将开源):https://github.com/wangpeng000/VisualInspection

3.【目标检测、分割】CD-COCO: A Versatile Complex Distorted COCO Database for Scene-Context-Aware Computer Vision

  • 论文地址:https://arxiv.org//pdf/2311.06976

  • 开源代码:https://github.com/Aymanbegh/CD-COCO

4.【视频分割】Sketch-based Video Object Segmentation: Benchmark and Analysis

  • 论文地址:https://arxiv.org//pdf/2311.07261

  • 开源代码(即将开源):https://github.com/YRlin-12/Sketch-VOS-datasets

5.【多模态】SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

  • 论文地址:https://arxiv.org//pdf/2311.07575

  • 开源代码:https://github.com/Alpha-VLLM/LLaMA2-Accessory

6.【多模态】To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

  • 论文地址:https://arxiv.org//pdf/2311.07574

  • 开源代码(即将开源):https://github.com/X2FD/LVIS-INSTRUCT4V

7.【多模态】GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • 论文地址:https://arxiv.org//pdf/2311.07562

  • 开源代码(即将开源):https://github.com/zzxslp/MM-Navigator

8.【多模态】GPT-4V(ision) as A Social Media Analysis Engine

  • 论文地址:https://arxiv.org//pdf/2311.07547

  • 开源代码(即将开源):https://github.com/VIStA-H/GPT-4V_Social_Media

9.【多模态】InfMLLM: A Unified Framework for Visual-Language Tasks

  • 论文地址:https://arxiv.org//pdf/2311.06791

  • 开源代码:https://github.com/mightyzau/InfMLLM

10.【多模态】Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

  • 论文地址:https://arxiv.org//pdf/2311.06783

  • 工程主页:Q-Instruct | [IQA, Low-level Vision, MLLM] Low-level visual instruction tuning, with a 200K dataset and a model zoo for fine-tuned checkpoints.

  • 开源代码:https://github.com/Q-Future/Q-Instruct/

11.【多模态】ChatAnything: Facetime Chat with LLM-Enhanced Personas

  • 论文地址:https://arxiv.org//pdf/2311.06772

  • 工程主页:ChatAnything

  • 开源代码:https://github.com/zhoudaquan/ChatAnything

12.【多模态】Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

  • 论文地址:https://arxiv.org//pdf/2311.06607

  • 开源代码(即将开源):https://github.com/Yuliang-Liu/Monkey

13.【多模态】An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

  • 论文地址:https://arxiv.org//pdf/2311.07397

  • 开源代码(即将开源):https://github.com/junyangwang0410/AMBER

14.【多模态】Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

  • 论文地址:https://arxiv.org//pdf/2311.07362

  • 开源代码(即将开源):https://github.com/kaistAI/Volcano

15.【多模态】ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models

  • 论文地址:https://arxiv.org//pdf/2311.07022

  • 工程主页:ViLMA - Video Language Model Assessment

  • 开源代码:https://github.com/ilkerkesen/ViLMA

16.【数字人】(WACV2024)CVTHead: One-shot Controllable Head Avatar with Vertex-feature Transformer

  • 论文地址:https://arxiv.org//pdf/2311.06443

  • 开源代码(即将开源):https://github.com/HowieMa/CVTHead

17.【深度估计】MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

  • 论文地址:https://arxiv.org//pdf/2311.07198

  • 开源代码(即将开源):https://github.com/ShuweiShao/MonoDiffusion

18.【深度估计】(ICCV2023)NDDepth: Normal-Distance Assisted Monocular Depth Estimation and Completion

  • 论文地址:https://arxiv.org//pdf/2311.07166

  • 开源代码(即将开源):https://github.com/ShuweiShao/NDDepth

19.【自动驾驶:BEV】Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection

  • 论文地址:https://arxiv.org//pdf/2311.07152

  • 开源代码:https://github.com/HuangJunJie2017/BEVDet

20.【自动驾驶:BEV】Deep Perspective Transformation Based Vehicle Localization on Bird's Eye View

  • 论文地址:https://arxiv.org//pdf/2311.06796

  • 开源代码(即将开源):https://github.com/IPM-HPC/Perspective-BEV-Transformer

21.【Diffusion】Sampler Scheduler for Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2311.06845

  • 开源代码:https://github.com/Carzit/sd-webui-samplers-scheduler

22.【NeRF】-Sampler: An Model Guided Volume Sampling for NeRF

  • 论文地址:https://arxiv.org//pdf/2311.07044

  • 工程主页:L0-Sampler: An L0 Model Guided Volume Sampling for NeRF

  • 开源代码:https://github.com/USTC3DV/L0-Sampler-code

23.【Visual Question Answering】Analyzing Modular Approaches for Visual Question Decomposition

  • 论文地址:https://arxiv.org//pdf/2311.06411

  • 开源代码:https://github.com/brown-palm/visual-question-decomposition

论文已打包,下载链接​​​​​​​

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

​​​​​​​CV计算机视觉每日开源代码Paper with code速览-2023.11.13

CV计算机视觉每日开源代码Paper with code速览-2023.11.10

CV计算机视觉每日开源代码Paper with code速览-2023.11.9

CV计算机视觉每日开源代码Paper with code速览-2023.11.8

CV计算机视觉每日开源代码Paper with code速览-2023.11.7

CV计算机视觉每日开源代码Paper with code速览-2023.11.6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/191129.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

shopee地区选品:深入了解选品工具——知虾,优化您的销售策略

作为一家社交电商平台,Shopee拥有庞大的用户群体和海量的交易数据,这使得该平台的选品数据对于卖家来说非常宝贵。在这方面,知虾工具是一款强大的分析工具,可以帮助卖家深入了解用户的消费习惯、喜好和需求,从而更准确…

3D建模基础教程:可编辑多边形建模的基础认识

可编辑多边形建模是3D建模中的一种常见方法,它允许用户对模型进行细致的调整和编辑。以下是对可编辑多边形建模的详细介绍: 1、层级概念:在可编辑多边形建模中,有五个层级,分别是点层级、边层级、边界层级、面层级和元…

想要精通算法和SQL的成长之路 - 摩尔投票法的运用

想要精通算法和SQL的成长之路 - 摩尔投票法的运用 前言一. 多数元素1.1 摩尔投票法 二. 多数元素II2.1 分析 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 多数元素 原题链接 1.1 摩尔投票法 简单来说,假设数组 num 的众数是 x,数组长度为n。 有…

windows Oracle Database 19c 卸载教程

目录 打开任务管理器 停止数据库服务 Universal Installer 卸载Oracle数据库程序 使用Oracle Installer卸载 删除注册表项 重新启动系统 打开任务管理器 ctrlShiftEsc可以快速打开任务管理器,找到oracle所有服务然后停止。 停止数据库服务 在开始卸载之前&a…

Linux操作

linux下的sh文件变成可执行文件(可执行文件有颜色(默认绿色)) chmod 777 xxx.sh Linux系统下给.sh添加可执行权限并运行 1、添加可执行权限 chmod ux xxx.sh 解释: chmod(change the permissions mode of a file)是…

强化学习各种符号含义解释

:状态 : 动作 : 奖励 : 奖励函数 : 非终结状态 : 全部状态,包括终结状态 : 动作集合 ℛ : 奖励集合 : 转移矩阵 : 离散时间步 : 回合内最终时间步 : 时间t的状态 : 时间t动作 : 时间t的奖励,通常为随机量,且由和决定 : 回报 : n步…

10-19 HttpServletResponse

相应的对象 web开发模型:基于请求与相应的模型 一问一答的模型 Response对象:响应对象,封装服务器给客户端的相关的信息 顶级接口: ServletResponse 父接口:HttpServletResponse response对象的功能分为以下四种:(都是服务器干的事注意) 设置响应头信息; 发送状态码…

软件工程师参加技术峰会,带来的价值,你想象不到!

参加技术大会是软件开发人员了解行业最新技术和未来发展趋势的重要途径。 在技术大会上,来自世界各地的专家、学者和企业代表会分享他们的最新研究成果、技术创新和趋势分析。这对于软件开发人员来说,是一个宝贵的学习机会,可以帮助他们拓宽…

动手学深度学习——循环神经网络(原理解释与代码详解)

文章目录 一、循环神经网络1. 无隐状态的神经网络2. 有隐状态的循环神经网络3. 基于循环神经网络的字符级语言模型4. 困惑度5. 小结 二、循环神经网络的从零开始实现1. 独热编码2. 初始化模型参数3. 循环神经网络模型4. 预测5. 梯度裁剪6. 训练 一、循环神经网络 n元语法模型&…

竞赛 题目:基于深度学习卷积神经网络的花卉识别 - 深度学习 机器视觉

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基…

记录一些涉及到界的题

文章目录 coppersmith的一些相关知识题1 [N1CTF 2023] e2Wrmup题2 [ACTF 2023] midRSA题3 [qsnctf 2023]浅记一下 coppersmith的一些相关知识 上界 X c e i l ( 1 2 ∗ N β 2 d − ϵ ) X ceil(\frac{1}{2} * N^{\frac{\beta^2}{d} - \epsilon}) Xceil(21​∗Ndβ2​−ϵ) …

sqli-labs关卡19(基于http头部报错盲注)通关思路

文章目录 前言一、回顾上一关知识点二、靶场第十九关通关思路1、判断注入点2、爆数据库名3、爆数据库表4、爆数据库列5、爆数据库关键信息 总结 前言 此文章只用于学习和反思巩固sql注入知识,禁止用于做非法攻击。注意靶场是可以练习的平台,不能随意去尚…