生成模型 | 三维重建(3D reconstruction)调研及总结【20231219更新版】

本文是关于三维重建的论文调研,主要集中于基于图片到3d的模型,其中期刊会议标志如下:

[🤖 ICCV 2023 ]

 1.3D综述系列

2019_Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

论文地址:1906.06543.pdf (arxiv.org)

 专注于使用深度学习技术从单个或多个RGB图像中估计通用对象的3D形状的一些总结~

 

2021_Single-View 3D reconstruction: A Survey of deep learning methods

论文地址:Single-View 3D reconstruction: A Survey of deep learning methods - ScienceDirect

2023.03.06_A Review of Deep Learning-Powered Mesh Reconstruction Methods

论文地址:2303.02879.pdf (arxiv.org)

首先描述了深度学习环境中 3D 形状的各种表示形式。然后描述了从体素、点云、单图像和多视图图像的三维网格重建方法的发展。

2.必读3D重建系列

2022.12.16_Point-E: A System for Generating 3D Point Clouds from Complex Prompts

论文链接:https://arxiv.org/abs/2212.08751

项目链接:https://github.com/openai/point-e 

Point-E: A system for generating 3D point clouds from complex prompts (openai.com)

 虽然最近在文本条件 3D 对象生成方面的工作显示出有希望的结果,但最先进的方法通常需要多个 GPU 小时才能生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒钟或几分钟内生成样本。在本文中,我们探索了一种生成 3D 对象的替代方法,该方法可在单个 GPU 上仅用 1-2 分钟生成 3D 模型。我们的方法首先使用文本到图像扩散模型生成单个合成视图,然后使用第二个扩散模型生成 3D 点云,该模型以生成的图像为条件。虽然我们的方法在样品质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在这个 https URL 上发布了我们预先训练的点云扩散模型,以及评估代码和模型。

 

2023.03.20_Zero-1-to-3: Zero-shot One Image to 3D Object

论文链接:2303.11328.pdf (arxiv.org)

项目链接:cvlab-columbia/zero123: Zero-1-to-3: Zero-shot One Image to 3D Object (ICCV 2023) (github.com)

引入了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视角。为了在这种约束不足的环境中进行新颖的视图合成,利用了大规模扩散模型学习自然图像的几何先验。条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但模型保留了强大的零样本泛化能力,可以对分布外的数据集以及野外图像(包括印象派绘画)进行泛化。视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,利用互联网规模的预训练,方法明显优于最先进的单视图三维重建和新颖的视图合成模型。

[ 🤖ICCV 2023 ]2023_Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior 

论文地址:2303.14184.pdf (arxiv.org)

代码地址:junshutang/Make-It-3D: [ICCV 2023] Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior (github.com)

摘要

在这项工作中,研究了仅从单个图像创建高保真 3D 内容的问题。这本身就具有挑战性:它本质上涉及估计底层 3D 几何体,同时幻觉看不见的纹理。为了应对这一挑战,我们利用训练有素的 2D 扩散模型的先验知识来充当 3D 创作的 3D 感知监督。我们的方法 Make-It-3D 采用两阶段优化流程:第一阶段通过在正面视图上结合参考图像的约束和在新视图上先验的扩散来优化神经辐射场;第二阶段将粗略模型转换为带纹理的点云,并通过扩散先验进一步提升真实感,同时利用参考图像中的高质量纹理。大量的实验表明,我们的方法大大优于以前的工作,从而产生了忠实的重建和令人印象深刻的视觉质量。我们的方法首次尝试从单个图像为一般对象实现高质量的 3D 创建,并实现了各种应用,例如文本到 3D 创建和纹理编辑。

2023.06_One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization

Project Page: One-2-3-45 

Paper: https://arxiv.org/pdf/2306.16928.pdf

Code: GitHub - One-2-3-45/One-2-3-45: official code of "One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization"

Demo:https://huggingface.co/spaces/One-2-3-45/One-2-3-45

 

2023.07.25.v2_Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

论文地址:arxiv.org/pdf/2306.17843.pdf

论文代码:guochengqian/Magic123: Official PyTorch Implementation of Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors (github.com)

Demo:Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors (guochengqian.github.io)

提出了 Magic123,这是一种两阶段从粗到细的方法,用于使用 2D 和 3D 先验从野外单个未摆姿势的图像生成高质量的纹理 3D 网格。在第一阶段,优化神经辐射场以产生粗略的几何形状。在第二阶段,采用内存效率高的可微网格表示,以生成具有视觉吸引力纹理的高分辨率网格。在这两个阶段,3D内容都是通过参考视图监督和由2D和3D扩散先验组合指导的新视图来学习的。在 2D 和 3D 先验之间引入了一个单一的权衡参数,以控制对生成的几何体的探索(更具想象力)和利用(更精确)。此外,采用文本反演和单目深度正则化来鼓励视图之间的一致外观,并防止退化解决方案。Magic123 展示了与以前的图像到 3D 技术相比的显着改进,这通过对合成基准和各种真实世界图像的广泛实验进行了验证。代码、模型和生成的 3D 资产可在此 https URL 上找到。 

2023.10.26.v2_DreamCraft3D:Hierarchical 3D Generation with Bootstrapped Diffusion Prior 

Paper:arxiv.org/pdf/2310.16818.pdf

Code:deepseek-ai/DreamCraft3D: Official implementation of DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior (github.com)

Demo:DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior (mrtornado24.github.io)

 介绍了 DreamCraft3D,这是一种分层的 3D 内容生成方法,可生成高保真和连贯的 3D 对象。通过利用 2D 参考图像来指导几何雕刻和纹理提升的各个阶段来解决这个问题。这项工作的一个中心重点是解决现有作品遇到的一致性问题。为了雕刻出连贯渲染的几何形状,通过与视图相关的扩散模型进行分数蒸馏采样。这种 3D 先验与几种训练策略一起,优先考虑几何体的一致性,但会损害纹理保真度。论文进一步提出了 Bootstrapped Score Distillation 来专门提升质地。在场景的增强渲染上训练了一个个性化的扩散模型 Dreambooth,并为其注入了正在优化的场景的 3D 知识。从这种 3D 感知扩散先验中提炼出的乐谱为场景提供了视图一致的指导。值得注意的是,通过扩散先验和 3D 场景表示的交替优化,我们实现了相辅相成的改进:优化的 3D 场景有助于训练特定于场景的扩散模型,从而为 3D 优化提供越来越一致的视图指导。因此,优化是自举的,并导致实质性的纹理提升。DreamCraft3D 在整个分层生成过程中通过定制的 3D 先验生成具有逼真效果的连贯 3D 对象,从而推动了 3D 内容生成的最新技术。此 https URL 中提供的代码。

 对比结果

3.其他

3.1.基于文本的3D重建

3.1.1.DREAMCRAFT3D: HIERARCHICAL 3D GENERATION WITH BOOTSTRAPPED DIFFUSION PRIOR

论文地址:arxiv.org/pdf/2310.16818.pdf

代码地址:https://github.com/deepseek-ai/DreamCraft3D

关于数字人相关的3D重建请参考这篇博客

【生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结-CSDN博客】~

参考文献

【1】bluestyle97/awesome-3d-reconstruction-papers: A collection of 3D reconstruction papers in the deep learning era. (github.com) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/285904.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【HarmonyOS开发】ArkUI中的自定义弹窗

弹窗是一种模态窗口,通常用来展示用户当前需要的或用户必须关注的信息或操作。在弹出框消失之前,用户无法操作其他界面内容。ArkUI 为我们提供了丰富的弹窗功能,弹窗按照功能可以分为以下两类: 确认类:例如警告弹窗 Al…

企业微信自动登录自定义系统

方法一:企业微信构造OAuth2链接跳转登录到自定义系统 企业微信自定义应用配置 构造网页授权链接 如果企业需要在打开的网页里面携带用户的身份信息,第一步需要构造如下的链接来获取code参数: https://open.weixin.qq.com/connect/oauth2/…

【机器学习】密度聚类:从底层手写实现DBSCAN

【机器学习】Building-DBSCAN-from-Scratch 概念代码数据导入实现DBSCAN使用样例及其可视化 补充资料 概念 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算…

探索拉普拉斯算子:计算机视觉中用于边缘检测和图像分析的关键工具

一、介绍 拉普拉斯算子是 n 维欧几里得空间中的二阶微分算子,表示为 ∇。它是函数梯度的发散度。在图像处理的上下文中,该运算符应用于图像的强度函数,可以将其视为每个像素具有强度值的二维信号。拉普拉斯算子是计算机视觉领域的关键工具&am…

“最美中国女生”——AI绘画还没上车的有难了!!!

废话少说,先上图!!! 前段时间,ChatGPT生成了一张自诩为“最美的中国女生”。虽然审美是主观的,但不可否认,图片的客观美。不过——你不会还只是看到图片里的美女,肤浅地欣赏高颜值吧…

Java_正则表达式

正则表达式 接下来,我们学习一个全新的知识,叫做正则表达式。正则表达式其实是由一些特殊的符号组成的,它代表的是某种规则。 正则表达式的作用1:用来校验字符串数据是否合法 正则表达式的作用2:可以从一段文本中查找…

JavaOOP篇----第五篇

系列文章目录 文章目录 系列文章目录前言一、一个java类中包含那些内容?二、那针对浮点型数据运算出现的误差的问题,你怎么解决?三、面向对象的特征有哪些方面?四、访问修饰符 public,private,protected,以及不写(默认&#xff0…

springboot整合vue,将vue项目整合到springboot项目中

将vue项目打包后&#xff0c;与springboot项目整合。 第一步&#xff0c;使用springboot中的thymeleaf模板引擎 导入依赖 <!-- thymeleaf 模板 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-t…

luttuce(RedisTempate)实现hash(动态数据) expire lua脚本

话不多说先放脚本&#xff1a; local argv ARGV local length #argv if length > 0 then local unpackArgs {} for i 1, length - 1 dotable.insert(unpackArgs, argv[i]) end if redis.call(exists, KEYS[1]) 1 thenredis.call(del, KEYS[1])redis.call(hset, KEYS[…

Opencv C++ 绘制中文

零、源码 GitHub - ITC-AI/Opencv_Chinese: C 的 Opencv绘制中文 一、代码编写 参考 https://blog.csdn.net/long630576366/article/details/131440684 1、cvxFont.h #ifndef OPENCVUNICODE_CVXFONT_H #define OPENCVUNICODE_CVXFONT_H#include <ft2build.h> #inclu…

RabbitMQ入门指南(一):初识与安装

专栏导航 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、消息队列介绍 1.同步调用和异步调用 2.常见消息队列介绍 二、RabbitMQ简介及其安装步骤 1.RabbitMQ简介 2.RabbitMQ安装步骤&#xff08;使用Docker&#xff09; (1) 创建网络 (2) 使用Docker来…

【LeetCode:1901. 寻找峰值 II | 二分】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…