Fei-Fei Li-Lecture 16:3D Vision 【斯坦福大学李飞飞CV课程第16讲:3D Vision】

目录

P1 2D Detection and Segmentation

P2 Video = 2D + time series

P3 Focus on Two Problems

P4 Many more topics in 3D Vision

P5-10 Multi-View CNN 

P11 Experiments – Classification & Retrieval

P12 3D Shape Representations

P13--17 3D Shape Representations: Depth Map

Per-Pixel Loss (L2 Distance) 

Problem: Scale / Depth Ambiguity

Predicting Depth Maps

 P18--26   3D Shape Representations: Surface Normals 曲面法线

 3D Shape Representations: Voxels

Processing Voxel Inputs: 3D Convolution

 Generating Voxel Shapes: 3D Convolution

P27--34  3D Shape Representations: Point Cloud

Proessing Pointcloud Inputs: PointNet

Generating Pointcloud Outputs

 Predicting Point Clouds: Loss Function

 P35--51    3D Shape Representations: Triangle Mesh

 Predicting Meshes: Pixel2Mesh

 Predicting Triangle Meshes: Graph Convolution

Predicting Triangle Meshes: Vertex-Aligned Features

Predicting Meshes: Loss Function

P52--73 3D Shape Prediction: Mesh R-CNN

Mesh R-CNN: Hybrid 3D shape representation

 Mesh R-CNN Pipeline

Mesh R-CNN: ShapeNet Results

Datasets for 3D Objects

 Datasets for 3D Object Parts

 P74--92   3D Shape Representations: Implicit Functions

 Algebraic Surfaces (Implicit)

 Constructive Solid Geometry (Implicit) 

 Level Set Methods (Implicit) 

 NeRF: Representing Scenes as Neural Radiance Fields

P93 Summary: 3D Shape Representations


P1 2D Detection and Segmentation

Classification分P类:没有空间信息,只是对一张图片进行分类

Semantic Segmentation语义分割: 没有物体,只有像素点,对像素点进行分类

Object Detection目标检测:直接识别出物体并进行分类

Instance Segmentation:实例分割=目标检测+语义分割 (第一次听说这个)

语义分割只需要分出不同类就行,同类的不同个体不需要分,但是Instance Segmentation在语义分割的基础上又把不同的类进行了分割:目标检测后,需要对检测的部分做进一步的语义分割

P2 Video = 2D + time series

视频就是2D的图像加上了时间序列

P3 Focus on Two Problems

今天需要解决的两个问题

①由一张输入图像得到一个3D模型

②识别3D模型进行类别判定

P4 Many more topics in 3D Vision

3D Representations 三维表示法
Computing Correspondences 计算对应关系
Multi-view stereo 多视角立体
Structure from Motion 运动结构
Simultaneous Localization and Mapping (SLAM) 同步定位和绘图
View Synthesis 视图合成
Differentiable Graphics 可变图形
3D Sensors 三维传感器

P5-10 Multi-View CNN 

CNN1:提取图像特征的卷积神经网络

CNN2:生成描述形状符的卷积神经网络

P11 Experiments – Classification & Retrieval

Q:MVCNN? SPH? LFD? 3D ShapeNets? FV? 

P12 3D Shape Representations

Q: Voxel Grid?  Pointcloud?  Mesh?  Surface? 

A:下面详细讲啦

P13--17 3D Shape Representations: Depth Map

RGB image + Depth image = RGB-D Image (2.5D)

Q:H是Height ?  W是Width?

 可以使用全卷积神经网络进行深度图预测,得到两个估计的深度图,然后还可以得到每像素Loss 

Per-Pixel Loss (L2 Distance) 

Q:L2 距离是什么?

Problem: Scale / Depth Ambiguity

Q:具体是什么意思以及怎么解决?

A: 意思大概是单目图像中信息有限

Predicting Depth Maps

 Scale invariant 尺度不变性

 P18--26   3D Shape Representations: Surface Normals 曲面法线

对于每个像素,表面法线给出一个向量,表示该像素的世界上的对象的法向向量

假设 RGB Image为 3 x H x W,那么法线图 Normals: 3 x H x W

Predicting Normals

 3D Shape Representations: Voxels

• Represent a shape with a V x V x V grid of occupancies     网格表示形状

• Just like segmentation masks in Mask R-CNN, but in 3D!   分割掩码

• (+) Conceptually simple: just a 3D grid!     只是一个3D网格

• (-) Need high spatial resolution to capture fine structures 需要高空间分辨率捕捉精细结构

• (-) Scaling to high resolutions is nontrivial !   缩放到高分辨率并不容易

Processing Voxel Inputs: 3D Convolution

 Generating Voxel Shapes: 3D Convolution

 Voxel Problems: Memory Usage

        Storing 1024(3次方) voxel grid takes 4GB of memory

Scaling Voxels: Oct-Trees 八叉树

Q: 没太看懂这个Oct-Trees

P27--34  3D Shape Representations: Point Cloud

• Represent shape as a set of P points in 3D space

• (+) Can represent fine structures without huge numbers of points

• ( ) Requires new architecture, losses, etc

• (-) Doesn’t explicitly represent the surface of the shape: extracting a mesh for rendering or other applications requires post-processing  

提取网格为渲染或其他应用提取网格需要进行后处理

Proessing Pointcloud Inputs: PointNet

 MLP ?  

Max-Pool?

Generating Pointcloud Outputs

 Predicting Point Clouds: Loss Function

 

 P35--51    3D Shape Representations: Triangle Mesh

 Predicting Meshes: Pixel2Mesh

 Idea #1: Iterative mesh refinement

Start from initial ellipsoid mesh Network predicts offsets for each vertex Repeat.

从初始椭球网格开始 网络预测每个顶点的偏移 重复。

 Predicting Triangle Meshes: Graph Convolution

 

 Problem: How to incorporate image features?

Predicting Triangle Meshes: Vertex-Aligned Features

Predicting Meshes: Loss Function

The same shape can be represented with different meshes – how can we define a loss between predicted and ground-truth mesh?

Idea: Convert meshes to pointclouds, then compute loss

P52--73 3D Shape Prediction: Mesh R-CNN

 

Mesh R-CNN: Hybrid 3D shape representation

 Mesh R-CNN Pipeline

 

Mesh R-CNN: ShapeNet Results

Datasets for 3D Objects

Large-scale Synthetic Objects: ShapeNet, 3M models

ModelNet: absorbed by ShapeNet

ShapeNetCore: 51.3K models in 55 categories

 Datasets for 3D Object Parts

Fine-grained Parts: PartNet

• Fine-grained (+mobility)

• Instance-level

• Hierarchical

 P74--92   3D Shape Representations: Implicit Functions

 Algebraic Surfaces (Implicit)

 Constructive Solid Geometry (Implicit) 

 Level Set Methods (Implicit) 

 

 

 NeRF: Representing Scenes as Neural Radiance Fields

 

 

P93 Summary: 3D Shape Representations

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/89866.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

echarts 甘特图一组显示多组数据

<template><el-button type"primary" click"addlin">添加线</el-button><el-button type"success" click"addArea">添加区域</el-button><div ref"echart" id"echart" class&qu…

应急物资管理系统|智物资DW-S300提升应急响应能力

项目背景 智慧应急物资管理系统&#xff08;智装备DW-S300&#xff09;是一套成熟系统&#xff0c;依托互3D技术、云计算、大数据、RFID技术、数据库技术、AI、视频分析技术对RFID智能仓库进行统一管理、分析的信息化、智能化、规范化的系统。 本项目采用东识智慧应急物资管理…

(三)行为模式:6、备忘录模式(Memento Pattern)(C++示例)

目录 1、备忘录模式&#xff08;Memento Pattern&#xff09;含义 2、备忘录模式的UML图学习 3、备忘录模式的应用场景 4、备忘录模式的优缺点 &#xff08;1&#xff09;优点&#xff1a; &#xff08;2&#xff09;缺点 5、C实现备忘录模式的实例 1、备忘录模式&#…

javaee spring 自动注入,如果满足条件的类有多个如何区别

如图IDrinkDao有两个实现类 方法一 方法二 Resource(name“对象名”) Resource(name"oracleDrinkDao") private IDrinkDao drinkDao;

C# task多线程创建,暂停,继续,结束使用

1、多线程任务创建 private void button1_Click(object sender, EventArgs e) //创建线程{CancellationToken cancellationToken tokensource.Token;Task.Run(() > //模拟耗时任务{for (int i 0; i < 100; i){if (cancellationToken.IsCancellationRequested){return;…

【C语言】每日一题(除自身以外数组的乘积)

添加链接描述&#xff0c;链接奉上 方法&#xff1a; 暴力循环:前缀积后缀积&#xff08;分组&#xff09;: 暴力循环: 暴力循换真的是差生法宝&#xff0c;简单好懂&#xff0c;就是不实用&#xff0c;大多数的题目都会超过时间限制&#xff08;无奈&#xff09; 思路&…

iOS开发Swift-2-图片视图、App图标-赏月App

1.创建新项目 点击File - New - Project。 选择Single View App&#xff0c;点击Next。 填写文件信息&#xff0c;点击Next。 选择文件位置&#xff0c;点击Create。 修改App显示名称为 “赏月”。 2.设置背景色 选择Main&#xff0c;点击View界面&#xff0c;选择右边属性&…

OLAP学习

OLAP又叫联机分析处理&#xff0c;联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。 当今的数据处理大致可以分成两大类&#xff1a;联机事务处理OLTP&#xff08;on-linetransactionprocessing&#xff09;、联机分析处理OLAP&#xff08;On-LineAna…

VS的调试技巧

Visual Studiohttps://visualstudio.microsoft.com/zh-hans/vs/ 目录 1、什么是调试&#xff1f; 2、debug和release 3、调试 3.1、环境 3.2、 快捷键 3.2.1、F10和F11 3.2.2、ctrlF5 3.2.3、F5与F9 3.2.3.1、条件断点 3.3、监视和内存观察 3.3.1、监视 3.3.2、内存 …

DSP_TMS320F28377D_算法加速方法2_添加浮点运算快速补充库rts2800_fpu32_fast_supplement.lib

继上一篇博客DSP_TMS320F28377D_算法加速方法1_拷贝程序到RAM运行_江湖上都叫我秋博的博客-CSDN博客之后&#xff0c;本文讲第二种DSP算法加速的方法&#xff0c;该方法的加速效果很明显&#xff0c;但是加速范围仅限于32位浮点数下面这几种函数: 1 工程师的关注点 下面稍微解…

爬虫实战之使用 Python 的 Scrapy 库开发网络爬虫详解

关键词 - Python, Scrapy, 网络爬虫 在信息爆炸时代&#xff0c;我们每天都要面对海量的数据和信息。有时候我们需要从互联网上获取特定的数据来进行分析和应用。今天我将向大家介绍如何使用 Python 的 Scrapy 库进行网络爬虫&#xff0c;获取所需数据。 1. Scrapy 简介 1.1 …

设计模式--装饰者模式(Decorator Pattern)

一、什么是装饰者模式&#xff08;Decorator Pattern&#xff09; 装饰者模式&#xff08;Decorator Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许你在不修改现有对象的情况下&#xff0c;动态地将新功能附加到对象上。这种模式通过创建一个包装类&#xff0c;…