神经网络之卷积篇:详解计算机视觉(Computer vision)

news/2024/11/15 18:43:37/文章来源:https://www.cnblogs.com/oten/p/18334015

详解计算机视觉

计算机视觉是一个飞速发展的一个领域,这多亏了深度学习。深度学习与计算机视觉可以帮助汽车,查明周围的行人和汽车,并帮助汽车避开它们。还使得人脸识别技术变得更加效率和精准,即将能够体验到或早已体验过仅仅通过刷脸就能解锁手机或者门锁。当解锁了手机,猜手机上一定有很多分享图片的应用。在上面,能看到美食,酒店或美丽风景的图片。有些公司在这些应用上使用了深度学习技术来向展示最为生动美丽以及与最为相关的图片。机器学习甚至还催生了新的艺术类型。深度学习之所以让兴奋有下面两个原因,想也是这么想的。

第一,计算机视觉的高速发展标志着新型应用产生的可能,这是几年前,人们所不敢想象的。通过学习使用这些工具,也许能够创造出新的产品和应用。

其次,即使到头来未能在计算机视觉上有所建树,但发现,人们对于计算机视觉的研究是如此富有想象力和创造力,由此衍生出新的神经网络结构与算法,这实际上启发人们去创造出计算机视觉与其他领域的交叉成果。举个例子,之前在做语音识别的时候,经常从计算机视觉领域中寻找灵感,
并将其应用于文献当中。所以即使在计算机视觉方面没有做出成果,也希望也可以将所学的知识应用到其他算法和结构。就介绍到这儿,让开始学习吧。

这是本篇博客将要学习的一些问题,应该早就听说过图片分类,或者说图片识别。比如给出这张64×64的图片,让计算机去分辨出这是一只猫。

还有一个例子,在计算机视觉中有个问题叫做目标检测,比如在一个无人驾驶项目中,不一定非得识别出图片中的物体是车辆,但需要计算出其他车辆的位置,以确保自己能够避开它们。所以在目标检测项目中,首先需要计算出图中有哪些物体,比如汽车,还有图片中的其他东西,再将它们模拟成一个个盒子,或用一些其他的技术识别出它们在图片中的位置。注意在这个例子中,在一张图片中同时有多个车辆,每辆车相对与来说都有一个确切的距离。

还有一个更有趣的例子,就是神经网络实现的图片风格迁移,比如说有一张图片,但想将这张图片转换为另外一种风格。所以图片风格迁移,就是有一张满意的图片和一张风格图片,实际上右边这幅画是毕加索的画作,而可以利用神经网络将它们融合到一起,描绘出一张新的图片。它的整体轮廓来自于左边,却是右边的风格,最后生成下面这张图片。这种神奇的算法创造出了新的艺术风格。

但在应用计算机视觉时要面临一个挑战,就是数据的输入可能会非常大。举个例子,一般操作的都是64×64的小图片,实际上,它的数据量是64×64×3,因为每张图片都有3个颜色通道。如果计算一下的话,可得知数据量为12288,所以特征向量\(x\)维度为12288。这其实还好,因为64×64真的是很小的一张图片。

如果要操作更大的图片,比如一张1000×1000的图片,它足有1兆那么大,但是特征向量的维度达到了1000×1000×3,因为有3个RGB通道,所以数字将会是300万。如果在尺寸很小的屏幕上观察,可能察觉不出上面的图片只有64×64那么大,而下面一张是1000×1000的大图。

如果要输入300万的数据量,这就意味着,特征向量\(x\)的维度高达300万。所以在第一隐藏层中,也许会有1000个隐藏单元,而所有的权值组成了矩阵 \(W^{[1]}\)。如果使用了标准的全连接网络,这个矩阵的大小将会是1000×300万。因为现在\(x\)的维度为\(3m\)\(3m\)通常用来表示300万。这意味着矩阵\(W^{[1]}\)会有30亿个参数,这是个非常巨大的数字。在参数如此大量的情况下,难以获得足够的数据来防止神经网络发生过拟合和竞争需求,要处理包含30亿参数的神经网络,巨大的内存需求让人不太能接受。

但对于计算机视觉应用来说,肯定不想它只处理小图片,希望它同时也要能处理大图。为此,需要进行卷积计算,它是卷积神经网络中非常重要的一块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/774467.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Typora图片即时上传

Typora图片即时上传声明:以下转载自:博客园markdown上传文件及图片 - jaysonteng - 博客园 (cnblogs.com) 使用Typora写博客,图片即时上传,无需第三方图床-EasyBlogImageForTypora - xhznl - 博客园 (cnblogs.com)感谢此文所引用的文章的作者提供的优质学习资源,如有侵犯,…

封装Vue 的 SVG 组件

svg静态资源 在assets下新建一个 svg 文件夹,用于存放svg图片svgIcon组件 在components 下新建一个文件夹,包含两个文件index.ts和SvgIcon.vuevue.config.jsmain.ts 需要引入组件svgIcon使用 **.vue <svg-icon iconClass="invite" className="icon icon-in…

海康ID2013扫码枪调试笔记

1, 将电脑IP设置为自动获取 2, 修改IP3, 点击刷新, 连接扫码枪 4, 自动工作模式设置 5, 图像配置 6, 算法配置 7,输入输出 8,

面向对象,类和对象之间的关系day05

1、面向对象和面向过程的关系以及区别? 面向过程编程:开发程序的过程中,其中每一步功能的实现都是我们自己参与的,我们相当于参与者,代表语言:C语言 面向对象编程:不断地创建对象,指挥对象做事情,我们从参与者变成了指挥者,代表语言:Java2、生活中的举例:1)下课了…

【YashanDB知识库】账号被锁,如何分析具体原因

问题现象 客户刚开始使用YashanDB的时候,经常收到客户反馈账号被锁,但是不知道哪里触发了。 问题的风险及影响 客户环境为测试环境,影响测试业务的开展。 问题影响的版本 YashanDB版本:23.1.3.101 问题发生原因 账号被锁一般有下面原因: ● 密码尝试次数过多: 用户在短时…

一文带你了解CAP的全部特性,你学会了吗?

目录前言消息发布携带消息头设置消息前缀原生支持的延迟消息并行发布消息事务消息事务消息发送事务消息消费事务补偿消息处理序列化过滤器消息重试多线程处理自动恢复/重连分布式存储锁消息版本隔离优化的雪花算法消息自动清理消费者特性Attribute 订阅多Attribute 订阅通配符订…

[HTTP] HTTP协议之MIME类型(多媒体资源类型)

1 概述 MIME 的定义、由来MIME(Multipurpose Internet Mail Extensions) 多用途互联网邮件扩展类型。 MIME 是设定某种扩展名的文件用一种应用程序来打开的方式类型,当该扩展名文件被访问的时候,浏览器会自动使用指定应用程序来打开。多用于指定一些客户端自定义的文件名,以…

Splunk Enterprise 9.3 发布,新增功能概览

Splunk Enterprise 9.3 发布,新增功能概览Splunk Enterprise 9.3.0 (macOS, Linux, Windows) - 机器数据管理和分析 Splunk Enterprise 9.3 于 2024 年 7 月发布。新增功能新功能、增强或更改 描述对 Ingest Actions file system 目标的官方支持 将数据路由到 NFS 或本地文件系…

使用finallshell连接linux

用户可以去FinalShell的官网上下载,只需点击下载地址,即可轻松下载安装包。 傻瓜式安装点击到底。 使用 双击打开页面,新建连接右击连接,新建》ssh 连接,双击新建的连接,如下界面即连接成功。新建文件夹,右键新建文件夹。新建文件,在文件夹右键新建文件。 命令在命令区…

MQTT原理及案例

MQTT 协议是当今世界上最受欢迎的物联网协议,没有之一。MQTT 协议为设备提供了稳定、可靠、简单易用的通信基础,截至目前通过 MQTT 协议连接的设备已经过亿,广泛应用于 IoT、M2M 等领域。本篇将从最基础的知识开始,向您讲解 MQTT 协议的原理与应用。 目前 MQTT 主流版本有 …

IDEA 字节码工具 jclasslib bytecode viewer

IDEA 字节码工具 jclasslib bytecode viewer1. 下载安装首先我们在 IDEA 的插件市场中搜索 jclasslib bytecode viewer 和进行下载安装,安装过后根据 IDEA 版本的不同,可能需要重启才能使用。2. 使用下载安装过后,在我们的项目中,首先先将整个项目进行编译,编译的作用是将…

题解_P1525 [NOIP2010 提高组] 关押罪犯

目录[NOIP2010 提高组] 关押罪犯题目背景题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1提示题解思路分析程序实现 [NOIP2010 提高组] 关押罪犯 题目背景 NOIP2010 提高组 T3 题目描述 S 城现有两座监狱,一共关押着 \(N\) 名罪犯,编号分别为 \(1\sim N\)。他们之间的…