【深度学习】知识点归纳总结-for 面试【自用】

add 和 concat的区别

特征add的时候就是增加特征的信息量,特征concat的时候就是增加特征的数量,注重细节的时候使用add,注重特征数量的时候使用concat,

resnet用的add
densenet用的concat

RNN应用

一、关键字提取(many to one)
将一段话作为序列输入网络,输出只取最后一个状态,用它来表示这句话的关键字。
和文本分类没啥区别,评价、态度等。
二、手写数字识别(many to many)
输入与输出都是序列,一般是定长的,模型设计上,利用RNN单元在每一个时间步上的输出得到序列结果。这个是1:1的,先识别第一个字,在将第一个字输入到网络来识别第二个字,依次类推。
三 seq2seq
一般是在机器翻译的任务中出现,将一句中文翻译成英文,那么这句英文的长度有可能会比中文短,也有可能会比中文长,所以这时候输出的长度就不确定了,需要用序列到序列的模型来解决这个问题。
聊天机器人和问答系统也都是同样的原理,将句子输入,输出是根据前面的输入来得到.
在这里插入图片描述
seq2seq模型结构如上图
Seq2Seq任务包含两部分:编码器(Encoder)和解码器(Decoder),编码器负责把文本序列转换成隐含表示,解码器负责把隐含表示还原成另一个文本序列。在这里,编码器和解码器的任务都能使用循环神经网络来实现。
注意中间的context(也叫作状态)
在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个的输出作为后一个时刻的输入,循环解码,直到输出停止符为止。
首先,解码器输入一个特殊的单词,即句子开头的单词对应的词向量(这个特殊的单词一般标记为<SOS>,即Start Of Sentence),输出第一个预测的单词。然后根据第一个预测的单词获取对应的词向量,进行第二个单词的预测,不断重复这个过程,直到到达最大预测长度或者预测得到另一个特殊单词(这个特殊的单词一般标记为<EOS>,即End Of Sentence),整个解码过程结束。Seq2seq解码过程对应的解码模型称为自回归模型(Autoregressive model)。

seq2seq的缺陷和注意力机制

看上图你也可以猜出来,对于很长的序列,RNN(包括LSTM和GRU)记不住啊。所以Attention Mechanism 注意力机制来解决。
注意力机制:就是通过引入一个神经网络,计算
编码器的输出对解码器贡献的权重,最后计算加权平均后编码器的输出,即上下文(Context)
通过在编码器的输出和下一步的输入中引入上下文的信息,最后达到让解码器的某一个特定的解码和编码器的一些输出关联起来,即对齐(Alignment)的效果。
在这里插入图片描述
每一个输出都有一个上下文,每一个输入都会对每一个上下文有一个加权。
在这里插入图片描述
解码器每一步时间步的预测值都需要把原有的值都计算一遍。所以相较于LSTM,他的计算量是增加的。
最后将隐含层的结果和归一化后的结果在特征方向(最后一个维度)做拼接,线性变换,并使用Tanh函数作为激活函数输出最终上下文的值。
注意力层涉及编码器每一步输出的隐含状态,以及编码器的所有输出。
假设编码器输入序列的长度是S,解码器输出序列的长度是T,则总的计算量是SXT,因为解码过程中每个步骤都需要S次分数计算。

自注意力机制

自注意力机制和注意力机制完全不同,因为循环神经网络无法并行,有时序关系。
下一层只有在上一层计算完才进行,使得效率和优化都比较受限制。所以资助以来机制来了,attention is all your need. 不需要使用RNN类的循环神经网络。取而代之的是使用注意力机制来描述时间序列的上下文相关性,瑞阳的注意力机制称为自注意力机制。
它可以并行运算,没有先后顺序。
基本构造:
在这里插入图片描述
Query查询张量, K键,V值 实际上自问自答(自注意力)
Q,K,V三张量的形状为NTC: 第一维度为批次维度,第二维度是序列的时间长度,以及序列特征长度。
前两个张量(Q,K)的作用根据查询张量获取每个键张量的对应的分数,然后根据分数计算出对应的权重,用得到的权重乘以值(V)张量,并对值张量加权平均,最后输出结果。
实践中,使用多个并行的自注意力机制,(Multihead Attention),即使用多个注意力矩阵和多个权重对输入值进行加权平均,最后对加权平均的结果进行拼接。
为啥使用多头注意力机制?
单个注意力机制只能捕捉一种序列直接的关联(比如相邻单词)。
如果使用多个注意力机制,就能捕获多种序列直接的关联(比如,距离比较远的单词直接的相关性)。最后的拼接,通过结合多头注意力机制,就能更好的描述不同距离的单词之间的相互关系。(可以类别CNN中的多核来提取特征是类似的)

上边的介绍就引出了 Transformer

在这里插入图片描述
模型第一部分是词嵌入向量的生成,由于自注意力机制中不包含单词的顺序如果要构建单词的词向量序列,需要引入单词的顺序相关的信息

可使用周期性的函数来编码单词的顺序,比如使用不同周期的正弦函数和余弦函数来描述单词的顺序,这种位置编码方式的优点是能够编码任意长度的序列,但缺点是序列的词嵌入需要进行预先计算,需要消耗一定的计算时间。也可使用位置的嵌入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/513829.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何计算搭建光伏电站需要多少成本?

光伏电站,又称太阳能电站,是一种利用太阳能发电的电力系统。随着全球对可再生能源的需求日益增加,光伏电站的建设变得越来越普遍。然而,在投资光伏电站之前,了解其建设成本是非常重要的。本文将介绍如何计算搭建光伏电…

CSS字体样式的使用,下载量瞬秒百万

CSS简介 CSS是层叠样式表(Cascading Style Sheets)的简称。 作用: 用于HTML文档中元素的样式定义实现内容(html元素)与表现(css样式)的分离实现代码的可重用性和可维护性 CSS主要部分&#…

【bug日记】已解决:Invalid bound statement (not found): 找不到对应的Mapper映射类

急着解决问题的哥们直接用目录跳到下文哈 我放传送门了 目录 试错 尝试过确认的东西: 最终解决方案!已经完美解决: 只需要在你配置数据源的地方: 更改为: MybatisSqlSessionFactoryBean sessionFactory …

YOLOv9推理详解及部署实现

目录 前言零、YOLOv9简介一、YOLOv9推理(Python)1. YOLOv9预测2. YOLOv9预处理3. YOLOv9后处理4. YOLOv9推理 二、YOLOv9推理(C)1. ONNX导出2. YOLOv9预处理3. YOLOv9后处理4. YOLOv9推理 三、YOLOv9部署1. 源码下载2. 环境配置2.1 配置CMakeLists.txt2.2 配置Makefile 3. ONNX…

为什么被蜜蜂蛰了会肿得像馒头

有的人却只是一点点小鼓包。 病情分析:蜜蜂体内存在一种有毒物质,其主要成分是蚁酸,这种成分进入人体后,会和血液发生反应,导致皮肤表现出红肿和瘙痒的症状。一些人群还会对蜜蜂表现出过敏反应,此类人群在…

React富文本编辑器开发(四)

上一节我们做了块级元素的格式操作,这节我们来讲行内元素的相关操作。行内元素的样式一般指 粗体、斜体、代码或 删除线等 。通过前一章的内容得知,元素的渲染是通过渲染器来呈现的,块级元素通过指定 renderElement, 行内元素(即内…

【电路笔记】-双极晶体管

双极晶体管 文章目录 双极晶体管1、概述2、双极晶体管结构3、双极晶体管配置3.1 共基极 (CB) 配置3.2 共发射极 (CE) 配置3.3 共集极 (CC) 配置4、总结1、概述 双极结型晶体管是一种可用于开关或放大的半导体器件。 与半导体二极管不同,半导体二极管由两片半导体材料组成,形…

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型。随着科技的飞速发展,食品工业正迎来一场前所未有的数字化转型。在这场转型中,5G智能制造工厂数字孪生可视化平台发挥着至关重要的作用。它不仅提高了生产效率,降低…

约课小程序有哪些功能

​约课小程序为教育机构、教师和学生提供了便捷的预约和管理服务,有效提升了教学效率和用户体验。在这篇文章中,我们将介绍约课小程序常见的功能,帮助教育机构更好地了解如何利用小程序来提升服务质量和管理效率。 1. **课程预约功能**&…

CUDA学习笔记04:向量之和

参考资料 CUDA编程模型系列二(向量操作)_哔哩哔哩_bilibili (非常好的学习资料!) vs2019 随意新建一个空项目,按照之前的环境配置配好项目依赖: CUDA学习笔记02:测试程序hello world-CSDN博客 代码结构…

leetcode 3.5

普通数组 1.最大子数组和 最大子数组和 前缀和pre 动态规划 pre保留的是当前包含了当前遍历的最大的前缀和,如果之前的pre 对结果有增益效果,则 pre 保留并加上当前遍历, 如果pre 对结果无增益效果,需要舍弃,则 pre 直接更新为…

【BUG】Windows状态栏总卡死解决办法

屋漏偏逢连夜雨,正在赶deadline呢,Windows状态老卡死,一时间崩溃。 解决办法: 右键状态栏新闻和咨询关掉 这个烧笔新闻与资讯我真服了