深度学习笔试题(一)

一、单选题(1-20题)
1、这些图中的哪一个表示sigmoid激活函数?(C)

A.在这里插入图片描述
B.在这里插入图片描述

C.在这里插入图片描述
D.在这里插入图片描述

2、对于隐藏单元,tanh激活通常比sigmoid激活函数更有效,因为其输出的平均值接近于1,因此它可以更好地将数据集中到下一层。B

A.对
B.不对
tanh输出在[-1,1],均值为0,可以起到归一化的作用

3. 以下哪个选项正确? C

A、卷积神经网络有反馈连接。
B、增加多层感知机的隐层层数,测试集的分类错误会减小。 不一定,有可能过拟合
C、卷积神经网络会发生权重共享。
D、穷举搜索不可以用来更新参数。

4、正规方程是y,假设您有m=18个训练示例,有n=5个特性(不包括需要另外添加的恒为1的截距项)。对于给定m和n的值,这个方程中,y的维数分别是多少?B

A. 18×5, y 18×1, 5×5
B. 18×6, y 18×1, 6×1
C. 18×5, y 18×1, 5×1
D. 18×6, y 18×6, 6×6

5、假设您有一个数据集,每个示例有m=1000000个示例和n=200000个特性。你想用多元线性回归来拟合参数到我们的数据。你更应该用梯度下降还是正规方程? A

A. 梯度下降,因为正规方程中中计算非常慢
B. 梯度下降,因为它总是收敛到最优
C. 正规方程,因为它提供了一种直接求解的有效方法
D. 正规方程,因为梯度下降可能无法找到最优

6、输入图片为300x300,经过卷积(kernel size 8x8 ,padding 1,stride 2)pooling(kernel size 5x5 ,padding 0,stride 1)之后,输出特征图大小为: C

A.142
B.143
C.144
D.145
卷积层:(300-8+2*1)/2 + 1=148
池化层:(148-5)/1+1=144

7、下面属于无监督学习的是: A

A.K-means
B.决策树
C.SVM
D.F-RCNN

8、假设你的输入的维度为128x128x16,单个1x1的卷积过滤器含有多少个参数(包括偏差)?C

A.1
B.2
C.17
D.4097

9、你有一个64x64x16的输入,并使用步幅为2、过滤器大小为2的最大化池,请问输出是多少?C

A.31x31x16
B.32x32x8
C.32x32x16
D.64x64x8

10、你有一个16x16x8的输入,并使用“pad = 2”进行填充,填充后的尺寸是多少?B

A.18x18x10
B.20x20x8
C.20x20x12
D.18x18x8

11、为什么要对输入x进行归一化?B

A.让参数初始化更快
B.让代价函数更快地优化
C.更容易做数据可视化
D.是另一种正则化——有助减少方差

12、下面哪个选项中哪一项不属于确定性算法?A

A、PCA
B、K-Means
C、以上都不是
确定性算法我的理解是:输入一样,输出也一样
K-Means聚类算法多次训练得到结果不一样
PCA的话,本质在于对一个方差最大化问题的求解,求最优解,必然是确定且唯一

13、当你增大正则化的超参数时会发生什么?B

A.重量变大(远离0)
B.权重变小(接近0)
C.2倍的导致2倍的权重
每次迭代,梯度下降采取更大的步距(与成正比)

14、如果你有10,000个例子,你会如何划分训练/开发/测试集?C

A.33%训练,33%开发,33%测试
B.60%训练,20%开发,20%测试
C.98%训练,1%开发,1%测试

15、开发和测试集应该:A

A.来自同一分布
B.选择随机分布
C.完全相同(一样的(x, y)对)
D.数据数量应该相同

16、你正在训练一个RNN网络,下列选项中,哪一个是最有可能导致你的权重与激活值都是“NaN”的?A

A.梯度爆炸
B.梯度消失
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了

17、对数损失度量函数不可以取负值:B loss常用正值,不代表只能用正值

A.对
B.错

18、下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的? 1 在 GD 中,每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。 2 在 GD 和SGD 中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。 3 在 GD 和 SGD 中,每一次迭代中都是更新一组参数以最小化损失函数。B

A.只有 1
B.只有 3
C.只有2和3
D.都正确

19、LSTM与GRU的一个主要区别在于GRU将LSTM的哪几个gate融合了? A

a .forget gate b. input gate
c. output gate d. reset gate
A.ab
B.abc
C.abcd
D.bcd
GRU将LSTM中的输入门input gate和遗忘门forget gate进行了合并,称之为更新门

20、以下是目标变量在训练集上的13个实际值[0,0,0,0,1,1,1,1,1,1,1,1,1],目标变量的熵是多少; A

A.-(9/13log(9/13)+4/13log(4/13))
B. 9/13log(9/13)-4/13log(4/13)
C. 9/13log(9/13)+4/13log(4/13)
D. -9/13log(9/13)+4/13log(4/13)

二、多选题(21-30题)
21、以下哪些操作防止过拟合?(选出所有正确项)ABCG

A.交叉验证
B.增加训练数据
C.Dropout
D.L3正则化 没听过,不了解
E.Xavier初始化
F.梯度爆炸
G.L2正则化

22、将参数keep_prob增大但都不超过1会导致以下情况(选出所有正确项):BDF

A.正则化效应被增强
B.正则化效应被减弱
C.模型结构复杂的层取大的keep_prob
D.模型结构复杂的层取小的keep_prob
E.训练集的误差会增加
F.训练集的误差会减小
Keep_prob越大,保留越多的神经元节点,模型会更复杂,能够更好的拟合训练集数据
正则化引入了惩罚项,来防止模型过于复杂,keep_prob越大会导致正则化效应越弱

23、怎么解决神经网络方差较高的问题?B

A.特征工程
B.获取更多测试数据
C.增加每个隐藏层的神经元数量
D.提前终止
E.用更深的神经网络

24、你正在为苹果,香蕉和橘子制作分类器。 假设您的分类器在训练集上有0.5%的错误,以及开发集上有7%的错误。 以下哪项尝试是有希望改善你的分类器的分类效果的?AC

A.增大正则化参数
B.减小正则化参数
C.获取更多训练数据
D.用更大的神经网络

25、以下哪些是“超参数”?(选出所有正确项) CDEF

A.隐藏层规模
B.神经网络的层数
C.正则化参数
D.学习的回合数
E.学习率
F.迭代次数
G.神经元的激活函数

26、假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数小。以下哪些方法可以帮助找到值较小的参数值? BCDE

A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
E.尝试使用 Adam 算法

27、为什么最好的mini-batch的大小通常不是1也不是m,而是介于两者之间? BC

A.如果mini-batch的大小是1,那么在你取得进展前,你需要遍历整个训练集
B.如果mini-batch的大小是m,就会变成批量梯度下降。在你取得进展前,你需要遍历整个训练集
C.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处
D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢

28、关于参数共享的下列哪个陈述是正确的?(选出所有正确项)BDE

A.它减少了参数的总数,从而减少过拟合。
B.它允许在整个输入值的多个位置使用特征检测器。
C.它允许为一项任务学习的参数即使对于不同的任务也可以共享(迁移学习)。
D.它允许梯度下降将许多参数设置为零,从而使得连接稀疏。
E.减少模型复杂度。
F.降低模型性能。

29、对于分类问题,我们可以采用哪些损失函数? BD

A.均方误差损失函数
B.交叉熵损失函数
C.平均绝对误差损失函数。
D.二元交叉熵损失函数。
E.Huber Loss。

30、批归一化算法的优点 AE

A.渐少梯度消失
B.减少收敛速度
C.降低训练精度
D.导致过拟合
E.减少人为选择参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/422312.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑文件msvcp140.dll重新安装的解决方法,详细解析msvcp140.dll

电脑文件msvcp140.dll找不到了,你遇到过这种事情么?其实msvcp140.dll文件找不到也是很正常的,毕竟dll文件的丢失时常发生,而msvcp140.dll只是其中一个,下面我们一来看看msvcp140.dll重新安装的解决方法。 一.msvcp140.…

(C++)n阶方阵求逆

文章目录 一、实验目的、内容二、实验程序设计及结构1.需求分析变量函数 2.设计结构或流程图 三、设计过程四、测试分析第一组第二组实验中出现的bug及解决方案 五、设计的特点和结果 一、实验目的、内容 输入是一个 n n n&#xff08; n < 256 n<256 n<256&#xff…

Jenkins 还可以支持钉钉消息通知?一个插件带你搞定!

Jenkins 作为最流行的开源持续集成平台&#xff0c;其强大的拓展功能一直备受测试人员及开发人员的青睐。大家都知道我们可以在 Jenkins 中安装 Email 插件支持构建之后通过邮件将结果及时通知到相关人员。 但其实 Jenkins 还可以支持钉钉消息通知&#xff0c;其主要通过 Ding…

【C++】入门(一)

前言&#xff1a; 本篇博客将带大家认识C&#xff0c;熟悉基本语法 文章目录 认识CC的诞生与发展C 在行业中的运用 一、命名空间1.1 命名空间的定义1.2 命名空间的使用1.3 命名空间的访问 二、C输入&输出输出操作符 <<输入操作符 >>换行符和刷新输出缓冲区关键…

论文阅读:Vary论文阅读笔记

目录 引言整体结构图数据集构造Vary-tiny部分Document Data数据构造Chart Data构造Negative natural image选取 Vary-base部分 引言 论文&#xff1a;Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models Paper | Github | Demo 许久不精读论文了&#x…

如何查看Linux CPU占有率

目录 1、top 2、htop 3、vmstat 4、mpstat 5、iostat 查看嵌入式设备CPU占有率是评估系统资源使用情况的重要方式。 在Linux系统中&#xff0c;有多种方法可以查看CPU占有率&#xff0c;这里介绍几种常用的命令行工具。 1、top 这是最常用的命令之一&#xff0c;它提供了…

Unity 编辑器篇|(十三)自定义属性绘制器(PropertyDrawer ,PropertyAttribute) (全面总结 | 建议收藏)

目录 1. 前言2. PropertyDrawer2.1 参数总览2.2 两种用途2.3 注意事项2.4 代码样例 3. PropertyDrawer与PropertyAttribute结合使用 1. 前言 在Unity中&#xff0c;PropertyDrawer和PropertyAttribute是两个重要的工具&#xff0c;它们主要用于自定义属性的显示和行为。Proper…

U-Boot 命令解析(一)

U-Boot 命令解析&#xff08;一&#xff09; 查询命令环境变量操作命令修改环境变量新建环境变量删除环境变量&#xff0c; 内存操作命令内存查看命令 md内存修改命令 nm内存修改命令 mm内存填充命令 mw内存拷贝命令 cp内存对比命令 cmp 更多内容 一般情况下&#xff0c;U-Boot…

亚马逊KYC审核的重要性,所需提交的文件有哪些?—站斧浏览器

亚马逊KYC审核的重要性有哪些&#xff1f; KYC审核是亚马逊对卖家身份的一种验证&#xff0c;确保卖家遵守相关法规。只有通过审核的卖家才能在欧洲平台进行销售。因此&#xff0c;正确理解和应对KYC审核对于卖家来说至关重要。 注册完成后立即触发&#xff1a;新注册的卖家可…

const关键字

修饰常量 const int a 10; int const a 10; 常量指针 以下两种方式等价 const int *a; int const *a; 常量指针说的是不可以通过指针改变指向内容的值&#xff0c;但是可以重新指向新的地址, 因此一般用作函数参数&#xff0c;防止内部通过指针地址中保存的值void test(…

Netty篇章(1)—— 核心原理介绍

终于进入到Netty框架的环节了&#xff0c;前面介绍了大量的Java-NIO的内容&#xff0c;核心的内容Selector、Channel、Buffer、Reactor掌握了&#xff0c;那么学起来Netty也是水到渠成的事情。如果没有掌握前面的内容那么学Netty会非常吃力&#xff0c;下面讲解Netty核心原理与…

机械设计-哈工大课程学习-螺旋传动

二、摩擦类型 1、静态摩擦&#xff1a;这是身体静止时所经历的摩擦。换句话说&#xff0c;就是身体有运动倾向时的摩擦力。 2、动态摩擦&#xff1a;这是身体在运动时所经历的摩擦。也称为动摩擦。动摩擦有以下两种类型&#xff1a; ①滑动摩擦&#xff1a;一个物体在另一个…