深度学习笔试题（一）-编程知识

一、单选题（1-20题）

1、这些图中的哪一个表示sigmoid激活函数？（C）

A. 在这里插入图片描述
B.

C. 在这里插入图片描述
D.

2、对于隐藏单元，tanh激活通常比sigmoid激活函数更有效，因为其输出的平均值接近于1，因此它可以更好地将数据集中到下一层。B

A.对
B.不对
tanh输出在[-1,1]，均值为0，可以起到归一化的作用

3. 以下哪个选项正确？ C

A、卷积神经网络有反馈连接。
B、增加多层感知机的隐层层数，测试集的分类错误会减小。 不一定，有可能过拟合
C、卷积神经网络会发生权重共享。
D、穷举搜索不可以用来更新参数。

4、正规方程是y，假设您有m=18个训练示例，有n=5个特性（不包括需要另外添加的恒为1的截距项）。对于给定m和n的值，这个方程中,y的维数分别是多少？B

A. 18×5, y 18×1, 5×5
B. 18×6, y 18×1, 6×1
C. 18×5, y 18×1, 5×1
D. 18×6, y 18×6, 6×6

5、假设您有一个数据集，每个示例有m=1000000个示例和n=200000个特性。你想用多元线性回归来拟合参数到我们的数据。你更应该用梯度下降还是正规方程？ A

A. 梯度下降，因为正规方程中中计算非常慢
B. 梯度下降，因为它总是收敛到最优
C. 正规方程，因为它提供了一种直接求解的有效方法
D. 正规方程，因为梯度下降可能无法找到最优

6、输入图片为300x300，经过卷积（kernel size 8x8 ,padding 1,stride 2）pooling(kernel size 5x5 ,padding 0,stride 1)之后，输出特征图大小为: C

A．142
B．143
C．144
D．145
卷积层：(300-8+2*1)/2 + 1=148
池化层：(148-5)/1+1=144

7、下面属于无监督学习的是： A

A．K-means
B．决策树
C．SVM
D．F-RCNN

8、假设你的输入的维度为128x128x16，单个1x1的卷积过滤器含有多少个参数（包括偏差）？C

A.1
B.2
C.17
D.4097

9、你有一个64x64x16的输入，并使用步幅为2、过滤器大小为2的最大化池，请问输出是多少？C

A.31x31x16
B.32x32x8
C.32x32x16
D.64x64x8

10、你有一个16x16x8的输入，并使用“pad = 2”进行填充，填充后的尺寸是多少？B

A.18x18x10
B.20x20x8
C.20x20x12
D.18x18x8

11、为什么要对输入x进行归一化？B

A.让参数初始化更快
B.让代价函数更快地优化
C.更容易做数据可视化
D.是另一种正则化——有助减少方差

12、下面哪个选项中哪一项不属于确定性算法？A

A、PCA
B、K-Means
C、以上都不是
确定性算法我的理解是：输入一样，输出也一样
K-Means聚类算法多次训练得到结果不一样
PCA的话，本质在于对一个方差最大化问题的求解，求最优解，必然是确定且唯一

13、当你增大正则化的超参数时会发生什么？B

A.重量变大（远离0）
B.权重变小（接近0）
C.2倍的导致2倍的权重
每次迭代，梯度下降采取更大的步距（与成正比）

14、如果你有10,000个例子，你会如何划分训练/开发/测试集？C

A.33%训练，33%开发，33%测试
B.60%训练，20%开发，20%测试
C.98%训练，1%开发，1%测试

15、开发和测试集应该：A

A.来自同一分布
B.选择随机分布
C.完全相同（一样的(x, y)对）
D.数据数量应该相同

16、你正在训练一个RNN网络，下列选项中，哪一个是最有可能导致你的权重与激活值都是“NaN”的？A

A.梯度爆炸
B.梯度消失
C.ReLU函数作为激活函数g(.)，在计算g(z)时，z的数值过大了
D.Sigmoid函数作为激活函数g(.)，在计算g(z)时，z的数值过大了

17、对数损失度量函数不可以取负值：B `loss常用正值，不代表只能用正值`

A．对
B．错

18、下面哪一项对梯度下降（GD）和随机梯度下降（SGD）的描述是正确的？ 1 在 GD 中，每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。 2 在 GD 和SGD 中，每一次迭代都需要遍历训练集中的所有样本以更新一次参数。 3 在 GD 和 SGD 中，每一次迭代中都是更新一组参数以最小化损失函数。B

A.只有 1
B.只有 3
C.只有2和3
D.都正确

19、LSTM与GRU的一个主要区别在于GRU将LSTM的哪几个gate融合了? A

a .forget gate b. input gate
c. output gate d. reset gate
A.ab
B.abc
C.abcd
D.bcd
GRU将LSTM中的输入门input gate和遗忘门forget gate进行了合并，称之为更新门

20、以下是目标变量在训练集上的13个实际值[0,0,0,0,1,1,1,1,1,1,1,1,1]，目标变量的熵是多少; A

A.-(9/13log(9/13)+4/13log(4/13))
B. 9/13log(9/13)-4/13log(4/13)
C. 9/13log(9/13)+4/13log(4/13)
D. -9/13log(9/13)+4/13log(4/13)

二、多选题（21-30题）

21、以下哪些操作防止过拟合？（选出所有正确项）ABCG

A.交叉验证
B.增加训练数据
C.Dropout
D.L3正则化没听过，不了解
E.Xavier初始化
F.梯度爆炸
G.L2正则化

22、将参数keep_prob增大但都不超过1会导致以下情况（选出所有正确项）：BDF

A.正则化效应被增强
B.正则化效应被减弱
C.模型结构复杂的层取大的keep_prob
D.模型结构复杂的层取小的keep_prob
E.训练集的误差会增加
F.训练集的误差会减小
Keep_prob越大，保留越多的神经元节点，模型会更复杂，能够更好的拟合训练集数据
正则化引入了惩罚项，来防止模型过于复杂，keep_prob越大会导致正则化效应越弱

23、怎么解决神经网络方差较高的问题？B

A.特征工程
B.获取更多测试数据
C.增加每个隐藏层的神经元数量
D.提前终止
E.用更深的神经网络

24、你正在为苹果，香蕉和橘子制作分类器。假设您的分类器在训练集上有0.5％的错误，以及开发集上有7％的错误。以下哪项尝试是有希望改善你的分类器的分类效果的？AC

A.增大正则化参数
B.减小正则化参数
C.获取更多训练数据
D.用更大的神经网络

25、以下哪些是“超参数”？(选出所有正确项) CDEF

A.隐藏层规模
B.神经网络的层数
C.正则化参数
D.学习的回合数
E.学习率
F.迭代次数
G.神经元的激活函数

26、假设在一个深度学习网络中，批量梯度下降花费了大量时间时来找到一组参数值，使成本函数小。以下哪些方法可以帮助找到值较小的参数值？ BCDE

A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
E.尝试使用 Adam 算法

27、为什么最好的mini-batch的大小通常不是1也不是m，而是介于两者之间？ BC

A.如果mini-batch的大小是1，那么在你取得进展前，你需要遍历整个训练集
B.如果mini-batch的大小是m，就会变成批量梯度下降。在你取得进展前，你需要遍历整个训练集
C.如果mini-batch的大小是1，那么你将失去mini-batch将数据矢量化带来的的好处
D.如果mini-batch的大小是m，就会变成随机梯度下降，而这样做经常会比mini-batch慢