2024题目集合 填空版
#国科大#
#复习#
#nlp#
习题集 2024
一、机器学习概述
- 监督学习中的任务一般可分为分类问题和回归问题,请简述这两种任务的定义与区别。
- 下面属于分类任务的是( )
(A) 股票预测
(B) 房价预测
(C) 目标检测
(D) 西瓜的糖含量预测 - 请简述聚类任务的定义。
二、Bayes 学习
- 请简述什么是朴素贝叶斯分类器,并给出其公式。
- 下列哪个选项为朴素贝叶斯公式( )
(A) $P(c | x) \propto P(c) P(x | c)=P(c) \prod_{i=1}^{d} P\left(x_{i} | c, x_{i}^{p}\right)$
(B) $P(c | x) \propto P(c) P(x | c)=P(c) \prod_{i=1}^{d} P\left(x_{i} | c\right)$
(C) $P(c | x) \propto P(c) P(x | c)=\sum_{i=1}^{d} P\left(c, x_{i}\right) \prod_{j=1}^{d} P\left(x_{j} | c, x_{i}\right)$
(D) $P(c | x)=\sum_{i=1}^{d} P(c) P\left(x_{i} | c\right)$ - 贝叶斯二分类问题中的各类样本均为多维正态分布,在( )条件下,决策界为线性决策界。
(A) 各类多维正态分布的均值相等
(B) 各类多维正态分布的方差相等
(C) 各类多维正态分布的协方差矩阵相等
(D) 各类多维正态分布的峰值相等 - 已知贝叶斯公式 $P(M | D)=\frac{P(D | M) P(M)}{P(D)}$,下列选项属于极大似然估计的为( )
(A) $\hat{M}=arg max _{M} P(D | M)$
(B) $\hat{M}=arg max _{M} P(M | D) \propto P(M) P(D | M)$
(C) $\hat{M}=E(P(M | D)$
(D) $\hat{M}=arg max _{M} E(P(M))$ - 已知贝叶斯公式 $P(M | D)=\frac{P(D | M) P(M)}{P(D)}$,下列选项属于最大后验估计的为( )
(A) $\hat{M}=arg max _{M} P(D | M)$
(B) $\hat{M}=arg max _{M} P(M | D) \propto P(M) P(D | M)$
(C) $\hat{M}=E(P(M | D)$
(D) $\hat{M}=arg max _{M} E(P(M))$
三、线性分类
- 请简述向量内积运算法则和几何意义。
- 向量的 P 范数距离公式?2 范数公式?1 范数公式?无穷范数公式?
- 超平面的表达式和线性判别函数分别是什么,并阐述线性判别函数值的几何含义。
- 余弦相似性的公式是什么?
- 对于一个向量 $a=[1,2,3]$ 请计算它的 L1 范数、L2 范数,并计算 $a=[1,2,3]$ 与向量 $b=[-1,3,4]$ 的余弦相似性。
- 假设我们有两维的输入数据,感知机的线性判别函数为 $f(x)=w^{T} x+b$,初始参数为 $w=[0,0]$,阈值(偏置)$b = 0$。感知机优化的目标函数为 $J(w)=\sum_{x_{i} \in E}-w^{T} x_{i} y_{i}$,其中 E 为错误分类样本集,优化过程的学习率(步长)为 $\eta = 1$。训练样本如下:1. 输入[1,2],标签 $y = 1$;2. 输入[2,3],标签 $y = -1$;3. 输入[1,1],标签 $y = 1$。现在我们按照随机梯度下降的方式进行模型学习,迭代更新参数。迭代更新的规则为:$w \leftarrow w-\eta \nabla J(w)$,$b \leftarrow b-\eta \nabla J(b)$。请给出 6 步迭代后的线性判别函数。
- Fisher 鉴别分析中类内散度矩阵刻画了什么统计信息?
- Logistic 模型的目标函数是什么估计?( )
(A) 均方误差估计
(B) 平均绝对误差估计
(C) 最大似然估计
(D) 最小二乘法估计 - 线性分类器的任务是,给定训练样本集 $D={(x_{1}, y_{1}),(x_{2}, y_{2}),..., (x_{m}, y_{m})}$,其中 $(x_{i}, y_{i}) \in \mathbb{R}^{d} ×\mathbb{R}$,$y$ 是类别标签,目标是学习 $w_{0}$,$w$。以下哪一项表示线性分类器分类错误( )
(A) $w^{T} x_{i}+w_{0} ≥0$ For all i,such that $y_{i}=+1$
(B) $w^{T} x_{i}+w_{0} ≤0$ For all i,such that $y_{i}=-1$
(C) Together $y_{i}(w^{T} x_{i}+w_{0})>0$
(D) Together $y_{i}(w^{T} x_{i}+w_{0})<0$ - 下面哪些是线性不可分问题?( )
A B
O 。 0
O O + 十 O O
C D
四、非线性分类
- 决策树模型在特征空间中的决策界通常是由什么样的几何形式构成的( )
(A) 由圆形边界围成
(B) 由多边形边界围成
(C) 由垂直于坐标轴的超平面围成
(D) 由曲线边界围成 - 以下哪些量化指标常用作决策树中的节点选择依据( )
(A) 信息增益
(B) 信息增益率
(C) 基尼指数
(D) 线性回归系数 - 在决策树剪枝后,剪枝节点的类别非纯度相比剪枝前该分枝上各个节点的平均非纯度通常会怎样变化( )
(A) 显著增加
(B) 显著减少
(C) 保持不变
(D) 无法预测 - 在决策树模型中,给定一个数据集,其中每个属性的取值数量分别为 $V_{1}, V_{2},..., V_{n}$,其中 $n$ 是属性的总数。如果以属性为问题,那么决策树中候选问题的总数是多少( )
(A) $n$
(B) $V_{1}+V_{2}+...+V_{n}$
(C) $V_{1} × V_{2} ×... × V_{n}$
(D) $max \left(V_{1}, V_{2},..., V_{n}\right)$ - 假设有以下 4 个训练样本点:
样本点 | x1 | X2 | 类别 |
---|---|---|---|
1 | 1 | 2 | A |
2 | 2 | 3 | A |
3 | 4 | 2 | B |
4 | 5 | 3 | B |
现有一个测试样本点(3, 2)。使用 KNN 算法对其进行分类,假设 $K = 3$,请计算该测试样本点的类别。
6. 列举 3 种以上集成学习的集成策略。
7. 以下关于支持向量机(SVM)表述正确的是( )
(A) SVM 基于最大间隔思想,旨在找到最优的决策边界,使得不同类别之间的间隔最大化。
(B) SVM 仅适用于线性可分的数据集,不能处理非线性数据。
(C) SVM 使用核函数原理将数据映射到更高维空间以解决非线性问题。
(D) SVM 基于经验风险最小化原则,优化模型以减少训练集上的分类错误。
8. Kullback-Leibler 散度(KL 散度)衡量两个概率分布 $p(x)$ 和 $g(x)$ 之间的相似性,给出其数学表达式。
五、回归
- 下面属于监督模型的有( )
(A) 聚类
(B) 线性回归
(C) 支持向量机
(D) 决策树 - 回归分析中,误差可以分解为( )之和
(A) 偏差
(B) 方差
(C) 互信息
(D) 噪声 - 在多元线性回归中,最小二乘估计的参数向量 $\theta=[\theta_{0}, \theta_{1}, \theta_{2},..., \theta_{m}]$ 可以通过以下哪个公式获得?( )
(A) $\theta=X^{T} y$
(B) $\theta=\left(X^{T} X\right)^{-1} X^{T} y$
(C) $\theta=\frac{\sum_{i=1}{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sum_{i=1}\left(x_{i}-\overline{x}\right)^{2}}$
(D) $\theta=\frac{\sum_{i=1}^{n}\left(y_{i}-\left(\theta_{0}+\theta_{1} x_{i 1}+\theta_{2} x_{i 2}+...+\theta_{m} x_{i m}\right)\right)^{2}}{n}$
4. 在机器学习中,损失函数通常由两部分组成,一部分是数据拟合项,另一部分是正则项。正则项在损失函数中的作用是( )
(A) 提高模型的偏差,使其更好地拟合训练数据。
(B) 帮助模型更好地拟合训练数据,减小方差。
(C) 控制模型的复杂度,防止过拟合。
(D) 提高模型的方差,使其更灵活地适应不同的数据分布。
六、聚类
- 以下哪种聚类算法可以进行在线学习( )
(A) K-Means
(B) 层次聚类
(C) 序贯方法
(D) 高斯混合模型 - 哪种聚类算法的聚类过程呈现层次结构( )
(A) K-Means
(B) 层次聚类
(C) DBSCAN
(D) 高斯混合模型 - 在以下聚类算法中,哪一个算法是基于目标函数的方法( )
(A) K-Means
(B) 层次聚类
(C) DBSCAN
(D) 高斯混合模型 - 请列举至少两种用于衡量样本和类簇相似性的公式,并简要描述它们。
- 请列举至少两种用于衡量类簇间相似性的公式。
七、特征选择与降维
- 描述机器学习中的前向序贯特征选择(Sequential forward selection)和后向序贯特征选择(Sequential Backward Selection)的过程并说明两者的区别。
- 下面哪个特征评估方法属于距离可分性准则( )
(A) $J=\frac{\left|S_{b}-S_{w}\right|}{\left|S_{w}\right|}$
(B) $J=-ln \int\left[p\left(x | \omega_{1}\right) p\left(x | \omega_{2}\right)\right]^{1 / 2} d x$
(C) $J=\int_{x}\left|p\left(x | \omega_{1}\right)-p\left(x | \omega_{2}\right)\right|^{s} p(x)^{1-s} d x$
(D) $I(X ; Y)=\sum_{x \in S_{x}} \sum_{y \in S_{y}} p(x, y) log \frac{p(x, y)}{p(x) p(y)}$ - 下面哪个特征评估方法属于概率可分性准则( )
(A) $I(X ; Y | Z)=\sum_{x \in S_{x}} \sum_{y \in S_{y}} \sum_{z \in S_{z}} p(x, y, z) log \frac{p(x, y | z)}{p(x | z) p(y | z)}$
(B) $J=\int_{x}\left[p\left(x | \omega_{1}\right)-p\left(x | \omega_{2}\right)\right] ln \frac{p\left(x | \omega_{1}\right)}{p\left(x | \omega_{2}\right)} d x$
(C) $J=-ln \int p^{s}\left(x | \omega_{1}\right) p^{1-s}\left(x | \omega_{2}\right) d x$
(D) $I(X ; Y)=\sum_{x \in S_{x}} \sum_{y \in S_{y}} p(x, y) log \frac{p(x, y)}{p(x) p(y)}$ - 请简答特征选择和特征变换的区别。
- 下面哪个是特征选择的框架( )
(A) Filter 方法
(B) Wrapper 方法
(C) Embedded 方法
(D) 主成分分析(Principal component analysis) - 下面哪个是特征变换的方法( )
(A) 线性鉴别分析(LDA)
(B) 主成分分析(Principal component analysis)
(C) 非负矩阵分解
(D) 局部线性变换 - 请简答:主成分分析方法中提取的哪个特征方向是最优的?
八、信息论
- 请写出信息熵以及互信息的公式。
- 信息论中的哪些原则可作为机器学习优化原则?( )
(A) 最大熵模型
(B) 最大互信息模型
(C) 最小熵模型
(D) 最小互信息模型 - 以下哪些是正确的信息论模型?( )
(A) 最大条件熵模型
(B) 独立成分分析
(C) 最大输入输出互信息
(D) 马尔可夫模型
九、概率图
- 简述什么是概率图模型,并区分有向和无向概率图模型。
十、深度学习
-
请简述梯度消失现象的原因。
-
假设你正在设计一个卷积神经网络(CNN),并且正在处理以下层的参数配置:
- 输入图像的尺寸为 32×32×3(高度×宽度×深度)。
- 第一个卷积层使用了尺寸为 5×5 的卷积核,步长为 1,没有填充($(padding = 0)$),并有 10 个这样的卷积核。
- 紧接着第一个卷积层的是一个尺寸为 2×2 的最大池化层,步长为 2。
要求:
(a) 计算第一个卷积层后输出特征图的尺寸。
(b) 计算通过最大池化层后输出特征图的尺寸。
-
循环神经网络(Recurrent Neural Network,RNN)能处理什么样的问题( )
(A) 序列对序列
(B) 序列编码
(C) 序列解码
(D) 长期(Long-Term)依赖关系 -
BP 算法即反向传播算法,通常用于( )
(A) 加快深度学习模型的推理速度
(B) 提高机器学习模型的解释性
(C) 训练神经网络,通过计算误差梯度并更新网络权重
(D) 优化神经网络的超参数配置 -
关于 BERT 模型,以下哪些陈述是正确的( )
(A) BERT 使用了 Transformer 的编码器结构。
(B) BERT 只能用于文本分类任务。
(C) BERT 采用了掩码语言模型(Masked Language Model, MLM)预训练方法。
(D) BERT 在预训练阶段使用了“下一个句子预测”(Next Sentence Prediction, NSP)任务。 -
Transformer 模型中的哪一部分显著地改进了对长距离依赖关系的处理能力( )
(A) 自注意力机制(Self-Attention Mechanism)
(B) 前馈神经网络
(C) 层归一化(Layer Normalization)
(D) 编码器 - 解码器架构 -
在生成对抗网络(GAN)中,以下哪种描述是正确的( )
(A) 生成器的主要目的是提高分类准确性。
(B) 判别器通过生成新的数据样本来欺骗生成器。
(C) 生成器的主要目的是生成逼真的数据样本,以欺骗判别器。
(D) 判别器和生成器是独立训练,没有相互作用。 -
关于线性鉴别分析的描述最准确的是,找到一个投影方向,使得( )
(A) 类内距离最大,类间距离最小
(B) 类内距离最小,类间距离最大
(C) 类内距离最大,类间距离最大
(D) 类内距离最小,类间距离最小 -
SVM 的原理的简单描述,可概括为( )
(A) 最小均方误差分类
(B) 最小距离分类
(C) 最大间隔分类
(D) 最近邻分类 -
假定你使用阶数为 2 的线性核 SVM,将模型应用到实际数据集上后,其训练准确率和测试准确率均为 100%。现在增加模型复杂度(增加核函数的阶),会发生以下哪种情况( )
(A) 过拟合
(B) 欠拟合
(C) 什么都不会发生,因为模型准确率已经到达极限
(D) 以上都不对 -
集成学习中基分类器如何选择,学习效率通常越好( )
(A) 分类器相似
(B) 都为线性分类器
(C) 都为非线性分类器
(D) 分类器多样