机器学习基础——模型评估与选择（部分）-编程知识

为了实现对模型指导，实现自主建模，我们会对模型进行选择和评估，主要有以下几个问题：

一、前言：误差与拟合

（一）经验误差

使用上述流程理解，其中 a 为预测错误的个数，m为使用的样本数量，则有以下概念：

错误率(error rate)：分类错误的样本数占样本总数的比例。即在 m 个样本中有 a 个样本分类错误，则错误率E = a / m。
精度(accuracy)：精度=1 - a / m ，即 精度 = 1 - 错误率 。
误差(error)：学习器的预测输出与样本之间的差异。其中：学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”，在新样本上的误差称为“泛化误差(generalization error)”。

（二）过拟合、欠拟合

对于机器学习而言，泛化误差越小越好，但经验误差不一定越小越好，因为会出现“过拟合”问题，西瓜书中就有这样一个例子：

过拟合(overfitting)：学习器在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。

可能原因：

建模样本选取影响，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；
样本噪音（无关影响因素）干扰，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；
参数太多，模型复杂度过高；

欠拟合(underfitting)：可能由于模型过于简单或特征量过少等原因，相对于过拟合，学习器对训练样本的一般性质尚未学好，不能很好地捕捉到数据特征。

二、评估方法

（一）评估总体的思路

在学习过程中，应尽量减少欠拟合或过拟合对模型的影响，选择泛化误差最小的模型。

泛化误差是无法直接获得的，因此会将数据分为训练集(training set)和测试集(testing set)，训练集用于投喂给模型进行学习，而测试集用来“测试”所得到的模型对新样本的泛化能力，然后，以测试集上的“测试误差”（testing error）作为泛化误差的近似。

评估方法的关键在于：怎么获得“测试集” (test set)
此外可能有些地方会有“验证集”(validation set)，验证集的存在一般是为了调节参数

（二）如何划分训练集和测试集

1.留出法

将训练集和测试集简单地37分或28分

注意事项：

测试集和训练集在总体中独立同分布，如使用分层采样的方式进行数据划分
测试集应该尽可能与训练集互斥
通常进行若干次随机划分、重复实验评估取平均值最为评估结果
测试集数量不能极端，太大或太小都不合适 ( 如： 1/5~1/3 如此划分)

代码实现：

如对于一个有监督学习，X 为原数据集（如顾客特征），y 为数据对应标签（是否购买某物品），可以使用 train_test_split() 函数进行数据集的划分：

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

函数详细用法参见：python机器学习 train_test_split()函数用法解析及示例划分训练集和测试集以鸢尾数据为例入门级讲解-CSDN博客

2.k折交叉验证

k折交叉验证即将原本数据集分成 k 分，每次取其中一块当测试集，每次的测试结果平均值作为标准

这种方法可以通过 sklearn 中 model_selection 模块的 cross_val_score() 函数实现

例：先生成一个名为 “classifier” 的SVN模型，进行交叉验证后以其均值作为模型精度方差作估计误差

# Fitting Kernel SVM to the Training set
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)####################################
# Applying k-Fold Cross Validation #
####################################
from sklearn.model_selection import cross_val_score#######################################################
# Split training set into 10 folds                    #
# 10折交叉验证，指定训练模型、数据集、数据标签、迭代次数  #
#######################################################
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10)accuracies.mean() # Get mean as accuracy of model performance
accuracies.std() # Get standard deviation to evaluate variance

亦有其他代码可实现，再此不多赘述

补充关于留一法：

直接将样本分成 m 分，每份一个样本，这样做不会受样本划分方式的影响，但在数据量大的情况下对算力有很高要求，结果也未必一定会更准确