数据集 sklearn.datasets
- from sklearn.datasets import load_iris, fetch_20newsgroups
- 小数据集下载 load_xxx
- 大数据集下载 fetch_xxx
模型
KNN K-近邻算法
- 参考
- 距离计算
- k值选择
- kd树
- from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsClassifier# 构造数据
x = [[1], [2], [10], [20]]
y = [0, 0, 1, 1]# 训练模型
estimator = KNeighborsClassifier(n_neighbors=1)
estimator.fit(x, y)# 数据预测
ret = estimator.predict([[0], [14]])
print('result: ', ret)
训练
- 数据集划分:from sklearn.model_selection import train_test_split
- 特征工程
- 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程
- 归一化:通过对原始数据进行变换,把数据映射到一个区间内,默认是[0, 1]
- from sklearn.preprocessing import MinMaxScaler
- 转换方法:fit_transform()
- 标准化:通过对原始数据进行变换,把数据变换到均值为0,标准差为1的数据
- from sklearn.preprocessing import StandardScaler
- x` = x - mean / σ