【Pytorch】新手入门：基于sklearn实现鸢尾花数据集的加载-编程知识

【Pytorch】新手入门：基于sklearn实现鸢尾花数据集的加载

在这里插入图片描述

🌈 个人主页：高斯小哥
🔥 高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）

🌵文章目录🌵

🌸一、鸢尾花数据集简介
📚二、基于Python加载鸢尾花数据集
🎨三、探索鸢尾花数据集
🔍四、使用鸢尾花数据集进行模型训练
🛠️五、优化模型性能
🛠️六、使用鸢尾花数据集进行模型选择
📚七、总结与进一步学习

🌸一、鸢尾花数据集简介

鸢（yuān）尾花数据集（Iris dataset）是机器学习和统计学中常用的一个经典数据集，主要用于分类任务。它包含了三类不同的鸢尾花（Setosa、Versicolour和Virginica）的四个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。这些特征都是连续型数值变量，使得它非常适合用于演示和测试分类算法。

这个数据集非常受欢迎，因为它的简单性和易理解性。同时，由于其特征的多样性和类别之间的可区分性，它成为了很多机器学习初学者和研究者的首选数据集。

📚二、基于Python加载鸢尾花数据集

在Python中，我们可以使用sklearn库中的datasets模块来轻松加载鸢尾花数据集。sklearn是一个强大的机器学习库，提供了大量的数据集和工具，方便我们进行机器学习和数据分析。

下面是一个简单的示例代码，演示如何加载鸢尾花数据集：

from sklearn import datasets# 加载鸢尾花数据集
iris = datasets.load_iris()# 打印数据集描述
# print(iris.DESCR) # 可选# 获取特征数据
X = iris.data# 获取目标标签
y = iris.target# 打印特征数据的前5行
print("特征数据前5行:\n", X[:5])# 打印目标标签的前5个
print("目标标签前5个:\n", y[:5])# 获取特征名称
feature_names = iris.feature_names
print("特征名称:\n", feature_names)# 获取目标标签的名称
target_names = iris.target_names
print("目标标签名称:\n", target_names)

输出：

特征数据前5行:[[5.1 3.5 1.4 0.2][4.9 3.  1.4 0.2][4.7 3.2 1.3 0.2][4.6 3.1 1.5 0.2][5.  3.6 1.4 0.2]]
目标标签前5个:[0 0 0 0 0]
特征名称:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
目标标签名称:['setosa' 'versicolor' 'virginica']

在这个例子中，我们首先导入了sklearn.datasets模块，然后调用load_iris()函数加载鸢尾花数据集。加载后的数据集存储在iris对象中，我们可以通过这个对象访问数据集的各个部分。

通过iris.data，我们可以获取特征数据，它是一个形状为(150, 4)的NumPy数组，其中每一行代表一个样本，每一列代表一个特征。

通过iris.target，我们可以获取目标标签，它是一个长度为150的一维数组，其中每个元素表示对应样本的类别标签（0、1或2）。

此外，iris.DESCR包含了数据集的详细描述，iris.feature_names包含了特征名称，iris.target_names包含了目标标签的名称。

🎨三、探索鸢尾花数据集

在加载了鸢尾花数据集之后，我们可以进行一些基本的探索性分析，以了解数据的分布和特性。

例如，我们可以使用matplotlib库来绘制特征之间的散点图，观察不同类别之间的分布关系：

# 导入必要的库
import matplotlib.pyplot as plt  # 导入matplotlib库，用于绘图
import seaborn as sns             # 导入seaborn库，基于matplotlib的图形可视化Python库
import pandas as pd               # 导入pandas库，用于数据处理和分析
from sklearn import datasets      # 从sklearn库中导入datasets模块，用于加载数据集# 加载鸢尾花数据集
iris = datasets.load_iris()  # 使用datasets模块的load_iris函数加载鸢尾花数据集# 将特征和标签转换为DataFrame
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)  # 将特征数据转换为pandas的DataFrame，并设置列名为鸢尾花的特征名称
df_iris['target'] = pd.Series(iris.target)  # 将标签数据转换为pandas的Series，并添加到DataFrame中作为新列'target'# 将标签转换为类别名称，以便在图中显示
df_iris['target'] = df_iris['target'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})  
# 使用map函数将标签（整数）映射为实际的类别名称（字符串），使得在图中显示时更加直观# 绘制特征之间的散点图
sns.pairplot(df_iris, hue="target", palette="husl", vars=iris.feature_names, diag_kind="kde")  
# 使用seaborn的pairplot函数绘制特征之间的散点图
# hue参数指定根据哪一列对数据进行着色，这里根据'target'列（即类别）
# palette参数指定着色方案，这里使用"husl"方案
# vars参数指定要绘制的特征列，这里使用iris数据集中的所有特征名称
# diag_kind参数指定对角线子图的类型，这里使用"kde"表示核密度估计图plt.show()  # 显示绘制的图形

以上代码使用Python中的matplotlib和seaborn库来可视化鸢尾花数据集的特征和标签。鸢尾花数据集是一个经典的小型数据集，常用于分类算法的入门和测试。它包含了三类鸢尾花（Setosa、Versicolour、Virginica）的四个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）的测量值以及对应的类别标签。

首先，代码通过datasets.load_iris()函数加载了鸢尾花数据集，并将特征和标签转换为pandas DataFrame格式，以便后续的数据处理和可视化。然后，代码将标签（整数形式）转换为实际的类别名称，使得在图中显示时更加直观。

接下来，代码使用seaborn的pairplot函数绘制了特征之间的散点图，并根据类别标签对点进行着色。通过对角线子图展示的是每个特征的核密度估计图，这有助于了解每个特征的分布情况。

最后，通过调用plt.show()函数，代码显示了绘制的图形：

在这里插入图片描述

🔍四、使用鸢尾花数据集进行模型训练

加载和探索了鸢尾花数据集之后，我们可以开始使用它来进行模型的训练和测试。以下是一个简单的例子，展示如何使用鸢尾花数据集训练一个支持向量机（SVM）分类器：

from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn import datasets# 加载鸢尾花数据集
iris = datasets.load_iris()# 打印数据集描述
# print(iris.DESCR) # 可选# 获取特征数据
X = iris.data# 获取目标标签
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建SVM分类器
clf = svm.SVC(kernel='linear') # 线性核函数# 训练模型
clf.fit(X_train, y_train)# 预测测试集
y_pred = clf.predict(X_test)# 打印分类报告
print(classification_report(y_test, y_pred, target_names=iris.target_names))

输出：

              precision    recall  f1-score   supportsetosa       1.00      1.00      1.00        19versicolor       1.00      1.00      1.00        13virginica       1.00      1.00      1.00        13accuracy                           1.00        45macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45