Python 机器学习算法实现：从入门到实战-编程知识

Python 机器学习算法实现：从入门到实战

news/2025/3/26 16:20:35/文章来源:https://www.cnblogs.com/yoyoliwu/p/18789989

机器学习是人工智能的核心领域之一，它通过算法让计算机从数据中自动学习规律，并利用这些规律进行预测和决策。Python 作为机器学习领域的首选语言，提供了丰富的库和工具，使得机器学习算法的实现变得简单高效。今天，我们将深入介绍 Python 中常用的机器学习算法，包括线性回归、决策树和支持向量机等，并通过代码示例展示算法的实现过程。

一、机器学习基础

（一）什么是机器学习？

机器学习是一种让计算机通过数据自动学习规律的技术。它可以根据数据的特征自动调整模型参数，从而实现对新数据的预测或分类。机器学习通常分为以下几类：

监督学习：通过标记的训练数据学习输入和输出之间的映射关系。
无监督学习：从无标记的数据中发现数据的内在结构。
强化学习：通过与环境的交互，学习如何做出最优决策。

（二）常用机器学习库

Python 提供了多个强大的机器学习库，其中最常用的是 scikit-learn。它提供了丰富的算法实现和工具，可以快速构建和评估机器学习模型。

二、线性回归

线性回归是最简单的机器学习算法之一，它通过拟合一条直线来预测连续值的输出。

（一）线性回归的数学原理

线性回归的目标是找到一个线性模型 ( y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n )，使得预测值与实际值之间的误差最小。通常使用均方误差（MSE）作为损失函数。

（二）线性回归的实现

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error# 生成示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建线性回归模型
model = LinearRegression()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')# 绘制结果
plt.scatter(X, y, color='blue', label='Data points')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Linear regression line')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

三、决策树

决策树是一种基于树结构的分类和回归算法。它通过一系列的决策规则将数据划分为不同的类别或预测值。

（一）决策树的数学原理

决策树通过递归地选择最优特征进行划分，使得每个分支的纯度（如基尼不纯度或信息增益）最大化。

（二）决策树的实现

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建决策树分类器
model = DecisionTreeClassifier()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')# 绘制决策树
plt.figure(figsize=(12, 8))
plot_tree(model, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.show()

四、支持向量机（SVM）

支持向量机是一种强大的分类算法，它通过寻找最优超平面将数据划分为不同的类别。

（一）支持向量机的数学原理

SVM 的目标是找到一个超平面，使得不同类别的数据点之间的间隔最大化。对于线性不可分的情况，可以通过核函数将数据映射到高维空间。

（二）支持向量机的实现

from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 加载数据集
data = load_breast_cancer()
X = data.data
y = data.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建 SVM 分类器
model = SVC(kernel='linear')  # 使用线性核# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')