西瓜书笔记 1. 基础-编程知识

西瓜书笔记 1. 基础

news/2025/3/12 14:48:05/文章来源:https://www.cnblogs.com/augpath/p/18767537/watermlon-intro

1. 总览

机器学习是一门通过数据学习潜在规律，以解决实际问题的学科。其应用范围广泛，包括数据分析、模式识别和预测建模等领域。机器学习可分为以下几类：

监督学习：从已标注的训练数据中学习函数，以预测新数据的结果。
无监督学习：从未标注的数据中发现潜在结构，如聚类分析。
半监督学习：结合少量标注数据和大量未标注数据进行学习。
强化学习：通过与环境的交互，学习如何采取行动以最大化累积回报。

2. 机器学习中的基本概念

2.1 样本与特征

在机器学习中，样本是指数据集中每一个独立的数据点，每个样本由若干特征组成。特征是描述样本属性的度量，可以是数值型或类别型。

2.2 模型与假设空间

模型是指机器学习算法通过训练数据学习到的函数或表示，用于对新数据进行预测或分类。假设空间是指所有可能的模型集合，机器学习的目标是在假设空间中找到一个最优模型，使其在新数据上的表现最佳。

3. 常用的机器学习算法及公式

3.1 线性回归

线性回归用于建立输入特征与输出变量之间的线性关系，其模型形式为：

\[ y = w_0 + w_1 x_1 + w_2 x_2 + \ldots + w_n x_n \]

其中，$ y $ 是预测值，$ x_1, x_2, \ldots, x_n $ 是特征，$ w_0 $ 是偏置项，$ w_1, w_2, \ldots, w_n $ 是模型的权重参数。这些参数通常通过最小化均方误差（MSE）来确定：

\[\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

其中，$ y_i $ 是实际值，$ \hat{y}_i $ 是预测值，$ n $ 是样本数量。

3.2 多项式回归

多项式回归是线性回归的扩展，适用于处理非线性关系的数据。其模型形式为：

\[y = w_0 + w_1 x + w_2 x^2 + \ldots + w_n x^n \]

通过引入特征的高次项，多项式回归能够拟合更复杂的数据模式。

3.3 对数几率回归

在分类问题中，对数几率回归（Logistic Regression）是一种常用的算法，用于预测二分类结果。其模型形式为：

\[P(y=1|x) = \frac{1}{1 + e^{-(w_0 + w_1 x_1 + w_2 x_2 + \ldots + w_n x_n)}} \]

其中，$ P(y=1|x) $ 表示给定特征 $ x $ 时，事件 $ y=1 $ 发生的概率。通过设定适当的阈值，可以将概率值转换为具体的类别标签。

4. 特征工程与数据处理

4.1 特征工程

特征工程在机器学习中起着关键作用。它包括将非数值数据转换为数值数据（如将文本转换为数值向量）、创建新的特征（如组合现有特征）以及选择最能代表数据特征的变量。有效的特征工程能够显著提高模型的性能。

4.2 数据集划分

在模型训练过程中，数据通常被分为训练集和测试集。训练集用于训练模型，而测试集用于评估模型的泛化能力，即模型对未见数据的预测能力。为了防止模型过拟合，常采用正则化技术，如在损失函数中加入惩罚项：

\[\text{Loss} = \text{MSE} + \lambda \sum_{j=1}^{n} w_j^2 \]

其中，$ \lambda $ 是正则化参数，用于控制惩罚项的权重。

5. 机器学习模型的评估与选择

模型的好坏需要通过测试集来验证。没有绝对的优劣之分，适合当前问题的模型就是好模型。数据的质量和数量在很大程度上决定了模型的上限，而算法的选择和优化则帮助模型逼近这一上限。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897706.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

效率炸雷！Ethernetip转Profinet网关H+E流量计用EipScan连接预连