西瓜书笔记 1. 基础

1. 总览

机器学习是一门通过数据学习潜在规律,以解决实际问题的学科。其应用范围广泛,包括数据分析、模式识别和预测建模等领域。机器学习可分为以下几类:

  • 监督学习:从已标注的训练数据中学习函数,以预测新数据的结果。

  • 无监督学习:从未标注的数据中发现潜在结构,如聚类分析。

  • 半监督学习:结合少量标注数据和大量未标注数据进行学习。

  • 强化学习:通过与环境的交互,学习如何采取行动以最大化累积回报。

2. 机器学习中的基本概念

2.1 样本与特征

在机器学习中,样本是指数据集中每一个独立的数据点,每个样本由若干特征组成。特征是描述样本属性的度量,可以是数值型或类别型。

2.2 模型与假设空间

模型是指机器学习算法通过训练数据学习到的函数或表示,用于对新数据进行预测或分类。假设空间是指所有可能的模型集合,机器学习的目标是在假设空间中找到一个最优模型,使其在新数据上的表现最佳。

3. 常用的机器学习算法及公式

3.1 线性回归

线性回归用于建立输入特征与输出变量之间的线性关系,其模型形式为:

\[ y = w_0 + w_1 x_1 + w_2 x_2 + \ldots + w_n x_n \]

其中,$ y $ 是预测值,$ x_1, x_2, \ldots, x_n $ 是特征,$ w_0 $ 是偏置项,$ w_1, w_2, \ldots, w_n $ 是模型的权重参数。这些参数通常通过最小化均方误差(MSE)来确定:

\[\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

其中,$ y_i $ 是实际值,$ \hat{y}_i $ 是预测值,$ n $ 是样本数量。

3.2 多项式回归

多项式回归是线性回归的扩展,适用于处理非线性关系的数据。其模型形式为:

\[y = w_0 + w_1 x + w_2 x^2 + \ldots + w_n x^n \]

通过引入特征的高次项,多项式回归能够拟合更复杂的数据模式。

3.3 对数几率回归

在分类问题中,对数几率回归(Logistic Regression)是一种常用的算法,用于预测二分类结果。其模型形式为:

\[P(y=1|x) = \frac{1}{1 + e^{-(w_0 + w_1 x_1 + w_2 x_2 + \ldots + w_n x_n)}} \]

其中,$ P(y=1|x) $ 表示给定特征 $ x $ 时,事件 $ y=1 $ 发生的概率。通过设定适当的阈值,可以将概率值转换为具体的类别标签。

4. 特征工程与数据处理

4.1 特征工程

特征工程在机器学习中起着关键作用。它包括将非数值数据转换为数值数据(如将文本转换为数值向量)、创建新的特征(如组合现有特征)以及选择最能代表数据特征的变量。有效的特征工程能够显著提高模型的性能。

4.2 数据集划分

在模型训练过程中,数据通常被分为训练集和测试集。训练集用于训练模型,而测试集用于评估模型的泛化能力,即模型对未见数据的预测能力。为了防止模型过拟合,常采用正则化技术,如在损失函数中加入惩罚项:

\[\text{Loss} = \text{MSE} + \lambda \sum_{j=1}^{n} w_j^2 \]

其中,$ \lambda $ 是正则化参数,用于控制惩罚项的权重。

5. 机器学习模型的评估与选择

模型的好坏需要通过测试集来验证。没有绝对的优劣之分,适合当前问题的模型就是好模型。数据的质量和数量在很大程度上决定了模型的上限,而算法的选择和优化则帮助模型逼近这一上限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/897706.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

效率炸雷!Ethernetip转Profinet网关H+E流量计用EipScan连接预连

本期给大家带来H+E流量计与EipScan模拟软件连通案例。由于很多客户现场任务时间紧任务重的特点,在不确定所购买的稳联技术Profinet转Ethernetip网关(WL-PNS-EIPM)能否与H+E流量计正常通讯的情况下,用EipScan模拟软件先测通。下面就介绍下如何用EipScan模拟软件连通且不通过…

穿越“协议迷雾”:Modbus转Profinet与60LB伺服的传奇相遇

本研究案例深入剖析了稳联技术Modbus转Profinet网关(WL-ABC3010)在60LB系列通用伺服驱动器与PLC互联场景中的具体应用。此次应用所涉及的关键设备涵盖了西门子S7-1200PLC、Modbus转Profinet网关以及60LB系列通用伺服驱动器。借助网关对通信协议的转换功能,使得遵循MODBUS协议…

Python 中 Windows 和 macOS 的路径格式不一致问题

Python 中 Windows 和 macOS 的路径格式不一致问题Python 中 Windows 和 macOS 的路径格式不一致问题 在 Python 中,Windows 和 macOS 的文件路径字符串格式不一致主要体现在路径分隔符上:Windows 使用反斜杠 \(如 C:\Users\file.txt),而 macOS 使用正斜杠 /(如 /Users/f…

Zabbix agent编译安装详细教程

文章出处:乐维社区背景: 公司之前一直是用的预编译好的zabbix agent包在redhat、centos等进行安装部署。最近内部部署了一套新的操作系统(TencentOS Server),用之前的agent包发现并不能正常启动agent,具体报错是关于bash变量的: /bin/bash: 没有那个文件或目录 最开始以…

那智机器人维修30编码器异常报警代码处理

那智机器人维修报警代码的核心功能,在于为技术人员提供机器人在运作流程中遭遇故障或异常时的详尽信息,以便他们能够迅速且准确地锁定问题所在,并采取有效的修复措施。这些报警代码被精心设计为多个类别,每一个类别都精准对应着一种特定的故障或异常情形,使得问题的诊断与…

html的基本理论

一、html介绍 1、html是一个超文本标记语言,也是一种标识性语言。(不是编程语句) 2、标记:记号(绰号) 3、超文本:就是页面内容包含图片、链接、音乐、视频等素材 4、为什么学习html? a、测试页面功能,需要了解页面元素(页面是html语言编写的) b、方便我们进行ui自动…

MySql 主从(备)部署 | 冷备份

前言 MySQL 主从复制(Master-Slave Replication)是一种常见的数据库架构设计,用于提高数据可用性、实现读写分离以及支持备份策略。冷备份是指在数据库关闭状态下进行的数据备份方式。这种方式简单直接,但需要导致服务中断。在数据库管理中,确保数据的高可用性和灾难恢复能…

全局变量 global 、globalThis、nodejs内置全局API

在nodejs 环境中 index.js 引用 a.js ,在index.js 设置全局变量 global.xxx = xxx ,被引用的a.js 也读取全局变量xxx 但是在浏览器环境下,全局变量在 window。不同的环境需要判断,所以CMAScript 2020 出现了一个globalThis全局变量,在nodejs环境会自动切换成global 。…

如果看到子数组是数组中元素的连续非空序列,你能想到什么?

首先先讲一下前缀和,例如[1,1,1]的前缀和为[1,2,3]。所以在题目当中子数组是数组中元素的连续非空序列,立马联想到前缀和去解题。如力扣第560题和为K的子数组。 但是为了得到一个公式,如下(灵神思路)所以本题目,可以把K看成所要求的子数组和,而连续子数组的元素和可以根…

在 Hugging Face 上部署语音转语音模型

介绍 S2S (语音到语音) 是 Hugging Face 社区内存在的一个令人兴奋的新项目,它结合了多种先进的模型,创造出几乎天衣无缝的体验: 你输入语音,系统会用合成的声音进行回复。 该项目利用 Hugging Face 社区中的 Transformers 库提供的模型实现了流水话处理。该流程处理由以下组…

session,cookie和token究竟是什么

session,cookie和token究竟是什么 简述 cookie,session,token作为面试必问题,很多同学能答个大概,但是又迷糊不清,希望本篇文章对大家有所帮助 http是一个无状态协议 什么是无状态呢?就是说这一次请求和上一次请求是没有任何关系的,互不认识的,没有关联的。这种无状态…

算法心得(2)**前缀和**

**思路** 前缀和的思想就是 **把影响累加起来,每一次累加都作一次记录** 一般在情况满足两个条件时就使用它: (1)影响可以累加 (2)有多个查询 就拿计算二维矩阵面积来说:图中红框框起的一个子矩阵的面积为9+8+4-2+3+11=33,同时以左上角(蓝框,坐标为(2,2))和右下…