机器学习5-线性回归之损失函数

线性回归中,我们通常使用最小二乘法(Ordinary Least Squares, OLS)来求解损失函数。线性回归的目标是找到一条直线,使得预测值与实际值的平方差最小化。
假设有数据集 \{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \ldots, (x^{(m)}, y^{(m)})\}其中 x^{(i)} 是输入特征,y^{(i)}  是对应的输出。

线性回归的模型假设是:

h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_n x_n

其中, x_1, x_2, \ldots, x_n 是输入特征, \theta_0, \theta_1, \ldots, \theta_n 是模型的参数。

损失函数(成本函数)表示预测值与实际值之间的差异。对于线性回归,损失函数通常采用均方误差(Mean Squared Error, MSE):

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2

其中 m 是数据集中的样本数量

求解损失函数的过程就是找到能够使损失函数最小化的模型参数 \theta 。我们通过最小化损失函数来找到最优的参数。这可以通过梯度下降等优化算法来实现。梯度下降的步骤如下:

1. 初始化参数:选择一组初始参数 \theta .

2. 计算梯度:计算损失函数对每个参数的偏导数。

3. 更新参数:使用梯度信息来更新参数,减小损失函数值。

4. 重复步骤2和步骤3:直到收敛或达到预定的迭代次数。

对于线性回归的梯度下降算法,参数的更新规则为:

\theta_j = \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}

其中 \alpha 是学习率,控制每次参数更新的步长。

在具体的计算中,求解偏导数 \frac{\partial J(\theta)}{\partial \theta_j} 并代入梯度下降公式进行迭代,直到损失函数收敛到最小值。


下面是对损失函数的偏导数计算过程:

均方误差损失函数:

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2

现在,我们将 J(\theta) 展开并对每个 \theta_j 求偏导数。

首先,计算单个样本的损失:

L(\theta) = \frac{1}{2} (h_\theta(x) - y)^2

然后,对 L(\theta) 对 \theta_j 求偏导数:

\frac{\partial L(\theta)}{\partial \theta_j} = (h_\theta(x) - y) \frac{\partial h_\theta(x)}{\partial \theta_j}

现在,我们对 h_\theta(x) 对 \theta_j 求偏导数:

\frac{\partial h_\theta(x)}{\partial \theta_j} = x_j

将其代入损失函数的偏导数中:

\frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)}


这就是对于线性回归的均方误差损失函数的偏导数计算过程。在实际应用中,梯度下降算法会根据这些偏导数的信息,迭代更新参数,直至损失函数收敛到最小值。

结论:

以上就是线性回归中求解损失函数的基本过程。这个过程是通过迭代优化算法来找到最优参数,使得模型的预测值与实际值之间的均方误差最小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/450680.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB索引详情

文章目录 MongoDB索引MongoDB索引数据结构WiredTiger数据文件在磁盘的存储结构 索引的分类索引设计原则索引操作创建索引查看索引删除索引 索引类型单键索引(Single Field Indexes)复合索引(Compound Index)多键索引(M…

常见API

文章目录 Math类1.1 概述1.2 常见方法 System类2.1 概述2.2 常见方法 Runtime3.1 概述3.2 常见方法 Object类4.1 概述4.2 常见方法 Objects类5.1 概述5.2 常见方法 BigInteger类6.1 引入6.2 概述6.3 常见方法6.4 底层存储方式: 7 BigDecimal类7.1 引入7.2 概述7.3 常…

数据库连接池简介

顾名思义,数据库连接池本质上是个容器,负责分配和管理数据库连接——Connection,对标JDBC中的Conn对象。 一.简介 如果不存在连接池,则每次访问数据库时都需要建立新的连接对象,并在访问结束后销毁。长此以往会造成不…

COCO数据集介绍

COCO数据集介绍 什么是COCO数据集? COCO数据集是一个可用于图像检测、语义分割和图像标题生成的大规模数据集。它有超过330K张图像(其中220K张是有标注的图像),包含150万个目标,80个目标类别(行人、汽车、…

【DDD】学习笔记-识别限界上下文实践

先启阶段的领域场景分析是一个艰难的过程,我们要从纷繁复杂的业务需求细节中抽象出全部的领域场景,并通过剖析这些场景来获得一致的领域概念,提炼出主要的用户活动,并转换为用统一语言表达的领域行为。在这个过程中,用…

MySQL知识点总结(四)——MVCC

MySQL知识点总结(四)——MVCC 三个隐式字段row_idtrx_idroll_pointer undo logread viewMVCC与隔离级别的关系快照读和当前读 MVCC全称是Multi Version Concurrency Control,也就是多版本并发控制。它的作用是提高事务的并发度,通…

微信小程序课设(基于云开发)

微信小程序通过Laf云平台接入ChatGPT实现聊天&#xff0c;回答方式采用流式回答。 以下是图片展示其页面 回答次数通过卡密兑换 以下是对话页面的代码 <!--pages/content/content.wxml--><view class"container"><view class"div" hidde…

Android学习之路(29) Gradle初探

前言: 大家回想一下自己第一次接触Gradle是什么时候&#xff1f; 相信大家也都是和我一样&#xff0c;在我们打开第一个AS项目的时候&#xff0c; 发现有很多带gradle字样的文件&#xff1a;setting.gradle, build.gradle,gradle.warpper,以及在gradle文件中各种配置&#xff…

前端vue/react项目压缩图片工具@yireen/squoosh-browser

想要在前端项目中压缩图片&#xff0c;然后再上传到后端保存&#xff0c;就需要一个压缩工具的帮助&#xff0c;暂时有两个依赖库可以选择&#xff1a;image-conversion和yireen/squoosh-browser&#xff0c;看了官方仓库地址和更新时间等详情&#xff0c;发现还是yireen/squoo…

简单说说mysql的日志

今天我们通过mysql日志了解mysqld的错误日志、慢查询日志、二进制日志&#xff0c;redolog, undolog等。揭示它们的作用和用途&#xff0c;让我们工作中更能驾驭mysql。 redo 日志 如果mysql事务提交后发生了宕机现象&#xff0c;那怎么保证数据的持久性与完整性&#xff1f;…

课时13:变量基础_变量场景

2.1.1 变量场景 学习目标 这一节&#xff0c; 我们从 数据存储、变量场景、小结 三个方面来学习。 数据存储 数据存储 所谓的数据存储&#xff0c;我们从三方面来理解这句话&#xff1a;1、数据保存到哪里 -- 各种媒介&#xff0c;CPU、内存、磁盘、磁带、网盘...2、数据保…

HTML音频标签

新增的语义化的标签&#xff1a; 即直接给了一个具象化的盒子。 新增的多媒体标签&#xff1a; 视频格式&#xff1a; 当都不支持的时候会显示文字。 video仍然是可以看成一个盒子。 音频格式&#xff1a; 新增的input 表单控件&#xff1a; 新增的表单属性&#xff1a; 提示文…