【机器学习7】优化算法

1 有监督学习的损失函数

1.1 分类问题

对二分类问题, Y={1,−1}, 我们希望sign f(xi,θ)=yi, 最自然的损失函数是0-1损失,

函数定义特点
0-1损失函数函数定义非凸、非光滑,很难直接对该函数进行优化
Hinge损失函数当fy≥1时, 该函数不对其做任何惩罚。 Hinge损失在fy=1处不可导, 因此不能用梯度下降法进行优化, 而是用次梯度下降法
Logistic损失函数该损失函数对所有的样本点都有所惩罚, 因此对异常值相对更敏感一些
交叉熵损失函数在这里插入图片描述

损失函数曲线

1.2回归问题

希望 在这里插入图片描述, 最常用的损失函数是平方损失函数

函数定义特点
平方损失函数在这里插入图片描述对异常点比较敏感
绝对损失函数在这里插入图片描述在f=y处无法求导数
Huber损失函数在这里插入图片描述

在这里插入图片描述

2 梯度下降法

梯度下降算法发展过程

3 L1正则化与稀疏性

稀疏性,就是模型中的很多参数为0,相当于对模型进行了特征选择,只留下了重要的特征。提高了模型的泛化能力,降低了过拟合的可能。
为什么L1正则化能让模型具有稀疏性?

3.1 从解空间形状来看

在这里插入图片描述
黄色的部分是L2和L1正则项约束后的解空间, 绿色的等高线是凸优化问题中目标函数的等高线,L2正则项约束后的解空间是圆形, 而L1正则项约束的解空间是多边形。显然, 多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。

3.2 从函数叠加来看

在这里插入图片描述
首先, 考虑加上L2正则化项, 目标函数变成L(w)+Cw2, 其函数曲线为黄色。此时, 最小值点在黄点处, 对应的w*的绝对值减小了, 但仍然非0。
然后, 考虑加上L1正则化项, 目标函数变成L(w)+C|w|, 其函数曲线为绿色。此时, 最小值点在红点处, 对应的w是0, 产生了稀疏性。

在一些在线梯度下降算法中, 往往会采用截断梯度法来产生稀疏性, 这同L1正则项产生稀疏性的原理是类似的。

3.3从贝叶斯实验来看

从贝叶斯的角度来理解L1正则化和L2正则化, 简单的解释是, L1正则化相当于对模型参数w引入了拉普拉斯先验, L2正则化相当于引入了高斯先验, 而拉普拉斯先验使参数为0的可能性更大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/180479.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL(16):变量、流程控制与游标

变量 在MySQL数据库的存储过程和函数中,可以使用变量来存储查询或计算的中间结果数据,或者输出最终的结果数据。 在 MySQL 数据库中,变量分为 系统变量 以及 用户自定义变量 。 系统变量 变量由系统定义,不是用户定义&#xff…

RabbitMQ-高级篇-黑马程序员

代码: 链接: https://pan.baidu.com/s/1nQBIgB_SbzoKu_XMWZ3JoA?pwdaeoe 提取码:aeoe 在昨天的练习作业中,我们改造了余额支付功能,在支付成功后利用RabbitMQ通知交易服务,更新业务订单状态为已支付。 但…

二百零二、Hive——Hive解析JSON字段(单个字段与json数组)

一、目的 用Flume采集Kafka写入到Hive的ODS层在HDFS路径下的JSON数据,需要在DWD层进行解析并清洗 (一)Hive的ODS层建静态分区外部表 create external table if not exists ods_queue(queue_json string ) comment 静态排队数据表——静…

图像分类:弥合像素和理解之间的差距

一、介绍 在人工智能的广阔领域中,图像分类作为一种关键应用脱颖而出,它无缝地融合了计算机视觉和机器学习的复杂性。图像分类的核心是训练机器对数字图像中的对象或场景进行识别和分类。这项技术有着广泛的应用,从自动驾驶汽车和医疗诊断到社…

鸿蒙:从0到“Hello Harmony”

效果展示 一.概述 明年华为鸿蒙就不再兼容Android生态了,作为拥有7亿终端用户的华为,建立自己的生态也是理所当然。 所以对HarmonyOS的研究也是众多开发者绕不开的坎了。 今天这篇博文主要实现一个“Hello Harmony!”的Demo。 二.官方链接…

算法-二分查找-简单-搜索插入位置

记录一下算法题的学习3 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 示例 1: 输入: nums [1,3,5,6], target 5 输出: 2示例 2: 输入: nums [1,3,5,6], …

电磁场与电磁波part1--矢量分析

目录 1、方向导数 2、散度定理(高斯定理) 3、散度与旋度的比较 4、旋度定理(斯托克斯定理) 5、关于点乘、叉乘、梯度、散度、旋度的计算 ~~~~~~~~~~~~~~~~~~~~~~~~ 确认过眼神,是我看不懂的 ~~~~~~~~~~~~~~~~…

贪吃蛇游戏和俄罗斯方块

一、创建新项目 创建一个新的项目,并命名。 创建一个名为images的文件夹用来存放游戏相关图片。 然后再在项目的src文件下创建一个com.xxx.view的包用来存放所有的图形界面类, 创建一个com.xxx.controller的包用来存放启动的入口类(控制类) package …

突发!奥特曼宣布暂停ChatGPT Plus新用户注册!

大新闻!就在刚刚! OpenAI的CEO Sam Altman宣布暂停ChatGPT Plus 新用户注册! Sam Altman对此解释道: 由于OpenAI开发日后ChatGPT使用量的激增超出了我们的承受能力,我们希望确保每个人都有良好的体验。 您仍然可以在a…

AdaBoost 算法:理解、实现和掌握 AdaBoost

一、介绍 Boosting 是一种集成建模技术,由 Freund 和 Schapire 于 1997 年首次提出。从那时起,Boosting 就成为解决二元分类问题的流行技术。这些算法通过将大量弱学习器转换为强学习器来提高预测能力 。 Boosting 算法背后的原理是,我们首先…

计算机视觉:人脸识别与检测

目录 前言 识别检测方法 本文方法 项目解析 完整代码及效果展示 前言 人脸识别作为一种生物特征识别技术,具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。人脸检测是从获取的图…

一起学docker系列之二深入理解Docker:基本概念、工作原理与架构

目录 前言1 Docker的基本概念2 Docker的基本组成3 docker工作原理4 docker架构5 Docker详细工作过程结语 前言 在当今的软件开发和部署中,Docker已经成为一种不可或缺的工具。它简化了应用程序的打包、交付和运行,同时提供了强大的隔离性和可移植性。本…