人工智能基础——交叉熵与似然函数的关系

news/2025/2/28 13:37:44/文章来源:https://www.cnblogs.com/zhoushusheng/p/18563410
交叉熵损失函数实际上是负对数似然函数(Negative Log-Likelihood, NLL)的一种形式,具体来说,它是逻辑回归模型的似然函数取对数并加负号后得到的。

交叉熵与似然函数的关系

在逻辑回归中:

模型输出的是类别 y的条件概率:

其中 σ(zi)是 Sigmoid 函数。

目标是通过最大化似然函数,使得模型参数 θ 能够最好地拟合数据。

1. 似然函数

似然函数定义为所有样本的联合概率:

 对每个样本的概率,分类问题可以表示为:

于是似然函数为:

 

2. 对数似然函数

取对数得到对数似然函数(Log-Likelihood, LL):

 

3. 损失函数(交叉熵)

在模型训练中,我们最小化的是负对数似然:

 

将负对数似然取平均,就得到了交叉熵损失函数:

 

总结

  • 交叉熵损失函数 是负对数似然的平均形式。
  • 在逻辑回归和分类问题中,最大化似然函数等价于最小化交叉熵损失。
  • 交叉熵损失用于衡量预测的分布(y^)与实际分布(y)之间的差异。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/839370.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教育机构融合数字知识库:智能工具驱动教学革新

在当今快速发展的教育行业中,数字教育知识库的构建与应用正逐步成为提升教学质量、优化学生学习体验的重要途径。随着技术的进步和在线教育的普及,教育机构面临着如何将海量的教育资源有效地整合、管理与利用的挑战。此时,像Helplook(此处为示例,实际写作时可替换为具体产…

智慧医疗结合AI知识库:创新科技引领医疗进步

在智慧医疗的浪潮下,AI知识库正成为提升医疗服务水平、优化患者就医体验的重要工具。通过将医疗领域的知识和数据进行深度整合,AI知识库能够为医护人员提供全面的知识支持,辅助决策,从而提高诊疗效率和准确性。此处我们以Helplook(同样为示例,实际写作时替换为具体产品手…

构造方法内存图流程分析

1.内存图分析 https://kdocs.cn/l/cuQvFYJirzaR?linkname=150996228 省略了方法区。 主方法进栈,创建stu变量,有new进堆,开辟空间,设计图有什么,空间就有什么,name age全部写上,均为默认值,并且this也在里面 走完上一步并不会直接把地址给stu,而是还要接着执行后半段…

Node.js小科普和Node.js安装常见管理工具

Node.js是一个JavaScript的运行环境,用来执行JavaScript代码。 为什么会出现这么一个运行环境呢,从JavaScript研发初衷可以看出它是为了运行在浏览器中的,让网页交互更加便捷。但是随着JavaScript影响力不断壮大,它的使用范围已经发生了变化。2009年,Node.js发布,初代版本…

第50篇 Redis与DB库(持续化存储)之间的数据双写一致性保证

前言 Redis作为一款高效的内存数据存储系统,被广泛应用在业务系统中的缓存层,尤其是在与关系型数据库(如MySQL、PostgreSQL等)结合使用时,通过将热点数据存储在Redis中,可以在很大程度上缓解数据库的压力,提高整体系统的性能表现。 很重要的问题是:如何确保Redis缓存与…

centos7部署NTP服务

背景 项目上服务器时间不一致,在公司服务器池创建2台新的服务器,尝试部署NTP时间同步,用作学习记录。 1、2两台在同一网络的服务器假定ip分别为192.168.10.1、192.168.10.2 2、其中一台可以访问互联网(192.168.10.1),另外一台只能访问内网(192.168.10.2) 部署步骤: 一…

记录---前端中断请求的方式与原理

🧑‍💻 写在开头 点赞 + 收藏 === 学会🤣🤣🤣 Axios.CancelToken axios对象有一个属性叫CancelToken,该属性提供了中断已经发出去的请求的方式。具体使用方式有两种: 方式一:执行器模式<script src="https://cdn.jsdelivr.net/npm/axios/dist/axios.min.j…

swiper最外层设置了 overflow hidden ,但是子元素有动画或者弹窗需要超出,

swiper 外层 .swiper-container、swiper-wrapper、swiper-slide 都存在 position:relative 样式, 直接 子元素absolute 无效 干脆去掉 overflow:hidden,但这样 swiper 其他本该隐藏切换显示的 swiper-slide 也显示出来了,页面混乱 无效 方案: 放大 swiper-container 的…

鸿蒙NEXT开发案例:数字统计

【引言】 本文将通过一个具体的案例——“数字统计”组件,来探讨如何在鸿蒙NEXT框架下实现这一功能。此组件不仅能够统计用户输入文本中的汉字、中文标点、数字、以及英文字符的数量,还具有良好的用户界面设计,使用户能够直观地了解输入文本的各种统计数据。 【环境准备】 •…

浙江省科技进步奖一等奖!阿里云云原生技术实现新突破

11 月 22 日, 2023 年度浙江省科学技术奖获奖成果公布,阿里云与浙江大学、支付宝、谐云科技联合完成的基于云原生的大规模云边协同关键技术及应用获得浙江省科学技术进步一等奖。科技成果鉴定委员会高度评价该技术,“项目研发难度大,成果创新性强,对促进关键技术进步及自主…

jenkins导入和导出视图的所有job

目标:导出http://192.168.31.32:8080/上Jenkins的内蒙古智慧园区test-后端view视图下的所有job,然后导入到http://192.168.20.143:8080/上Jenkins的内蒙古智慧园区test-后端view视图,并且每个job名字在原来的基础上加test-前缀 一、导出 1、在导出jobs配置的jenkins上配置认…

MAE

一、大体内容 PDF: https://arxiv.org/abs/2111.06377 CODE: https://github.com/facebookresearch/mae (原文采用tensorflow 和 TPU 没有开源) 前面已经介绍了Transformer、BERT、ViT,这里理一下大概关系。首先Transformer将注意力机制引入到NLP领域,得到很大的提升,接着BE…