西瓜书南瓜书笔记集

西瓜书&南瓜书笔记集

绪论

  1. 属性张成的空间为属性空间、样本空间或输入空间,一个示例称为一个特征向量。

  2. 有d个属性描述的示例是d维样本空间中的一个向量。

  3. 学得模型对应了关于数据的某种潜在规律称为假设,拥有了标记信息的示例称为样例。

  4. 通常假设获得的每个样本都是独立同分布的从一个未知分布。

  5. 归纳是特殊到一般的泛化,演绎是一般到特殊的特化,狭义的归纳学习是从训练数据中学得概念,即概念学习。

  6. 学习是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设。

  7. 存在着一个与训练集一致的假设集合,即版本空间。

  8. 机器学习算法在学习过程中对某种类型假设的偏好,即归纳偏好;任何一个有效的机器学习算法必有其归纳偏好。

  9. 归纳偏好可以看作学习算法在一个假设空间中对假设进行选择的启发式;奥卡姆剃刀原则是若有多个假设与观察一致,则选择最简单的那个。

  10. 算法的归纳偏好是否与问题匹配大部分时候直接决定了算法能否取得好的性能。

  11. 可证明误差与学习算法,聪明和笨拙的算法的期望性能相同,即没有免费的午餐定理(NFL),但前提是所有问题出现的机会相同或所有问题同等重要(真实目标函数均匀分布,不考虑对已有样本的拟合)(但实际很难有),即真实目标函数很难是均匀分布(即会对已有样本高度拟合)。

  12. 如果考虑所有潜在问题或者脱离具体问题,则所有学习算法一样好,针对具体问题学习算法的归纳偏好与问题相配最重要。

模型评估与选择

  1. 留出法一般使用分层抽样,以确保训练/测试集的划分尽可能保持数据分布的一致性,且要采用若干次随机划分+重复实验评估取平均,交叉验证法的本质是多次留出。

  2. 交叉验证的特化:留一法(LOO)的评估结果往往准确(未比其他评估方法更优准确),但数据集较大时开销较大。

  3. 自助法:从m大小的数据集中随机挑选样本拷贝放入训练集,然后放回继续重复m次,最后会有约0.368m的样本未出现在训练集中,即得到训练集和测试集(称为包外估计)。

  4. 自助法在数据集较小、难以有效划分测试集时很有用,但划分方法改变了初始数据集的分布,引入了估计偏差。

  5. 一般向用户提交的模型应用所有样本训练而成。

  6. 查准率P(准确率)是指被学习器预测为正例的样例中有多大比例为真正例,真正例TP/真正例TP+假正例FP;查全率R(召回率)是指所有正例中有多大比例被学习器预测为正例,真正例TP/真正例TP+假反例FN;PR是一对矛盾的度量。

  7. 对所有样本的正例置信度排序,然后逐个样本阈值选择划分正负例(逐逐渐改变阈值作x轴),最终得到P-R图(查准率-召回率图);若一个学习器的P-R曲线被另一个学习器完全包住,则可断言后者性能优于前者。

  8. 在查准率P=查全率R时,可以得到平衡点BEP,当曲线交叉时,可以根据曲线下面积或BEP值或\(F1\)度量(比BEP值更有效)或\(F_{\beta}\)的大小比较。

  9. \(F1\)度量是查准率和查全率的平均调和,\(F_{\beta}\)度量则是加权平均调和,\(\beta\)为查全率对查准率的相对重要性(以1为界);调和平均相较于算数平均和几何平均更重视较小值(凸显缺点)。

  10. 执行多次训练测试或多个数据集上训练测试或执行多分类任务中两分类组合会产生多个二分类混淆矩阵。

  11. 在此多个混淆矩阵上进行考察可以有两种做法:

    • 分别计算查准率和查全率再得平均,可获得宏查准率(macro-P)、宏查全率和宏F1;
    • 分别将各混淆矩阵的对应元素进行平均的4均值,再基于此计算出微查准率(micro-P)、微查全率和微F1。

    宏没有考虑样本数量,平等看待各类;微考虑了样本数量,样本数量多的主导结果。

注: 本文的指导作用建立在有深度学习基础之上

参考来源于 西瓜书 & 南瓜书 & datawhale配套资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/897944.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最好的百度提交每日自动提交工具【免费】

原文链接 JavaGuide最好的百度提交每日自动提交工具【免费】github https://github.com/nogeek-cn/baidu-seo-auto-push-dailygitee https://gitee.com/nogeek-cn/baidu-seo-auto-push-daily本工具比别的工具好的地方【免费:你只需要在你的网站中添加我的网站友链,我就可以帮…

定义了一个实现了toDo()抽象方法

定义:该模式定义了一系列算法,并将每个算法封装起来,使它们可以相互替换,且算法的变化不会影响使用算法的客户。策略模式属于对象行为模式,它通过对算法进行封装,把使用算法的责任和算法的实现分割开来,并委派给不同的对象对这些算法进行管理。 结构 策略模式的主要角色…

《AI帮你赢:人人都能用的AI方法论》 PDF免费下载

本书强调“把 AI作为方法”(AI即 Artifcial Intelligence,人工智能)这一核心理念,旨在引导读者掌握与 AI对话的关键技巧,并将AI融入工作和生活真正体验 AI带给人类的高效与便捷。 本书适合对 AI有研究兴趣、有使用需求、有产品研发需求或有投资意向的读者阅读。读者可扫描文…

20241417 2024-2025-2 《Python程序设计》实验一报告

20241417 2024-2025-2 《Python程序设计》实验一报告 课程:《Python程序设计》 班级: 2414 姓名: 罗若元 学号:20241417 实验教师:王志强 实验日期:2025年3月12日 必修/选修: 公选课 1.实验内容 1.熟悉Python开发环境; 2.练习Python运行、调试技能;(编写书中的程序…

高性能计算-探究GPU延迟隐藏(26)

1. 延迟隐藏作用:可以最大化线程束的使用效率,提高计算性能 2. 延迟隐藏概念 (1)指令延迟是指令发出到完成之间的时钟周期间隔; (2)指令可以分为两种:算数指令和访存指令。 3. 算数指令延迟隐藏实现 (1)假如一个算数指令的指令延迟是 4 个时钟周期 (2)查询cuda文档…

毒王正传:初出江湖

忽见江湖风云变, 协议如雪落满天。 十方少侠争破译, 哪知此物带瘟烟。楔子混沌起微澜忽见江湖风云变,协议如雪落满天。十方少侠争破译,哪知此物带瘟烟。话说那日产品大殿突发英雄帖:"今有通天协议问世,三日接入者赏鸡腿三筐!"众客户端少侠摩拳擦掌,却不知正堕…

uniapp 开发微信小程序自定义背景图与导航栏

uniapp 开发微信小程序自定义背景图与导航栏 1、page.json中使用custom自定义导航栏{"path": "pages/store/store","style": {"navigationBarTitleText": "店铺详情","navigationStyle": "custom" //自…

Redis--Lesson06--Redis进阶2

一.Redis持久化之RDB Redis的RDB持久化机制是通过快照(snapshot)的形式将存储在内存中的数据以一定的时间间隔保存到硬盘上。以下是RDB持久化的具体流程: 触发条件:RDB文件可以通过配置文件设置自动触发(例如,根据时间或修改次数),也可以手动通过命令SAVE或BGSAVE来触发。…

Spring Security-web安全框架

进入移动互联网时代,大家每天都在刷手机,常用的软件有微信、支付宝、头条等,下边拿微信来举例子说明认证相关的基本概念,在初次使用微信前需要注册成为微信用户,然后输入账号和密码即可登录微信,输入账号和密码登录微信的过程就是认证。Spring Security 1. 基本概念 1.1 …

SpringBoot文件上传到数据库

SpringBoot文件上传到数据库 首先导入了相应的jar包 <!--thymeleaf--> <dependency><groupId>org.thymeleaf</groupId><artifactId>thymeleaf-spring5</artifactId> </dependency> <dependency><groupId>org.thymeleaf.…

供应链系统中的 “计划单、订单、通知单,入库 / 出库单” 的区别

在供应链管理中,各种单据是业务流程的核心纽带,但它们之间的区别和联系常常让新手感到困惑。本文从采购和销售两大业务场景出发,详细拆解了“计划单、订单、通知单、入库/出库单”等常见单据的定义、作用及相互关系。在供应链系统中,经常会听到一些名字相近,但是意思可能略…