【机器学习300问】23、什么是主动学习?

一、带标签的数据很难获得

        机器学习中,比如监督学习需要带有标签的训练样本才能得到模型,然而在以下几种场景中去获取带有标签的数据是很难的:

  • 自动驾驶场景:对自动驾驶汽车收集的高清地图数据或实时摄像头数据进行标注,需要标记行人、车辆、交通标志、道路障碍物等,这是一个极度繁琐且昂贵的过程,需要专门团队花费大量时间精细检查和标记每一个像素级别的对象。
  • 情感分析:对文本进行情感倾向标注(如积极、消极或中立)是一项复杂的任务,因为情感往往是微妙且主观的,而且受文化背景、语境和个人表达习惯影响很大。这导致大规模高质量的情感标注数据集构建困难。
  • 医疗影像诊断:医学影像数据(如CT扫描、MRI图像)的标注通常需要医学专家的专业知识才能完成,例如识别肿瘤、病变区域等。这一过程耗时费力,且要求高度专业性和准确性,所以很难快速积累大量的带标签数据。

二、主动学习的定义

        主动学习(Active Learning)是一种旨在通过最少的人工标注工作获得最优模型性能的学习策略。相比于传统的机器学习方法,主动学习不是简单地使用预先标记好的大型数据集进行训练,而是让算法本身参与到数据选择的过程中来,优先选择最有价值样本标注标签。

        说人话:“主动学习是一个帮我将无标签数据标注上标签的模型,还没完!重点在于它可以选择对学习最为有价值的未标注数据。”

        主动学习中有一些特有的用词,在这里用一个表格来解释说明一下:

术语解释
学习者 (Learner)主动学习模型,负责训练和根据策略选择需要标注的样本。
判定者 (Oracle)能够提供准确标签信息的权威来源,可以是人类专家或自动化系统。
提问 (Querying)学习者根据策略选择样本并请求判定者为其标注的过程。
未标注数据池 (Unlabeled Pool)存储待筛选和可能被选中进行标注的大量数据集合。
已标注数据集 (Labeled Dataset)存储已经被判定者正确标注过的数据,用于模型训练。
查询策略 (Query Strategy)决定从未标注数据池中选取哪些样本进行提问的具体方法。

三、主动学习的过程

        主动学习的过程通常可以分为以下几个步骤:

  1. 初始化:首先,从大量未标记的数据中随机选择一小部分来进行手动标记。
  2. 训练:然后,使用这些标记的数据来训练模型。
  3. 选择:模型对剩下的未标记的数据进行预测并为其打分,通常这个分数反映了模型对该样本的不确定性或者信息量。然后选择分数最高的一部分样本,也就是模型最需要学习的样本。
  4. 查询:将这些被选中的样本提交给专家进行标记。
  5. 更新:将新标记的样本加入到训练集中,并使用更新后的训练集来重新训练模型。
  6. 循环迭代:重复第3步到第5步,直到达到预设的条件,例如循环次数、模型性能或者标注预算。

        主动学习的核心就是在第3步,如何选择最需要学习的样本,不同的主动学习算法会有不同的选择策略。

学习者、判定者、提问

四、常见的样本选择策略

        如上所说,如何去选择一个最需要学习的样本,给它打上标签非常关键。这里只详细介绍一个策略。

(1)最低置信度策略的思想

        最低置信度(Least Confidence)是一种常见的样本选择策略,用于确定下一步应该优先标注哪些未标注样本。这种策略假设模型对某个样本的预测越不确定,那么这个样本就可能越重要,因为它有可能提供更多的信息帮助模型改进。

        具体来说,对于一个多分类问题,最低置信度策略计算每个未标注样本属于任一类别预测的概率,并选择其中模型预测信心最小的样本作为下一个请求标注的对象。计算方式通常是找到模型输出的概率向量中最大概率值对应的索引,然后取1减去这个最大概率值,得到的就是模型对该样本预测的不确信度。

(2)手写字体识别举例

        假设模型正在对数字手写体识别任务进行训练,对于一个未标注的手写数字图片,模型可能输出 [0.1, 0.2, 0.3, 0.15, 0.25] 这样的概率分布,表示模型认为该图片分别是0, 1, 2, 3, 4的概率。此时,模型对这个样本预测的最大概率为0.3(属于类别2的概率),那么不确信度为1 - 0.3 = 0.7。若这是所有样本中最大的不确信度,则该样本会被选作下一个请求专家标注的样本。

        通过这种方式,最低置信度策略可以优先挑选那些模型最难确定类别的样本,从而期望通过获取它们的真实标签来最大程度地提升模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/456549.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

幻兽帕鲁PalWorld服务器2024年配置选择

幻兽帕鲁PalWorld是一款备受期待的虚拟游戏,其独特的幻兽系统和丰富的世界观吸引了大量玩家。然而,随着游戏日益受到关注,服务器的配置选择成为了关键问题。2024年,随着技术不断发展,玩家对于游戏体验的需求也在不断提…

nacos越权漏洞复现

1.低版本(nacos<1.4.1)默认白名单UA 开启鉴权功能后&#xff0c;服务端之间的请求也会通过鉴权系统的影响。考虑到服务端之间的通信应该是可信的&#xff0c;因此在1.2~1.4.0版本期间&#xff0c;通过User-Agent中是否包含Nacos-Server来进行判断请求是否来自其他服务端。 但…

解决maven 在IDEA 下载依赖包速度慢的问题

1.idea界面双击shift键 2.打开setting.xml文件 复制粘贴 <?xml version"1.0" encoding"UTF-8"?> <settings xmlns"http://maven.apache.org/SETTINGS/1.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:sc…

clickhouse计算前后两点间经纬度距离

问题 计算如图所示前后两点经纬度的距离&#xff1f; 方法 1、用开窗函数将如图所示数据下移一行 selectlongitude lon1,latitude lat1,min(longitude) over(order by time1 asc rows between 1 PRECEDING and 1 PRECEDING) lon2,min(latitude) over(order by time1 asc row…

字节AIGC场景发力,云雀大模型+扣子智能体,快速构建专属AI应用

之前给大家推荐过类似的编排工具dify,今天给大家推荐的字节的这个产品&#xff0c;总体体验还是不错的。 第一步登录扣子 点击创建BOT-编排 创建插件 插件能够让 Bot 调用外部 API&#xff0c;例如搜索信息、浏览网页、生成图片等&#xff0c;扩展 Bot 的能力和使用场景。 我…

abap - 发送邮件,邮件正文带表格和excel附件

发送内容 的数据获取&#xff1a; 正文部分使用cl_document_bcs>create_document静态方法实现 传入参数为html内表结构 CLEAR lo_document .lo_document cl_document_bcs>create_document(i_type HTMi_text lt_htmli_length conlengthsi_subject lv_subje…

学习与学习理论 - 2024教招

一 学习的概述 1 学习的概念及其内涵 &#xff08;1&#xff09;学习的概念 学习是个体在特定情境下由于练习和反复经验而产生的行为或行为潜能的比较持久的变化。 人类的学习和动物学习的本质区别 人类学习是一个积极、主动的建构过程;人类的学习是掌握社会历史经验和个体经…

Redis(十三)缓存双写一致性策略

文章目录 概述示例 缓存双写一致性缓存按照操作来分&#xff0c;细分2种读写缓存&#xff1a;同步直写策略读写缓存&#xff1a;异步缓写策略双检加锁策略 数据库和缓存一致性更新策略先更新数据库&#xff0c;再更新缓存先更新缓存&#xff0c;再更新数据库先删除缓存&#xf…

算法学习——LeetCode力扣链表篇1

算法学习——LeetCode力扣链表篇1 203. 移除链表元素 203. 移除链表元素 - 力扣&#xff08;LeetCode&#xff09; 描述 给你一个链表的头节点 head 和一个整数 val &#xff0c;请你删除链表中所有满足 Node.val val 的节点&#xff0c;并返回 新的头节点 。 示例 示例 …

【Jenkins】pipeline基本使用

目录 一、pipeline 二、创建pipeline项目 1、安装pipeline插件 2、创建pipeline项目 三、pipeline语法 1、pipeline组成 2、agent&#xff1a;指定流水线的执行位置&#xff0c;流水线中每个阶段都必须在某个地方执行 3、stage&#xff1a;阶段&#xff0c;代表流水线的…

Qt 常见容器类用法(二)

目录 QList类 QLinkedList类 QList类 对于不同的数据类型&#xff0c;QList<T>采取不同的存储策略&#xff0c;存储策略如下&#xff1a; 如果T是一个指针类型或指针大小的基本数据类型(该基本类型占有的字节数和指针类型占有的字节数相同)&#xff0c;QList<T>…

负重20kg复合翼垂直起降无人机应用,复合翼无人机技术分析

主要任务应用 1.管线巡查 挂载可见光/红外二合一光电载荷和小型SAR设备&#xff0c;对既定线路进行昼夜巡视侦察&#xff0c;利用图像实时传回指挥控制中心&#xff0c;可用于石油管路、电力线路、舰艇航线及周围态势感知&#xff0c;利于依据现场实情进行战略决策和指令传达…