半监督学习介绍(为什么半监督学习是机器学习的未来)

文章目录

  • 半监督学习的好处
  • 半监督学习原理
  • 半监督范式
  • 总结

半监督学习是一种利用标记和未标记数据的机器学习方法。半监督学习的目标是结合监督学习和无监督学习的优点;利用标记数据的准确性以及未标记数据的丰富性和较低成本。半监督学习可以被认为是 监督学习(利用标记数据进行训练)和 无监督学习(不需要标签)之间的桥梁。监督学习要求所有数据都被标记,而无监督学习根本不需要标签,而半监督学习结合了标记和未标记数据来训练模型,然后可以进行预测。与单独使用其他两种方法相比,这会带来更好的性能。
在这里插入图片描述

半监督学习的好处

使用半监督学习有几个主要好处:

  1. 节省成本:标记数据可能是一个乏味且昂贵的过程,并且在许多情况下,标记项目所需的所有数据根本不切实际。半监督学习可以通过使用标记和未标记数据来帮助降低收集数据的成本。
  2. 准确性:如上所述,同时使用标记数据和未标记数据有助于提高模型的准确性。这是因为使用标记数据可以阻止模型学习虚假相关性,而使用未标记数据可以添加有关数据中潜在模式的有价值的信息。
  3. 节省时间:标记数据可能需要大量时间,因此半监督学习可以加快模型训练速度,因为不必全部标记数据。

本文将对半监督学习进行友好的介绍并解释其核心概念。

半监督学习原理

img

半监督学习的实际应用。粗线表示监督学习得到的决策边界。虚线显示了半监督情况的边界。点是未标记的数据点,三角形/加号是标记的数据点。图取自 van Engelen 等人。(2018)

上图显示了所有三种学习方案的实际效果。圆圈代表两个类的未标记数据点。圆圈和三角形对应于标记的样本。为了使未标记的样本有用,我们必须假设它们仍然包含对我们有用的信息。更数学地说:

基础边际分布p(x)应提供有关后验p(y|x) 的有用信息。

为了使半监督训练发挥作用,我们必须依赖三个主要假设:

平滑度假设

它指出,如果两个样本x1x2在输入空间中接近,则它们应该共享相同的标签。例如,假设有一个描述汽车的数据集,其中包含重量和油耗。两个特征值较小的样本可能代表紧凑型汽车,而值较高的样本往往对应于 SUV。当我们还考虑未标记的数据时,这种假设会派上用场,因为我们希望它们共享最接近的标记邻居的标签。

低密度假设

从平滑假设,我们可以直接推导出另一个前提。类之间的决策边界应位于输入空间的低密度区域。这意味着,它应该位于很少有标记和未标记样本的区域。如果它位于高密度区域,则将违反平滑度假设,因为输入空间中接近的样本将不再共享相同的标签。

流形假设

机器学习任务的数据通常是高维的。尽管如此,并非所有特征都显示出相同水平的方差,这使得它们对模型的用处不大。因此,高维数据通常位于低维流形上(空间中的结构)。该信息可用于推断未标记样本的类别。

这三个假设构建了几乎所有半监督学习算法的基础。

半监督范式

最近的半监督学习算法的一件事是,它们都基于两种范式之一(有时甚至是两者)。

第一个范式称为 伪标记 ,它使用网络本身为未标记的数据生成真实标签。为此,模型通常使用需要获得的完全标记的子集进行预训练。然后将未标记的样本输入网络并记录它们的类别预测。如果样本的最大类别概率超过设定的阈值,则将相应的类别用作基本事实。然后可以使用这些样本以监督方式训练模型。随着模型的性能变得越来越好,可以使用相同的技术迭代地细化人工获得的标签。

第二种范式称为一致性正则化,它训练模型在输入同一图像的两个略有不同的版本时输出相似的预测。在许多情况下,原始图像的这些扰动版本通常是使用数据增强方法获得的,例如旋转、移位、对比度改变或许多其他技术。这样的训练使模型能够更好地泛化并且更加鲁棒。由于我们只是强制执行类似的预测,因此在这种情况下不需要类标签。因此,可以按原样使用未标记的数据。

总结

半监督学习是一种强大的机器学习方法,可以结合监督学习和无监督学习的优点。通过使用标记和未标记数据,半监督学习可以提高许多机器学习项目的准确性、成本和时间节省。它利用标记和未标记数据来生成一个模型,该模型通常比以标准监督方式训练的模型更强大。这些算法通常基于伪标签和/或一致性正则化。

半监督学习将监督学习和非监督学习的过拟合和“不拟合”倾向(分别)结合起来的能力,创建了一个模型,在给出最小数量的标记数据和大量的未标记数据的情况下,可以出色地执行分类任务。除了分类任务,半监督算法还有许多其他用途,如增强聚类和异常检测。尽管这一领域本身相对较新,但由于在当今的数字领域中发现了巨大的需求,算法一直在不断地被创造和完善。

不过,即使半监督训练通常比标准监督训练有所改进,也不能保证您自己的应用程序就是这种情况。研究表明,在某些有限的情况下,它甚至可能导致性能下降。

半监督学习确实是机器学习的未来。

参考:
https://www.elecfans.com/d/1411567.html
https://towardsdatascience.com/a-friendly-intro-to-semi-supervised-learning-3783c0146744
https://towardsdatascience.com/improve-your-models-performance-with-unlabeled-data-d6e78a57fadb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/139971.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

latex:表格水平宽度调整

解决方案 结果如下: 源代码如下: \documentclass{article} % \usepackage[utf8]{ctex} \usepackage{multirow} \usepackage{graphicx} \usepackage{booktabs} \usepackage{caption}\begin{document}\captionsetup{font{large}}\begin{table}[] \centeri…

酒店报修管理系统哪家好?设备巡检系统对酒店运营有什么帮助?

酒店报修管理系统是一款关键的软件工具,可以帮助酒店员工和客户更有效地管理酒店的各项运营活动。下面我们将通过问答形式,深入探讨酒店管理系统的特性和功效,以便了解它如何提升酒店员工的工作效率,以及如何将酒店的各个部门和员…

【论文阅读】 Cola-Dif; An explainable task-specific synthesis network

文章目录 CoLa-Diff: Conditional Latent Diffusion Model for Multi-modal MRI SynthesisAn Explainable Deep Framework: Towards Task-Specific Fusion for Multi-to-One MRI Synthesis CoLa-Diff: Conditional Latent Diffusion Model for Multi-modal MRI Synthesis 论文…

模型的选择与调优(网格搜索与交叉验证)

1、为什么需要交叉验证 交叉验证目的:为了让被评估的模型更加准确可信 2、什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过…

6.SNMP报错-Error opening specified endpoint “udp6:[::1]:161“处理

启动SNMP服务 /etc/init.d/snmpd start 出现以下报错信息 [....] Starting snmpd (via systemctl): snmpd.serviceJob for snmpd.service failed because the control process exited with error code. See "systemctl status snmpd.service" and "journalctl…

手机拍照转机器人末端坐标(九点标定法)

1.打印标定纸,随机九个点 2.让UR机器人末端分别走到P1-P9九个点 在图示位置读取九个点的X,Y坐标 3.手机拍照(固定点) 测试可以随机拍一张,实用的话需要固定手机的拍照位置,得到的图片如下: 4.…

Python pip 替换国内镜像源

pip它还有一个非常好的特点,当你安装一个库的时候,它会自动帮你安装所有这个库的依赖库。完全一键式操作。非常方便。但是由于pipy网站是国外网站,很容易会被墙,导致经常下载速度非常慢,经常超时。 解决办法&#xff…

L2-030 冰岛人

2018年世界杯,冰岛队因1:1平了强大的阿根廷队而一战成名。好事者发现冰岛人的名字后面似乎都有个“松”(son),于是有网友科普如下: 冰岛人沿用的是维京人古老的父系姓制,孩子的姓等于父亲的名加后缀&#x…

【配置环境】SQLite数据库安装和编译以及VS下C++访问SQLite数据库

一,环境 Windows 11 家庭中文版,64 位操作系统, 基于 x64 的处理器SQLite - 3.43.2Microsoft Visual Studio Community 2022 (64 位) - Current 版本 17.5.3 二,SQLite简介 简要介绍 SQLite(Structured Query Language for Lite&a…

Vue-Cli - Vue 脚手架的创建 以及 目录结构说明

目录 一、Vue-Cli 1.1、Vue 脚手架的创建 二、Vue 脚手架目录结构说明 1.1、vscode 使用 Vue 脚手架 1.2、结构说明 一、Vue-Cli 1.1、Vue 脚手架的创建 注意:你要提前安装好 node.js (官网下载即可),配置好环境变量. a&…

PositiveSSL的泛域名SSL证书

PositiveSSL是Sectigo旗下的一个子品牌,致力于为全球用户提供优质、高效的SSL证书服务。PositiveSSL以Sectigo强大的品牌影响力和全球网络为基础,秉承“安全、可靠、高效”的服务理念,为各类网站提供全面的SSL证书解决方案。今天就随SSL盾小编…

尚硅谷Flink(完)FlinkSQL

🧙FlinkSQL🏂🤺 Table API 和 SQL 是最上层的 API,在 Flink 中这两种 API 被集成在一起,SQL 执行的对象也是Flink 中的表(Table),所以我们一般会认为它们是一体的。 SQL API 是基于…