【机器学习】简单认识无监督学习

Unsupervised learning

  • 引言
  • 分类
  • 聚类算法
  • 聚类算法的应用
    • Goole news
    • 聚类遗传
    • 客户信息数据库
  • 监督学习和无监督学习的区别

“在学习监督学习之后,使用最广泛的机器学习形式是无监督学习。”

引言

在实际工作中,我们经常会遇到这样一类问题:给机器输入大量的特征数据,并期望机器通过学习找到数据中存在的某种共性特征或者结构,亦或是数据之间存在的某种关联
这类问题被称作“非监督学习”问题,它并不是像监督学习那样希望预测某种输出结果。相比于监督学习,无监督学习的输入数据没有任何标签信息,需要通过算法模型挖掘数据内在的结构和模式

分类

在监督学习中,数据同时带有输入x和输出y标签,而在无监督学习中,数据仅带有输入x没有输出标签y。 无监督学习可以大体分为三类
✨一类是常用的聚类算法,它将相似的数据点组合在一起。
✨ 第二种是异常检测,用于检测异常事件。例如,对于金融系统而言,异常事件、异常交易可能是欺诈的迹象,对于其他的很多应用程序也是如此。
✨第三种是降维,降维可以使得我们将一个大数据集神奇地压缩成一个小得多的数据集,同时丢失尽可能少的信息。

聚类算法

我们首先以在监督学习中的肿瘤块举例,它是监督算法中的分类算法。
在监督学习的分类算法下,根据输入标签(x)肿瘤块大小(Tumor Size)和病人的年龄(Age),有一个相对应的输出标签(y)良性(Benign) and 恶性(Malignant)。
而若在无监督学习下,给定的数据和任何输出标签y无关,比如给定了有关患者以及肿瘤块大小和年龄的数据,但不管肿瘤是良性还是恶性的。
监督学习和无监督学习的对比如下图所示。

(在监督学习中,红色的叉和紫色的圆圈两种记号分别代表恶性和良性。)
在右图的无监督学习,我们的工作是试图找到一些相似的结构或者模式。
上面的数据集将会被分成两个特殊的集群或者组,称为聚类算法。

聚类算法的应用

Goole news

聚类经常应用在手机新闻中,比较典型的是一些聚合新闻网站,利用爬虫爬取新闻后对新闻进行分类的问题。比如谷歌新闻每天都在,收集非常多,非常多的新闻内容。机器将这些新闻分组,同一主题,显示到一起,组成有关联的新闻。
所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。

聚类遗传

对于不同的个体,根据不同的基因片段,我们可以运行聚类算法,将个体分组到不同的类别中。
不同类型的人具有某些特征,聚类算法可以自动在数据中找到结构。

客户信息数据库

许多公司都有庞大的客户信息数据库,根据这些数据,聚类算法可以自动把客户分成不同的细分市场。这样,可以使得我们更有效地为客户服务。

监督学习和无监督学习的区别

** 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签。
以生活常识判断,监督学习相当于我们解答一本习题册,习题册后面有标准答案。所以解答时,我们可以根据答案分析解题步骤,推出类似问题的解答策略;无监督学习,就像是一本后面没有标准答案的习题册,无法知道自己正确与否,只能在做题过程中,大致得出相似类型题,更多靠自己摸索。**

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/494101.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Facebook的虚拟社交愿景:元宇宙时代的新起点

在当今数字化时代,社交媒体已经成为人们生活中不可或缺的一部分。而随着科技的不断进步和社会的发展,元宇宙已经成为了人们关注的热点话题之一。作为社交媒体的领军企业之一,Facebook也在积极探索虚拟社交的未来,将其视为元宇宙时…

MATLAB环境下基于随机游走拉普拉斯算子的快速谱聚类方法

古人有云,物以类聚,在面临信息爆炸问题的今天,对信息类别划分的价值日益显现,并逐步成为学者们的研究热点。分类和聚类是数据挖掘的重要工具,是实现事物类别划分的左右手,聚类又是分类一种特殊的方式。所谓…

详解顺序结构滑动窗口处理算法

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

酷开科技,让酷开系统成为现代生活的变革者

电视,从问世就一直受到人们的追捧。还记得小时候一家人围坐在电视机前的场景,小小的黑白屏幕,牢牢的吸引着大家的目光。随着科技的不断进步,我们的生活也发生了翻天覆地的变化。而电视,也从笨重的黑白电视变成了轻薄的…

YOLOv9中的“RepNCSPELAN4”结构!

RepNCSPELAN4结构出炉啦,收藏起来写论文用! 1.代码: 代码路径:yolov9-main->models->common.py,代码如下: class RepNCSPELAN4(nn.Module):# csp-elandef __init__(self, c1, c2, c3, c4, c51): # …

片上网络NoC

本文大部分内容来源于王志英老师主编的《片上网络原理与设计》以及网络,部分内容是本人理解所得,若有不当之处请指教 一、概述 片上网络将报文交换的思想引入芯片内部通信机制中,尽管片上网络和片外网络具有一定相似性,但二者在…

选择一款能让墙面生动起来的壁纸!

1、方小童在线工具集 网址: 方小童 该网站是一款在线工具集合的网站,目前包含PDF文件在线转换、随机生成美女图片、精美壁纸、电子书搜索等功能,喜欢的可以赶紧去试试!

Sora专辑|AI界一夜变天

没有丝毫预热和剧透,Open AI深夜直接丢下核弹炸了街,从业者深感要变天。 2月16日凌晨,Open AI发布了首个“文生视频”模型Sora。官方介绍,Sora能根据文字指令创造出包含丰富细节的逼真场景、角色,且能用多角度镜头,生成一镜到底的60秒长视频。 目前官网上已经更新了48个…

k8s节点负载使用情况分析命令kubectl describe node [node-name]

1.到任意安装了kubectl节点命令的节点上执行kubectl describe node [node-name] 上面的Requests最小分配 Limits最大分配是所有pod之和,最小分配之和不能超过服务器实际参数,否则新的pod会因为资源不够起不来,最大分配是预设之和&#xff0…

ConvNext学习

参考: [1] LIU Z, MAO H, WU C Y, et al. A ConvNet for the 2020s[C/OL]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, LA, USA. 2022. http://dx.doi.org/10.1109/cvpr52688.2022.01167. DOI:10.1109/cvpr52688.2…

计算机设计大赛 深度学习大数据物流平台 python

文章目录 0 前言1 课题背景2 物流大数据平台的架构与设计3 智能车货匹配推荐算法的实现**1\. 问题陈述****2\. 算法模型**3\. 模型构建总览 **4 司机标签体系的搭建及算法****1\. 冷启动**2\. LSTM多标签模型算法 5 货运价格预测6 总结7 部分核心代码8 最后 0 前言 &#x1f5…

python Matplotlib Tkinter--pack 框架案例

环境 python:python-3.12.0-amd64 包: matplotlib 3.8.2 pillow 10.1.0 版本一 import matplotlib.pyplot as plt from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg, NavigationToolbar2Tk import tkinter as tk import tkinter.messagebox as messagebox…