在无监督学习中,假设X是输入空间,Z是输出的隐式结构空间,要学习的模型非概率模型情况可以表示为函数z=g(x),概率模型情况下表示为条件概率分布P(z|x)或p(x∣z),它们 都可以用来描述数据中的潜在结构和关系,而监督学习中关于概率模型一般表示为P(z|x),为什么会有这种区别呢?
P(z|x)给定输入 x 时,输出 z 的概率,p(x∣z) 给定输出 z 时,输入 x 的概率,对于监督学习和非监督学习都可以这样解释。
首先来说说非监督学习中的情况:
这种表示方法关注的是给定观察数据 x 时,推断出潜在变量 z的概率。这在需要对数据进行分类或标注的场景中非常有用。
例子:假设我们有一组邮件数据,每封邮件都有一系列的特征(如关键词、发件人、邮件长度等),我们想要将邮件分为“垃圾邮件”和“非垃圾邮件”两类。在这种情况下,x 表示邮件的特征,而 z 表示邮件的分类标签(垃圾邮件或非垃圾邮件)。我们使用 P(z|x)来计算给定邮件特征时,邮件是垃圾邮件的概率。通过这种方式,我们可以对新邮件进行分类。
相对地,p(x|z)表示的是在已知数据属于某个潜在类别 z的情况下,观察到特定数据点 x 的概率。这在需要生成或重建数据的场景中非常有用。
例子:考虑一个文本生成任务,我们的目标是生成与特定主题相关的文本。在这里,z表示主题,而 x表示文本内容。我们已经有一些标记了主题的文本数据。通过学习 p(x|z),我们可以了解给定主题下文本的生成概率。例如,如果 z是“科技新闻”,那么“人工智能”、“机器学习”等词汇在 x 中出现的概率会很高。利用这个分布,我们可以尝试生成新的、与特定主题相关的文本。
这两种表示方法在无监督学习中的应用通常取决于我们的目标是理解数据的潜在结构(分类、聚类)还是生成新的数据样本(生成模型)。在实际应用中,我们可能会根据问题的具体需求和数据的特性来选择最合适的方法。有时,我们甚至可以结合这两种方法来更好地理解和利用数据。例如,在变分自编码器(VAE)中,我们同时使用 P(z|x) 和 p(x|z)来学习数据的潜在表示,并生成新的数据点。
对于监督学习,通常的目标是找到一个模型,使得对于给定的输入 x,可以准确预测输出 y。在这种情况下,通常关注的条件概率是 p(y|x),即给定输入 x 时,预测输出 y的概率。然而,监督学习中的模型也可以通过条件概率 p(x|y) 来理解,尽管这不太常见。例如,在一些特定的任务中,可能有多个输入样本 x对应于同一个输出 y,这种情况下,p(x|y) 可以描述给定特定输出条件下观察到特定输入样本的概率。
更多统计学习基础知识请参考专栏《统计学习基础知识》。
更多人工智能基础知识请参考专栏《人工智能基础知识》。
写博不易,敬请支持:
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
关于老猿的付费专栏
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录 》
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。
前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。
对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。
如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。