LDA主题模型——贝叶斯分布与其共轭(一)

news/2024/12/21 10:04:17/文章来源:https://www.cnblogs.com/haohai9309/p/18608178

贝叶斯分布理论是统计推断的重要分支,其核心思想是利用贝叶斯定理,将先验知识与新观测数据结合,从而动态更新对未知参数的认识。这一理论框架以概率为基础,特别适合处理不确定性问题,在统计学及相关领域中具有重要地位。贝叶斯推断的一大优势是其计算上的简化性,尤其是通过共轭分布的应用。例如,在二项分布参数\(p\)的推断中,选择 Beta分布作为先验分布可保证后验分布仍为 Beta分布,这种共轭关系大幅降低了推断的复杂度,为实际应用提供了便利。此外,贝叶斯方法的灵活性和直观性使其能够融入领域专家的知识,同时通过不断加入新数据优化推断结果。贝叶斯方法在机器学习、经济学和医学等领域有着广泛应用。例如,在医学诊断中,贝叶斯方法结合患者历史数据和检查结果,可动态评估疾病风险,提高诊断准确性。

一、贝叶斯分布概述

1.1 贝叶斯定理的基本形式

贝叶斯定理的公式为:

\[P(\theta | \mathcal{D}) = \frac{P(\mathcal{D} | \theta) P(\theta)}{P(\mathcal{D})} \]

其中:

  • $ P(\theta | \mathcal{D}) $ 称为后验分布,表示在观测到数据 $ \mathcal{D} $ 后对参数 $ \theta $ 的概率分布;
  • $ P(\mathcal{D} | \theta) $ 称为似然函数,表示在参数 $ \theta $ 下,观测数据 $ \mathcal{D} $ 出现的可能性;
  • $ P(\theta) $ 称为先验分布,表示对参数 $ \theta $ 的先验知识;
  • $ P(\mathcal{D}) $ 是边际似然,起归一化作用,可表示为:

\[P(\mathcal{D}) = \int P(\mathcal{D} | \theta) P(\theta) d\theta \]

贝叶斯定理的作用是利用先验分布 $ P(\theta) $ 和数据生成过程的似然函数 $ P(\mathcal{D} | \theta) $ 来计算更新后的后验分布 $ P(\theta | \mathcal{D}) $。

1.2 先验分布 $ P(\theta) $

先验分布是贝叶斯分析的起点,反映在观测到数据之前对参数的主观认识或信念。先验分布可以是:

非信息性先验(Non-informative prior):表示对参数没有先验偏好,例如均匀分布。
信息性先验(Informative prior):基于历史数据或专家经验,例如正态分布、高斯分布等。

常见的先验分布形式包括:

  • Beta分布:Beta分布是定义在 \([0,1]\) 区间上的连续分布,用于建模概率参数 $ p $。其概率密度函数为:

\[P(p | \alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} p^{\alpha - 1} (1 - p)^{\beta - 1}, \quad p \in [0, 1] \]

其中:

  • $ \alpha > 0, \beta > 0 $ 为形状参数;
  • $ \Gamma(\cdot) $ 是伽马函数,其定义为 $ \Gamma(x) = \int_0^\infty t^{x-1} e^{-t} dt $。

Beta分布在贝叶斯推断中常用作二项分布中参数 $ p $ 的先验分布。

  • 正态分布:参数 $ \mu $ 和 $ \sigma^2 $ 的先验分布通常假设为正态分布:

\[P(\theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(\theta - \mu)^2}{2\sigma^2}\right) \]

选择合适的先验分布是贝叶斯分析中的一个关键环节。

  • Gamma分布:Gamma分布是指数分布和泊松分布的推广形式,在参数估计、可靠性分析、排队论和贝叶斯统计中有着重要作用。Gamma分布由两个正参数 $ \alpha $(形状参数)和 $ \beta $(尺度参数)确定,其概率密度函数(PDF)形式为:

\[f(x | \alpha, \beta) = \frac{\beta^\alpha x^{\alpha-1} e^{-\beta x}}{\Gamma(\alpha)}, \quad x > 0, \, \alpha > 0, \, \beta > 0, \]

其中:

$ \Gamma(\alpha) $ 是 Gamma函数,定义为:

\[\Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \, dt. \]

Gamma函数是阶乘的推广,满足 $ \Gamma(n) = (n-1)! $(当 $ n $ 为正整数时)。
$ \alpha $ 控制分布的形状:当 $ \alpha $ 较小时,分布偏斜明显;当 $ \alpha $ 较大时,分布逐渐接近正态分布。
$ \beta $ 控制分布的尺度:$ \beta $ 越大,分布越分散,反之则越集中。

1.3 似然函数 $ P(\mathcal{D} | \theta) $

似然函数反映了数据在给定参数值下的生成机制,即:

\[P(\mathcal{D} | \theta) = \prod_{i=1}^n P(x_i | \theta) \]

其中 $ x_i $ 表示观测数据中的第 $ i $ 个样本,$ n $ 为样本数量。

根据不同的概率模型,似然函数的形式会有所不同,例如:

  • 二项分布:如果观测数据符合二项分布,则似然函数为:

\[P(\mathcal{D} | \theta) = \binom{n}{k} \theta^k (1 - \theta)^{n-k} \]

其中 $ k $ 表示成功次数,$ \theta $ 表示成功的概率。

  • 正态分布:如果观测数据符合正态分布,则似然函数为:

\[P(\mathcal{D} | \theta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) \]

似然函数是后验分布计算的核心输入之一。

1.4 后验分布 $ P(\theta | \mathcal{D}) $

后验分布是贝叶斯推断的最终结果,它结合了先验分布和观测数据,更新了对参数 \(\theta\) 的认识。根据贝叶斯定理,后验分布的公式为:

\[P(\theta | \mathcal{D}) \propto P(\mathcal{D} | \theta) P(\theta) \]

这表明后验分布的形状是由似然函数和先验分布的乘积决定的。

1.5 边际似然

边际似然\(P(D)\)是后验分布中的归一化常数,用于保证后验分布积分为 1。公式为:

\[P(D) = \int P(D|\theta)P(\theta)d\theta \]

边际似然在模型比较中有重要应用,例如贝叶斯因子(Bayes Factor)。

贝叶斯分布理论的优势在于:

  • 直观性:能够将主观知识与客观数据相结合;
  • 动态更新:通过新数据不断更新参数的分布;
  • 灵活性:适用于小样本问题和复杂模型。

然而,贝叶斯方法的计算复杂性较高,尤其是在高维问题中,通常需要借助数值方法(如马尔科夫链蒙特卡罗方法,MCMC)来近似计算后验分布。

二、贝叶斯分布的共轭

在贝叶斯分析中,共轭先验是一个重要概念,指的是先验分布与后验分布具有相同的形式。这种性质大大简化了贝叶斯推断的计算。以下分别详细推导 Beta分布与二项分布的共轭关系 和 Dirichlet分布与多项分布的共轭关系,并给出数学表达。

2.1 Beta分布与二项分布的共轭关系

我们希望通过观测数据 $ k $ 和 $ n $ 更新对 $ p $ 的认识,根据贝叶斯定理:

\[P(p | k, n) \propto P(k | n, p) P(p) \]

其中:

  • $ P(p | k, n) $ 是后验分布;
  • $ P(k | n, p) $ 是似然函数,对应二项分布;
  • $ P(p) $ 是先验分布,对应 Beta分布。

将 $ P(k | n, p) $ 和 $ P(p) $ 的具体表达式代入:

\[P(p | k, n) \propto \left[ \binom{n}{k} p^k (1 - p)^{n - k} \right] \cdot \left[ \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} p^{\alpha - 1} (1 - p)^{\beta - 1} \right] \]

忽略与 $ p $ 无关的常数项 $ \binom{n}{k} $ 和 $ \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} $,得到:

\[P(p | k, n) \propto p^{k + \alpha - 1} (1 - p)^{n - k + \beta - 1} \]

这正是 Beta分布的形式,其更新后的参数为:

\[\alpha_{\text{posterior}} = \alpha + k, \quad \beta_{\text{posterior}} = \beta + n - k \]

因此,Beta分布是二项分布的共轭先验。

2.2 Dirichlet分布与多项分布的共轭关系

多项分布的定义

多项分布是二项分布的推广,描述了在 $ n $ 次试验中,事件 $ k_1, k_2, \ldots, k_K $ 的发生次数,其中每次试验中 $ K $ 个类别的概率为 $ \boldsymbol{\theta} = (\theta_1, \theta_2, \ldots, \theta_K) $,且满足:

\[\sum_{i=1}^K \theta_i = 1, \quad \theta_i \in [0, 1]. \]

多项分布的概率质量函数为:

\[P(\mathbf{k} | n, \boldsymbol{\theta}) = \frac{n!}{k_1! k_2! \cdots k_K!} \prod_{i=1}^K \theta_i^{k_i}, \]

其中:

  • $ \mathbf{k} = (k_1, k_2, \ldots, k_K) $ 是每个类别的观测次数;
  • $ n = \sum_{i=1}^K k_i $ 是试验总次数;
  • $ \boldsymbol{\theta} $ 是类别的概率分布。

这里的 $ P(\mathbf{k} | n, \boldsymbol{\theta}) $ 就是似然函数,用于表示观测数据的生成概率。

Dirichlet分布的定义

Dirichlet分布是多项分布参数 $ \boldsymbol{\theta} $ 的共轭先验分布,其概率密度函数为:

\[P(\boldsymbol{\theta} | \boldsymbol{\alpha}) = \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^K \theta_i^{\alpha_i - 1}, \quad \boldsymbol{\theta} \in [0, 1]^K, \quad \sum_{i=1}^K \theta_i = 1 \]

其中:

  • $ \boldsymbol{\alpha} = (\alpha_1, \alpha_2, \dots, \alpha_K) $ 是超参数,控制分布的形状;
  • $ B(\boldsymbol{\alpha}) $ 是 Beta函数的多维推广,定义为:

\[B(\boldsymbol{\alpha}) = \frac{\prod_{i=1}^K \Gamma(\alpha_i)}{\Gamma\left(\sum_{i=1}^K \alpha_i\right)} \]

Dirichlet分布是 Beta分布在多维空间的扩展,用于建模多项分布参数的先验知识。

Dirichlet分布与多项分布的共轭性

假设观测到的分类数据 $ \mathbf{k} = (k_1, k_2, \dots, k_K) $,其对应的似然函数为:

\[P(\mathbf{k} | n, \boldsymbol{\theta}) = \frac{n!}{k_1! k_2! \cdots k_K!} \prod_{i=1}^K \theta_i^{k_i} \]

先验分布为 Dirichlet分布:

\[P(\boldsymbol{\theta} | \boldsymbol{\alpha}) = \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^K \theta_i^{\alpha_i - 1} \]

根据贝叶斯定理,后验分布为:

\[P(\boldsymbol{\theta} | \mathbf{k}, n) \propto P(\mathbf{k} | n, \boldsymbol{\theta}) P(\boldsymbol{\theta} | \boldsymbol{\alpha}) \]

将似然函数和先验分布代入,忽略常数项,得到:

\[P(\boldsymbol{\theta} | \mathbf{k}, n) \propto \prod_{i=1}^K \theta_i^{k_i} \prod_{i=1}^K \theta_i^{\alpha_i - 1} = \prod_{i=1}^K \theta_i^{k_i + \alpha_i - 1} \]

这正是 Dirichlet分布的形式,其更新后的参数为:

\[\alpha_{i, \text{posterior}} = \alpha_i + k_i, \quad i = 1, 2, \dots, K \]

因此,Dirichlet分布是多项分布的共轭先验。

三、常见共轭先验分布

共轭先验分布指的是,当总体分布与其先验分布具有共轭关系时,后验分布的形式与先验分布保持一致。这种性质使得参数估计在数学上更加简单直观,同时在实际应用中提高了计算效率。下面对表中列出的几种常见共轭分布关系进行详细解释与推导。

总体分布 参数 共轭先验分布
二项分布 成功概率 \(p\) Beta 分布 $ \text{Beta}(\alpha, \beta) $
泊松分布 均值 \(\lambda\) Gamma 分布 $ \Gamma(\alpha, \beta) $
指数分布 均值的倒数 \(\theta\) Gamma 分布 $ \Gamma(\alpha, \beta) $
正态分布(方差已知) 均值 \(\mu\) 正态分布 $ N(\mu_0, \sigma^2) $
正态分布(均值已知) 方差 \(\sigma^2\) \(\Gamma\) 分布

总结

共轭先验分布在贝叶斯推断中具有重要作用,通过保持先验与后验分布形式的一致性,大大简化了参数更新的计算复杂度。在实际应用中,不同分布的共轭关系,如 Beta 分布与二项分布、Gamma 分布与泊松分布等,为统计建模、机器学习和数据分析提供了有效工具。这种方法不仅灵活,而且能够结合先验知识与数据观测,实现对未知参数的动态推断。

Beta分布与二项分布的共轭性:Beta分布通过简单的参数更新\(\alpha + k\)\(\beta + n - k\),生成后验分布。
Dirichlet分布与多项分布的共轭性:Dirichlet分布的超参数 \(\alpha\)通过累加观测到的频数\(k\),生成后验分布。
这两种共轭关系的推导,展现了贝叶斯分析在复杂模型推断中的高效性,同时为机器学习、自然语言处理和信号处理等领域提供了理论基础。

参考资料

  1. 理解Gamma分布、Beta分布与Dirichlet分布
  2. 共轭和共轭分布
  3. 主题模型(一):LDA 基本原理
  4. 通俗理解LDA主题模型(2014年版)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/856254.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytest+requests+allure测试框架中,如何实现用例的数据驱动取出来的数据同步到fixture中,作为参数使用

1、在 pytest 中,如果你有多个数据驱动的 fixture 和测试用例,并希望确保它们的数据同步传递(即每个 fixture 和测试用例的数据对是一一对应的),你可以使用 pytest.mark.parametrize 来参数化测试函数和 fixture。为了确保 fixture 和测试函数中的数据同步传递,可以将它们…

webman: 使用模板引擎twig

一,安装 $ composer require twig/twig 二,配置 config/view.php <?php /*** This file is part of webman.** Licensed under The MIT License* For full copyright and license information, please see the MIT-LICENSE.txt* Redistributions of files must retain th…

读图数据库实战笔记09性能与反模式

性能与反模式1. 熵 1.1. 熵是物理学上的一个术语,本质上是一个系统“内在的混乱程度”​ 1.2. 是我们的敌人 2. 执行缓慢的遍历 2.1. 和关系数据库一样,图数据库对于执行缓慢的操作并不陌生 2.2. 图也有帮助诊断问题的工具2.2.1. 解释一个遍历会做什么2.2.2. 分析一个遍历做了…

广义少镜头分割的视觉提示:一种多尺度方法

广义少镜头分割的视觉提示:一种多尺度方法 5.5.1 多尺度方法概述 基于注意力的变换器模型的出现,由于其优越的泛化和传递特性,在各种任务中得到了广泛的应用。最近的研究表明,当得到适当的提示时,这些模型对于少镜头推理来说是极好的。然而,对于语义分割等密集预测任务,…

专著推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》

专著推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新颖…

【圆圆的日语教室】日语入门总复习

总复习 文字篇发音篇单词篇四季星期数字国家职业喜好家庭成员外来语儿歌篇 五十音图之歌 小星星 动物之歌 星期之歌 大大的栗子树下 数字歌 哆啦 A 梦之歌 狗狗巡警会话篇

【圆圆的日语教室】日语入门第6课-自我介绍(1)很高兴认识你

第六课——自我介绍(1)很高兴认识你 日语中汉字的两种读音方式音读:根据 当时 传过去的汉字的汉语读音发展得来的不同朝代传过去的读音可能不同,所以一个汉字可能有多种音读吴:南北朝时期、汉:隋唐时期、唐:宋元明清时期例子“明”字:训读:汉字的含义所对应的日语原本…

【圆圆的日语教室】日语入门第7课-自我介绍(2)深入交流

第七课——自我介绍(2)深入交流 介绍国家 常用单词我来自から:表示时间空间上的起点,“从” 来 ました:来(常规) まいりました:来(礼貌、自谦) 两种“来”的说法都可以。介绍职业 常用单词 圆圆带读運転手:司机 弁護士:律师我是介绍喜好 常用单词喜好问答介绍家庭 …

【圆圆的日语教室】日语入门第8课-片假名

第八课——片假名 片假名的书写あ 行あ:先写横折,然后在下面再写一撇 い:单人旁 う:宝盖头,先写一点一竖,然后第三笔拖长一点か 行か:“力”,平假名少了一点,平假名比较圆润,片假名横平竖直。 キ:平假名上面的部分,第一笔短横,第二笔长横。 ク:“久”少了最后一笔…

【圆圆的日语教室】日语入门第5课-长音促音拨音+日常问候

第五课——长音/促音/拨音+日常问候 长音 长音的发音方式 日语中 1 个假名是 1 拍。 所谓的一拍:双掌相对,留出一定距离。一拍的时间大概是从击掌到还原的时间。 短音:一拍清音、浊音、半浊音、拗音都是一拍长音:两拍长音不是读两遍,而是把一个假名的发音拖长一拍。长音的…

有哪些靠谱的卖课平台

随着数字化时代的来临,知识付费与线上教育正迎来新的机遇与挑战。在这个背景下,如何选择一个靠谱而高效的在线卖课平台至关重要。接下来,本文将以专业、多角度的分析探讨当前一些广受教育工作者认可的卖课平台,包括自媒体平台和第三方专业在线教育平台。希望通过本文的内容…

战国兰斯攻略

战国兰斯攻略-摘抄 关于存档我们尽量保证每回合开始和结束各存一档,尤其是比较难的战斗要每行动一次存一次档,不然重新打很费时间的。关于战斗游戏中敌人进攻和防守阵容都是随机的,攻略中的阵容只能拿来参考,具体情况根据个人调整,有余力最好派个斥候看下对面的阵容再分配…