朴素贝叶斯英文名称NaiveBayes,朴素贝叶斯确实naïve,但是并不朴素,而是简单,并不是逻辑上面的简单,而是假设上面的简单。
1.贝叶斯公式
其中:
P(C|X)是类C在给定特征X下的后验概率。
P(X|C)是特征X在给定类C下的条件概率,也叫做似然。
P(C)是类C的先验概率。
P(X)是特征X的先验概率,它通常用于归一化。
2.朴素贝叶斯假设
朴素贝叶斯分类器的“朴素”之处在于它假设给定类C下,特征向量X的各个分量是相互独立的。这意味着:
这个假设极大地简化了计算,因为我们可以分别计算每个特征的条件概率,然后将其相乘。
3.关于先验概率
朴素贝叶斯定理中的P(C)是类C的先验概率,对于每个类别C,计算训练数据中该类别的样本比例。
4.条件概率
对于每个类别C和每个特征xi,计算该特征在给定类别下的条件概率。对于离散特征,这通常是该特征值在类别C中出现的频率;对于连续特征,通常使用高斯分布等概率分布来估计。
5. 使用场景
平时工作中经常会用到朴素贝叶斯分类(NaiveBayesClassifier),其是一种基于贝叶斯定理的简单而高效的分类算法。尽管其假设条件(朴素性假设)非常简化,但在许多实际应用中,朴素贝叶斯分类器表现出了令人惊讶的良好性能。