Apriori---[əpriˈɔri] ---先天的,推测的
什么是关联规则?
尿布 -> 葡萄酒 就是一个关联规则。如果顾客买了尿布,那么在统计上,那么他会购买葡萄酒的概率比较大。(但是,这一条件反过来并不总是成立。 也就是说 “豆奶 -> 莴苣” 统计上显著,那么 “莴苣 -> 豆奶” 也不一定成立。)
这意味着如果有人买了豆奶,
如何度量频繁?两个指标
支持度和可信度
支持度: 数据集中包含该项集(项集就是元素可能的组合)原始数据的条数 占原始数据的总条数 的比例。例如上图中,{豆奶} 的支持度为 4/5。{豆奶, 尿布} 的支持度为 3/5。
可信度:{尿布} -> {葡萄酒}这样的关联规则的可信度。
可信度 = 支持度({尿布, 葡萄酒})/支持度({尿布})
,从图中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。
A -> B 的可信度定义为 support(A | B) / support(A)。(类似条件概率,贝叶斯公式的定义?)——A | B
是指所有出现在集合 A 或者集合 B 中的元素。
非频繁项,就是支持度低的项集(项集就是元素可能的组合)
算法最终的输出或产出:找到一个频繁项集,
Apriori(关联分析算法)_apriori算法-CSDN博客