准备八股的时候大概做的一个复盘,不包含各类细节。个人复盘用。
1. 概率
首先最基础的问题是——什么是概率?这个问题并非他看上去那么理所当然。事实上我们可以基于这样一个朴素认识————概率是频率的极限。然而这并没有回到概率本身,这样说并未证明一定存在这个极限,而是提供了估计概率的方法。为了更好的研究它,概率的公理化定义由柯尔莫哥洛夫提出,其满足三条性质:
①p为0到1之间。
②全集的概率为1。
③加法公理。
这些作为不加证明而接受的事实,为一种普遍而严格的数学化概率理论奠定了基础。这三条公理事实上限定了概率的讨论范围,意味着接下来将只讨论满足这三条性质的概率理论。
2. 古典概型
古典概型假定试验有有限个可能的结果。关于古典概型的计算几乎只围绕两个中心,①试验结果的等可能性。②各类排列组合的应用。这个方法几乎可以解决在基础古典概型中的所有问题。当然,也有几条捷径,有三条定理:贝叶斯定理、全概率公式、
3. 随机变量与分布
对一个变量最好的刻画是得到他的分布,考虑到变量类型又细分为离散变量和连续变量。在这一章节通常将介绍几种常见的离散变量或者连续变量。真实数据分布往往非常复杂,因此这些分布都非常基础而且重要。在离散变量中包含:伯努利分布、二项分布、几何分布、泊松分布等等。连续变量的分布包含均匀分布、指数分布、正态分布、卡方分布、t分布等等...与此同时有一些关键指标刻画分布的关键信息:均值、方差、峰度、偏度等等。其对刻画的内容各有侧重,其中均值刻画了数据的“平均水平”,方差刻画数据在均值周围的集中程度,这样想可以自然而然的想到两个重要的不等式,马尔科夫不等式和柯西不等式。
4. 参数估计
至此我们已经知道了许多常见的分布,然而面对样本数据怎样刻画他的分布呢?总的来说有两种方法,参数和非参数的方法:参数方法假定其满足某种分布,因而关键在于估计出参数的情况,非参数并不提前假定其满足特定分布。就参数估计而言,其分为点估计和区间估计,顾名思义点估计仅仅给出一个点的值,区间估计给出估计参数的分布区间。点估计有:最小二乘法,贝叶斯方法,矩估计,极大似然。书本中一般主要介绍矩估计和极大似然估计。前者由皮尔逊提出中心思想在于用样本矩估计总体矩(利用了其是无偏的良好性质),后者则通过极大似然法求得估计的参数。然而实际上对于不同的方法,其得到的结果有所不同,怎样评判一个估计的好坏呢?有三个主要指标:无偏性,有效性和相合性。若将估计与真实值之间的误差分解为结构误差和随机误差,则无偏性衡量的是结构误差的部分。有效性衡量的是随机误差的部分。相合性衡量的事随着样本量的增长,估计依概率收敛于真实值。对于区间估计主要分为枢轴量法和贝叶斯方法。
5. 假设检验
假设检验是一个前面各种内容集大成的课题,与现实场景更近一步,利用样本数据解决判断问题。可以介绍两种常见的假设检验方法,Fisher假设检验(其核心在小李看来仍然是区间估计问题)和贝叶斯假设检验(比较后验概率的大小)。对于Fisher假设检验而言,具体的建模过程这里通通略去,事实全过程上只关注原假设是否为真,若要拒绝原假设,需要使得目前样本发生的概率小于0.05(一般这样设置P值)。因此这里存在一个原假设保护,即相对于保留原假设而言,拒绝原假设的条件显得更为苛刻。但是,随着样本量的增大,一些更加细微的差距也将被检验出来,如有两组数据,原假设为两组均值相等而备择假设为两组均值不等。那么即使两组数据的差距很小,随着样本量的增大,最后也会显著的拒绝原假设。相关可以参考Lindley悖论。而贝叶斯假设在先验分布中可以灵活赋予原假设和备择假设不同的地位。