● Suppose random variable \(x\) obeys Laplace distribution, with pdf defined as
\(f(x) = \frac{1}{2\lambda} e^{-\frac{|x-\mu|}{\lambda}}\)
● Assume that we have a number of examples \(X = \{x_1, x_2, \dots, x_N\}\) drawn independently from the distribution, where the scale parameter \(\lambda\) is known, what is the Maximum Likelihood estimate of the location parameter \(\mu\)?
证明:
已知拉普拉斯分布的概率密度函数为:
\(f(x) = \frac{1}{2\lambda} e^{-\frac{|x - \mu|}{\lambda}}\)
对于 \(N\) 个独立观测值 \(x_1, x_2, ..., x_N\),似然函数 \(L(\mu)\) 是:
\(L(\mu) = \prod_{i=1}^{N} f(x_i) = \left(\frac{1}{2\lambda}\right)^N \exp\left(-\frac{1}{\lambda} \sum_{i=1}^{N} |x_i - \mu|\right)\)
对似然函数取对数,得到对数似然函数:
\(\ell(\mu) = \ln L(\mu) = N \ln \left(\frac{1}{2\lambda}\right) - \frac{1}{\lambda} \sum_{i=1}^{N} |x_i - \mu|\)
为了最大化 \(\ell(\mu)\),等价于最小化:
\(\sum_{i=1}^{N} |x_i - \mu|\)
我们考虑目标函数 \(g(\mu) = \sum_{i=1}^{N} |x_i - \mu|\),我们的目标是找出 \(\mu\) 使得 \(g(\mu)\) 最小。
观察 \(g(\mu)\) 的性质:
● \(g(\mu)\) 是一个关于 \(\mu\) 的分段线性函数,因为每一项 \(|x_i - \mu|\) 在 \(\mu = x_i\) 处改变斜率。
● 当 \(\mu\) 从负无穷大到正无穷大时,每当 \(\mu\) 越过一个 \(x_i\),函数 \(g(\mu)\) 的斜率都会发生变化。
推导斜率的变化:
假设 \(x_1, x_2, ..., x_N\) 是排序后的样本数据(从小到大排序)。考虑以下情况:
● 当 \(\mu < x_1\) 时,\(g(\mu)\) 的导数为 \(-N\)。
● 当 \(x_1 \leq \mu < x_2\) 时,\(g(\mu)\) 的导数变为 \(-N + 2\)。
● 当 \(x_k \leq \mu < x_{k+1}\) 时,\(g(\mu)\) 的导数为 \(-N + 2k\)。
我们可以看出,当 \(\mu\) 越过数据点 \(x_i\) 时,导数的变化方向会逐渐增加。特别地:
● 当 \(\mu\) 到达样本的中位数时(即 \(x_{\lceil N/2 \rceil}\) 或 \(x_{\lfloor N/2 \rfloor}\)),导数从负变正。这意味着 \(g(\mu)\) 在这个点取得最小值。
因此,最大化似然函数(或最小化负对数似然函数)对应于将 \(\mu\) 选择为样本的中位数。
这就证明了拉普拉斯分布中,最大似然估计的位置参数 \(\mu\) 为样本的中位数。