引言

本节将介绍无约束优化问题，主要介绍无约束优化问题最优解的相关性质。

本节是关于以优化算法——无约束算法概述为首，优化算法——线搜索方法(二~九)的理论补充。

无约束优化问题

无约束优化问题的数学符号表示如下：
仅需要对目标函数进行最小化，没有可行域的条件限制。
$\min f(x)$
在实际问题中，很多问题可以被建模成无约束优化问题。例如：线性回归方法中的最小二乘估计问题。对应数学符号表示如下：
很明显，最小二乘函数 $\|\mathcal A x - b\|_2^2$ 明显是一个凸函数：其二次型系数矩阵 $\mathcal A^T\mathcal A$ 必然是半正定矩阵。
$\begin{aligned} f(x) & = \|\mathcal Ax - b\|_2^2 \\ & = (\mathcal Ax - b)^T(\mathcal Ax - b) \\ & = x^T [\mathcal A^T\mathcal A] x + b^T \mathcal A x - x^T \mathcal A^T b + b^Tb \end{aligned}$
因而该问题可以更精确地描述为无约束凸优化问题。
$\min \|\mathcal A x - b\|_2^2$

可以采用适当方法将约束优化问题转换为无约束优化问题。例如最优化问题概述中提到的罚函数法。

无约束优化问题最优解的定义

局部最优解：假设 $\bar{x}$ 是关于目标函数 $f(\cdot)$ 无约束优化问题的局部最优解，对于 $\forall x \in \mathcal N_\epsilon(\bar{x})$ ，必然有：
其中 $\mathcal N_{\epsilon}(\bar{x})$ 表示包含点 $\bar{x}$ ，并且使用 $\epsilon$ 表示范围的邻域。例如: $(\bar{x} - \epsilon,\bar{x} + \epsilon)$
$\geq f(\bar{x})$
全局最优解：相比于局部最优解，假设 $x^*$ 是关于目标函数 $f(\cdot)$ 无约束优化问题的全局最优解，对于 $\forall x \in \mathbb R^n$ ，必然有：
$\geq f(x^*)$
严格最优解：与凸函数：定义与基本性质中提到的严格凸函数类似，其核心是消除掉取等的情况。关于严格最优解，同样可以分为严格局部最优解与严格全局最优解。对应数学符号表示如下：
$\begin{cases} \forall x \in \mathbb R^n,x \neq x^* \Rightarrow f(x) > f(x^*) \\ \forall x \in \mathcal N_{\epsilon}(\bar{x}), x \neq \bar{x} \Rightarrow f(x) > f(\bar{x}) \end{cases}$
对应图像表示如下：

根据凸函数的定义可以看出， $f(\cdot),\mathcal G(\cdot)$ 都是凸函数。其中 $f(\cdot)$ 中描述的红色点是严格最优解；而红色点 $\mathcal G(x^*)$ 是最优解的条件下， $\exist x \neq x^* \Rightarrow f(x) = f(x^*)$ 。那么该函数的最优解不是严格最优解。

无约束优化问题的最优性条件

针对无约束优化问题 $\Rightarrow \min f(x)$ ：

无约束优化问题的充要条件

如果目标函数 $f (x)$ 是凸函数，则存在如下等价条件：
关于无约束凸优化问题,详细解释见最优化理论与方法——凸优化问题(上),这里不再赘述。
$x^* \text{ is Optimal } \Leftrightarrow \nabla f(x^*) = 0$

无约束优化问题的必要条件

如果目标函数 $f (x)$ 不是凸函数，只是一般函数，上述的充要条件不一定成立，但一定满足如下必要条件：

如果 $x^*$ 是最优解，那么它一定是平稳点；
如果 $f(\cdot)$ 在 $x^*$ 位置的 $\text{Hessian Matrix} \Rightarrow \nabla^2 f(x^*)$ 存在，那么该矩阵至少是半正定矩阵；如果将 $f(\cdot)$ 退化成一元函数,必然有： $f''(x^*) \geq 0$ 。
$x^* \text{ is Optimal } \Rightarrow \begin{cases} \nabla f(x^*) = 0 \\ \nabla^2 f(x^*) \succcurlyeq 0 \end{cases}$

证明：

已知 $x^*$ 是最优解，不妨设： $\nabla f(x^*) \neq 0$ ，必然存在负梯度方向： $\nabla f(x^*)$ 。
以 $x^*$ 为起始点，沿着负梯度方向前进较小的一段距离： $f(x^* + \lambda \cdot d)$ ，并将其进行泰勒展开：
思路：前进一小段距离后，必然会导致目标函数值下降;从而 $x^*$ 不是最优解了，产生矛盾。
$f(x^* + \lambda \cdot d) = f(x^*) + \frac{1}{1!} \lambda [\nabla f(x^*)]^Td + \mathcal O(\lambda \|d\|) \quad \lambda \in (0,1)$
经过整理，有：
关于 $\lambda$ 范围后面不再赘述。
$\frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} = [\nabla f(x^*)]^T d + \frac{\mathcal O(\lambda \|d\|)}{\lambda}$
将 $-\nabla f(x^*)$ 代入，必然有：
$[\nabla f(x^*)]^T d = - ||\nabla f(x^*)||^2 < 0$
当 $\lambda \Rightarrow 0$ 时，有：
$\mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} = \mathop{\lim}\limits_{\lambda \Rightarrow 0} \left\{\underbrace{[\nabla f(x^*)]^T d}_{< 0} + \underbrace{\frac{\mathcal O(\lambda \cdot \|d\|)}{\lambda}}_{=0}\right\} < 0$
从而：
$\mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} < 0 \Rightarrow \mathop{\lim}\limits_{\lambda \Rightarrow 0} f(x^* + \lambda \cdot d) < f(x^*)$
此时，发现了存在比 $f(x^*)$ 还要小的函数值 $f(x^* + \lambda \cdot d)$ ，这意味着： $x^*$ 不是最优解。与条件矛盾，得证。也将 $\nabla f(x^*) = 0$ 称作一般函数 $f(\cdot)$ $x^*$ 是最优解的一阶必要条件。
二阶必要条件证明：已知 $x^*$ 是最优解，必然有： $\nabla f(x^*) = 0$ 。假设 $x^*$ 位置的 $\text{Hessian Matrix} \Rightarrow \nabla^2 f(x^*)$ 低于半正定矩阵，必然有：
$\exist d \neq 0 \Rightarrow d^T \nabla^2 f(x^*) d < 0$
以 $x^*$ 为起始点， $d$ 为下降方向前进较小的一段距离： $f(x^* + \lambda \cdot d)$ ，并将其进行泰勒展开：
与平稳点的证明相似，只不过需要二阶泰勒展开~
$\begin{aligned} f(x^* + \lambda \cdot d) & = f(x^*) + \frac{1}{1!} \lambda \cdot \underbrace{[\nabla f(x^*)]^T}_{=0}d + \frac{1}{2!} \lambda \cdot d^T \nabla^2 f(x^*) d + \mathcal O(\lambda^2 \cdot \|d\|^2) \\ & = f(x^*) + \frac{1}{2!} \lambda \cdot d^T \nabla^2 f(x^*) d + \mathcal O(\lambda^2 \cdot \|d\|^2) \end{aligned}$
经过整理，并令 $\lambda \Rightarrow 0$ ，有：
$\mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda^2} = \frac{1}{2}\underbrace{d^T \nabla^2 f(x^*) d}_{<0} + \underbrace{\frac{\mathcal O(\lambda^2 \cdot \|d\|^2)}{\lambda^2}}_{=0} < 0$
从而 $f(x^* + \lambda \cdot d) < f(x^*)$ ，从而与条件矛盾。因此：最优解 $x^*$ 对应的 $\nabla^2 f(x^*) \succcurlyeq 0$ 恒成立。

相反，如果存在某点 $x^*$ ，使得： $\nabla f(x^*) = 0$ 且 $\nabla^2 f(x^*) \succcurlyeq 0$ ，那么点 $x^*$ 是否为最优解 $?$ 不一定。例如： $f(x) = x^3$ ，其函数图像表示如下：
x立方函数图像
在 $x = 0$ 处的梯度 $\nabla f(x)|_{x=0} = 0$ ；二阶梯度 $\nabla^2 f(x) |_{x = 0} = 0$ ，均满足条件；但该点是一个鞍点，而不是最优解点。

无约束优化问题的充分条件

如果 $f(\cdot)$ 不是凸函数，只是一般函数，如果存在某点 $x^*$ ，满足： $\nabla f(x^*) =0,\nabla^2 f(x^*) \succ 0$ ，那么 $x^*$ 是严格最优解；

其中 $\nabla^2 f(x^*) \succ 0$ 表示函数 $f(\cdot)$ 在 $x^*$ 点处的 $\text{Hessian Matrix}$ 是正定矩阵。
需要注意的是，这里的严格最优解可能是严格局部最优解或者严格全局最优解。

证明：
要证上式，即证： $\forall x \in \mathcal N_{\epsilon}(x^*),f(x^*) < f(x)$ 。

以 $x^*$ 为起始点，朝着任意方向 $d$ 前进较小的距离，得到新的函数结果： $f(x^* + \lambda \cdot d)$ 。观察： $f(x^* + \lambda \cdot d)$ 与 $f(x^*)$ 之间的大小情况。使用泰勒公式展开：
为了简单起见，仅关注 $d$ 的方向，而令 $d$ 大小 $\|d\| = 1$
$f(x^* + \lambda \cdot d) = f(x^*) + \frac{1}{1!} \lambda \cdot\underbrace{[\nabla f(x^*)]^T}_{=0} d + \frac{1}{2!} \lambda^2 d^T \underbrace{\nabla^2 f(x^*)}_{\succ 0}d + \mathcal O(\lambda^2) \quad \|d\|^2 = 1$
整理上式，观察 $f(x^* + \lambda \cdot d) - f(x^*)$ 结果：
$\mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda^2} = \frac{1}{2}d^T \nabla^2 f(x^*) d > 0$
从而 $f(x^* + \lambda \cdot d) > f(x^*)$ 。这意味着：在 $x^*$ 范围的小的邻域内， $f(x^*)$ 是最小值，并且是严格最小值，得证。