优化问题
优化问题的基本形式为:求最小值\(f(x)\),约束条件为\(x\in C\)。其中约束集\(C\)由等式约束、不等式约束以及一个额外的抽象集合约束\(X\)组成,即:
伪正规解
伪正规解定义
优化问题的一个可行向量\(x^{*}\)是伪正规的,如果找不到标量\(\lambda_1,\cdots,\lambda_m\),\(\mu_1,\cdots,\mu_r\)以及一个序列\(\{x^{k}\}\subset X\)使得:
-
\[(\sum_{i = 1}^{m}\lambda_{i}\nabla h_{i}(x^{*})+\sum_{j = 1}^{r}\mu_{j}\nabla g_{j}(x^{*}))\in N_{x}(x^{*})(负梯度组合“越界”,在法锥方向内)(1) \]
- \(\mu_{j}\geq0\)对于所有\(j = 1,\cdots,r\),并且\(\mu_{j}=0\)对于所有\(j\notin A(x^{*})\),其中\(A(x^{*}) = \{j|g_{j}(x^{*})\}\)(乘子规范,其中\(A(x)\)为活动约束);\((2)\)
- \(\{x^{k}\}\)收敛到\(x^{*}\)并且\(\sum_{i = 1}^{m}\lambda_{i}h_{i}(x^{k})+\sum_{j = 1}^{r}\mu_{j}g_{j}(x^{k})>0\),对\(\forall k\)(破坏了约束的可行性)。\((3)\)
其中第二点的不等式约束分析:
- 当\(g(x)<0\)时,约束\(g(x)\leq0\)不起作用,可直接通过条件\(\nabla f(x)=0\)来获得最优点,等价于将\(\lambda\)置零然后对\(\nabla_{x}L(x,\lambda)\)置零得到最优点。
- 当\(g(x)=0\)时,类似于等式约束的拉格朗日乘子法中等式约束的分析,即存在常数\(\lambda>0\)使得\(\nabla f(x^{*})+\lambda\nabla g(x^{*})=0\)。
特殊情况
当\(X=\mathbb{R}^{n}\)且无不等式约束时,\(x^{*}\)是伪正则的当且仅当以下两个条件之一成立:
- 梯度\(\nabla h_{i}(x^{*})\),其中\(i = 1,\cdots,m\),是线性无关的。
- 对于每一个非零的\(\lambda=(\lambda_1,\cdots,\lambda_m)\),若满足\(\sum_{i = 1}^{m}\lambda_{i}\nabla h_{i}(x^{*})=0\),那么过原点且法向量为\(\lambda\)的超平面包含在以\(x^{*}\)为球心的某个球内的所有\(x\)对应的向量\(h(x)\)。
优化问题的一些约束条件:constraint qualifications(CQ)
CQ1
\(X=\mathbb{R}^{n}\),且\(x^{*}\)满足线性无关约束规格(LICQ),即等式约束梯度\(\nabla h_{i}(x^{*})\)(\(i = 1,\cdots,m\))以及起作用的不等式约束梯度\(\nabla g_{j}(x^{*})\)(\(j\in A(x^{*})\))线性无关。
CQ2
\(X=\mathbb{R}^{n}\),等式约束梯度\(\nabla h_{i}(x^{*})\)(\(i = 1,\cdots,m\))线性无关,并且存在一个\(y\in\mathbb{R}^{n}\),使得$$\nabla h_{i}(x{*})y = 0\(,\)i = 1,\cdots,m\(,\)\nabla g_{j}(x{*})y<0,\forall j\in A(x^{*})$$。
CQ3
\(X=\mathbb{R}^{n}\),函数\(h_{i}\)(\(i = 1,\cdots,m\))是仿射函数,函数\(g_{j}\)(\(j = 1,\cdots,r\))是凹函数。
CQ4
\(X=\mathbb{R}^{n}\),对于某个整数\(\bar{r}<r\),约束集\(C\)的如下超集\(\bar{C}=\{x|h_{i}(x)=0,i = 1,\cdots,m,g_{j}(x)\leq0,j=\bar{r}+1,\cdots,r\}\)在\(x^{*}\)处是伪正规的。此外,存在一个\(y\in\mathbb{R}^{n}\),使得
CQ5
指标大于某个\(\bar{m}\leq m\)的等式约束:\(h_{i}(x)=0\),\(i=\bar{m}+1,\cdots,m\)是线性的。
不存在向量\(\lambda=(\lambda_1,\cdots,\lambda_m)\),使得\(-\sum_{i = 1}^{m}\lambda_{i}\nabla h_{i}(x^{*})\in N_{X}(x^{*})\)并且标量\(\lambda_1,\cdots,\lambda_{\bar{m}}\)中至少有一个不为零。
子空间\(V_{L}(x^{*})=\{y|\nabla h_{i}(x^{*})^{T}y = 0,i=\bar{m}+1,\cdots,m\}\)与\(N_{X}(x^{*})^{*}\)的内部有非空交集,或者,在\(X\)为凸集的情况下,与\(N_{X}(x^{*})^{*}\)的相对内部有非空交集。
存在\(y\in N_{X}(x^{*})^{*}\),使得\(\nabla h_{i}(x^{*})^{T}y = 0\),\(i = 1,\cdots,m\),\(\nabla g_{j}(x^{*})^{T}y<0\),\(\forall j\in A(x^{*})\)。
CQ6
\(W=\{(\lambda,\mu)|\lambda_1,\cdots,\lambda_m,\mu_1,\cdots,\mu_r\}\)满足伪正规性定义中的条件(i)和(ii)仅由原点\((0,0)\)组成。
一个重要的命题
对于优化问题,若其可行点\(x^*\)满足约束规格CQ1 - CQ6中的任意一个,则\(x^*\)是拟正则的。
证明思路: 不考虑CQ2,因为它是CQ5的特例。同样明显的是,CQ6意味着伪正规。
依次给出关于CQ1、CQ3、CQ4和CQ5这些情况的结果。在所有情况中,证明方法都是反证法。也就是说,我们假设存在标量\(\lambda_1, \ldots, \lambda_m\)以及\(\mu_1, \ldots, \mu_r\),它们满足拟正规性定义中的条件(i)-(iii)。然后,我们再假设约束规格CQ1、CQ3、CQ4和CQ5中的每一个依次也都满足,并且在每种情况下我们都会得出矛盾。
CQ1的证明方式:
因为\(X = \mathbb{R}^n\),这意味着\(N_X(x^*)=\{0\}\)。并且根据条件(ii),对于所有
\(j \notin A(x^*)\),有\(\mu_j = 0\)。于是我们可以将条件(i)写成:\(\sum_{i = 1}^{m} \lambda_i \nabla h_i(x^*) + \sum_{j \in A(x^*)} \mu_j \nabla g_j(x^*) = 0.\)
由于\(\nabla h_i(x^*) (i = 1,\ldots,m)\)和\(\nabla g_j(x^*) (j \in A(x^*))\)的线性无关性,这意味着对
所有的\(i\)有\(\lambda_i = 0\),且对所有\(j \in A(x^*)\)有\(\mu_j = 0\)。这一结果,再结合对所有
\(j \notin A(x^*)\)有\(\mu_j = 0\)的条件,与条件(iii)矛盾。
Farkas引理
定义
设\(A\in R^{m\times n},b\in R^{m}\),那么以下两个论断有且只有一个成立:
- 存在\(x\in R^{n}\))\(,使得\)Ax = b\(,且\)x\geq 0$。
- 存在\(y\in R^{m}\),使得\(A^{T}y\geq 0\),且(b^{T}y < 0)。
理解
几何解释:对于向量\(b\in R^{m}\),只可能存在两种互斥情况:(1) (b)在这个凸锥里。(2)(b)在这个凸锥外。
如果情况(1)成立,说明(b)属于\(\{a_{1},\cdots,a_{n}\}\)的conic hull,所以肯定能够找到一组非负的\(x_{1} ,\cdots,x_{n}\)使得\(b = x_{1}a_{1}+x_{2}a_{2}+\cdots+x_{n}a_{n}=Ax\)。这也就是定理中的情况(1)。
反之如果情况(2)成立,b在凸锥外面,能够找到一个过原点的超平面,使得b在一边,凸锥在另外一边。这个超平面法向量为\(y\in R^{m}\),因为\(\{a_{1},\cdots,a_{n}\}\)都在凸锥里面,所以
合并写成矩阵乘向量形式就是\(A^{T}y\geq 0\)。且此时\(b^{T}y = y^{T}b < 0\)。
增强Farkas引理
定理
设 \(a_1, \ldots, a_r\) 和 \(c\) 是 \(\mathbb{R}^n\) 中的已知向量,并且假设 \(c \neq 0\)。我们有
对于所有满足 \(a_j^T y \leq 0\), \(\forall j = 1, \ldots, r\) 的 \(y\),有 \(c^T y \leq 0\)
当且仅当存在非负组合 \(\mu_1, \ldots, \mu_r\) 以及一个向量 \(\bar{y} \in \mathbb{R}^n\) 使得
\(c^T \bar{y} > 0\),对于所有 \(\mu_j > 0\) 的 \(j\) 有 \(a_j^T \bar{y} > 0\),并且对于所有 \(\mu_j = 0\) 的 \(j\) 有 \(a_j^T \bar{y} \leq 0\)。
理解
其中 \(y\) 和 \(a_i\) 各自形成了一个凸锥,增强Farkas引理体现了原问题和对偶问题之间的关系。
表明在 \(a_i\) 凸锥内存在一个方向(由 \(\bar{y}\) 确定),使得 \(c\) 和所有对 \(c\) 的线性组合有贡献的向量 \(a_j\)(即 \(\mu_j > 0\) 的 \(a_j\))在这个方向上的投影都是正的,而没有贡献的向量 \(a_j\)(即 \(\mu_j = 0\) 的 \(a_j\))在这个方向上的投影是非正的。
争抢Farkas引理的证明利用了CQ3这一约束条件。
参考
Convex Analysis and Optimization - Dimitri P. Bertsekas
如何理解fakas引理
约束优化问题的最优性条件