机器学习笔记之最优化理论与方法(六)无约束优化问题——最优性条件

机器学习笔记之最优化理论与方法——无约束优化问题[最优性条件]

  • 引言
    • 无约束优化问题
      • 无约束优化问题最优解的定义
    • 无约束优化问题的最优性条件
      • 无约束优化问题的充要条件
      • 无约束优化问题的必要条件
      • 无约束优化问题的充分条件

引言

本节将介绍无约束优化问题,主要介绍无约束优化问题最优解的相关性质

本节是关于以优化算法——无约束算法概述为首,优化算法——线搜索方法(二~九)的理论补充。

无约束优化问题

无约束优化问题的数学符号表示如下:
仅需要对目标函数进行最小化,没有可行域的条件限制。
min ⁡ f ( x ) \min f(x) minf(x)
在实际问题中,很多问题可以被建模成无约束优化问题。例如:线性回归方法中的最小二乘估计问题。对应数学符号表示如下:
很明显,最小二乘函数 ∥ A x − b ∥ 2 2 \|\mathcal A x - b\|_2^2 Axb22明显是一个凸函数:其二次型系数矩阵 A T A \mathcal A^T\mathcal A ATA必然是半正定矩阵
f ( x ) = ∥ A x − b ∥ 2 2 = ( A x − b ) T ( A x − b ) = x T [ A T A ] x + b T A x − x T A T b + b T b \begin{aligned} f(x) & = \|\mathcal Ax - b\|_2^2 \\ & = (\mathcal Ax - b)^T(\mathcal Ax - b) \\ & = x^T [\mathcal A^T\mathcal A] x + b^T \mathcal A x - x^T \mathcal A^T b + b^Tb \end{aligned} f(x)=Axb22=(Axb)T(Axb)=xT[ATA]x+bTAxxTATb+bTb
因而该问题可以更精确地描述为无约束凸优化问题
min ⁡ ∥ A x − b ∥ 2 2 \min \|\mathcal A x - b\|_2^2 minAxb22

可以采用适当方法约束优化问题转换为无约束优化问题。例如最优化问题概述中提到的罚函数法。

无约束优化问题最优解的定义

  • 局部最优解 :假设 x ˉ \bar{x} xˉ是关于目标函数 f ( ⋅ ) f(\cdot) f()无约束优化问题的局部最优解,对于 ∀ x ∈ N ϵ ( x ˉ ) \forall x \in \mathcal N_\epsilon(\bar{x}) xNϵ(xˉ),必然有:
    其中 N ϵ ( x ˉ ) \mathcal N_{\epsilon}(\bar{x}) Nϵ(xˉ)表示包含点 x ˉ \bar{x} xˉ,并且使用 ϵ \epsilon ϵ表示范围的邻域。例如: ( x ˉ − ϵ , x ˉ + ϵ ) (\bar{x} - \epsilon,\bar{x} + \epsilon) (xˉϵ,xˉ+ϵ)
    f ( x ) ≥ f ( x ˉ ) f(x) \geq f(\bar{x}) f(x)f(xˉ)
  • 全局最优解:相比于局部最优解,假设 x ∗ x^* x是关于目标函数 f ( ⋅ ) f(\cdot) f()无约束优化问题的全局最优解,对于 ∀ x ∈ R n \forall x \in \mathbb R^n xRn,必然有:
    f ( x ) ≥ f ( x ∗ ) f(x) \geq f(x^*) f(x)f(x)
  • 严格最优解:与凸函数:定义与基本性质中提到的严格凸函数类似,其核心是消除掉取等的情况。关于严格最优解,同样可以分为严格局部最优解严格全局最优解。对应数学符号表示如下:
    { ∀ x ∈ R n , x ≠ x ∗ ⇒ f ( x ) > f ( x ∗ ) ∀ x ∈ N ϵ ( x ˉ ) , x ≠ x ˉ ⇒ f ( x ) > f ( x ˉ ) \begin{cases} \forall x \in \mathbb R^n,x \neq x^* \Rightarrow f(x) > f(x^*) \\ \forall x \in \mathcal N_{\epsilon}(\bar{x}), x \neq \bar{x} \Rightarrow f(x) > f(\bar{x}) \end{cases} {xRn,x=xf(x)>f(x)xNϵ(xˉ),x=xˉf(x)>f(xˉ)
    对应图像表示如下:
    最优解与严格最优解
    根据凸函数的定义可以看出, f ( ⋅ ) , G ( ⋅ ) f(\cdot),\mathcal G(\cdot) f(),G()都是凸函数。其中 f ( ⋅ ) f(\cdot) f()中描述的红色点是严格最优解;而红色点 G ( x ∗ ) \mathcal G(x^*) G(x)是最优解的条件下, ∃ x ≠ x ∗ ⇒ f ( x ) = f ( x ∗ ) \exist x \neq x^* \Rightarrow f(x) = f(x^*) x=xf(x)=f(x)。那么该函数的最优解不是严格最优解

无约束优化问题的最优性条件

针对无约束优化问题 ⇒ min ⁡ f ( x ) \Rightarrow \min f(x) minf(x)

无约束优化问题的充要条件

如果目标函数 f ( x ) f(x) f(x)凸函数,则存在如下等价条件
关于无约束凸优化问题,详细解释见最优化理论与方法——凸优化问题(上),这里不再赘述。
x ∗ is Optimal  ⇔ ∇ f ( x ∗ ) = 0 x^* \text{ is Optimal } \Leftrightarrow \nabla f(x^*) = 0 x is Optimal f(x)=0

无约束优化问题的必要条件

如果目标函数 f ( x ) f(x) f(x)不是凸函数,只是一般函数,上述的充要条件不一定成立,但一定满足如下必要条件

  • 如果 x ∗ x^* x是最优解,那么它一定是平稳点
  • 如果 f ( ⋅ ) f(\cdot) f() x ∗ x^* x位置的 Hessian Matrix ⇒ ∇ 2 f ( x ∗ ) \text{Hessian Matrix} \Rightarrow \nabla^2 f(x^*) Hessian Matrix2f(x)存在,那么该矩阵至少是半正定矩阵如果将 f ( ⋅ ) f(\cdot) f()退化成一元函数,必然有: f ′ ′ ( x ∗ ) ≥ 0 f''(x^*) \geq 0 f′′(x)0
    x ∗ is Optimal  ⇒ { ∇ f ( x ∗ ) = 0 ∇ 2 f ( x ∗ ) ≽ 0 x^* \text{ is Optimal } \Rightarrow \begin{cases} \nabla f(x^*) = 0 \\ \nabla^2 f(x^*) \succcurlyeq 0 \end{cases} x is Optimal {f(x)=02f(x)0

证明

  • 已知 x ∗ x^* x最优解不妨设 ∇ f ( x ∗ ) ≠ 0 \nabla f(x^*) \neq 0 f(x)=0,必然存在负梯度方向: d = − ∇ f ( x ∗ ) d = - \nabla f(x^*) d=f(x)
    x ∗ x^* x起始点,沿着负梯度方向前进较小的一段距离: f ( x ∗ + λ ⋅ d ) f(x^* + \lambda \cdot d) f(x+λd),并将其进行泰勒展开
    思路:前进一小段距离后,必然会导致目标函数值下降;从而 x ∗ x^* x不是最优解了,产生矛盾。
    f ( x ∗ + λ ⋅ d ) = f ( x ∗ ) + 1 1 ! λ [ ∇ f ( x ∗ ) ] T d + O ( λ ∥ d ∥ ) λ ∈ ( 0 , 1 ) f(x^* + \lambda \cdot d) = f(x^*) + \frac{1}{1!} \lambda [\nabla f(x^*)]^Td + \mathcal O(\lambda \|d\|) \quad \lambda \in (0,1) f(x+λd)=f(x)+1!1λ[f(x)]Td+O(λd)λ(0,1)
    经过整理,有:
    关于 λ \lambda λ范围后面不再赘述。
    f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) λ = [ ∇ f ( x ∗ ) ] T d + O ( λ ∥ d ∥ ) λ \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} = [\nabla f(x^*)]^T d + \frac{\mathcal O(\lambda \|d\|)}{\lambda} λf(x+λd)f(x)=[f(x)]Td+λO(λd)
    d = − ∇ f ( x ∗ ) d = -\nabla f(x^*) d=f(x)代入,必然有:
    [ ∇ f ( x ∗ ) ] T d = − ∣ ∣ ∇ f ( x ∗ ) ∣ ∣ 2 < 0 [\nabla f(x^*)]^T d = - ||\nabla f(x^*)||^2 < 0 [f(x)]Td=∣∣∇f(x)2<0
    λ ⇒ 0 \lambda \Rightarrow 0 λ0时,有:
    lim ⁡ λ ⇒ 0 f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) λ = lim ⁡ λ ⇒ 0 { [ ∇ f ( x ∗ ) ] T d ⏟ < 0 + O ( λ ⋅ ∥ d ∥ ) λ ⏟ = 0 } < 0 \mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} = \mathop{\lim}\limits_{\lambda \Rightarrow 0} \left\{\underbrace{[\nabla f(x^*)]^T d}_{< 0} + \underbrace{\frac{\mathcal O(\lambda \cdot \|d\|)}{\lambda}}_{=0}\right\} < 0 λ0limλf(x+λd)f(x)=λ0lim <0 [f(x)]Td+=0 λO(λd) <0
    从而:
    lim ⁡ λ ⇒ 0 f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) λ < 0 ⇒ lim ⁡ λ ⇒ 0 f ( x ∗ + λ ⋅ d ) < f ( x ∗ ) \mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda} < 0 \Rightarrow \mathop{\lim}\limits_{\lambda \Rightarrow 0} f(x^* + \lambda \cdot d) < f(x^*) λ0limλf(x+λd)f(x)<0λ0limf(x+λd)<f(x)
    此时,发现了存在比 f ( x ∗ ) f(x^*) f(x)还要小的函数值 f ( x ∗ + λ ⋅ d ) f(x^* + \lambda \cdot d) f(x+λd),这意味着: x ∗ x^* x不是最优解。与条件矛盾,得证。也将 ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 f(x)=0称作一般函数 f ( ⋅ ) f(\cdot) f() x ∗ x^* x是最优解的一阶必要条件
  • 二阶必要条件证明:已知 x ∗ x^* x是最优解,必然有: ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 f(x)=0。假设 x ∗ x^* x位置的 Hessian Matrix ⇒ ∇ 2 f ( x ∗ ) \text{Hessian Matrix} \Rightarrow \nabla^2 f(x^*) Hessian Matrix2f(x)低于半正定矩阵,必然有:
    ∃ d ≠ 0 ⇒ d T ∇ 2 f ( x ∗ ) d < 0 \exist d \neq 0 \Rightarrow d^T \nabla^2 f(x^*) d < 0 d=0dT2f(x)d<0
    x ∗ x^* x起始点 d d d下降方向前进较小的一段距离: f ( x ∗ + λ ⋅ d ) f(x^* + \lambda \cdot d) f(x+λd),并将其进行泰勒展开
    与平稳点的证明相似,只不过需要二阶泰勒展开~
    f ( x ∗ + λ ⋅ d ) = f ( x ∗ ) + 1 1 ! λ ⋅ [ ∇ f ( x ∗ ) ] T ⏟ = 0 d + 1 2 ! λ ⋅ d T ∇ 2 f ( x ∗ ) d + O ( λ 2 ⋅ ∥ d ∥ 2 ) = f ( x ∗ ) + 1 2 ! λ ⋅ d T ∇ 2 f ( x ∗ ) d + O ( λ 2 ⋅ ∥ d ∥ 2 ) \begin{aligned} f(x^* + \lambda \cdot d) & = f(x^*) + \frac{1}{1!} \lambda \cdot \underbrace{[\nabla f(x^*)]^T}_{=0}d + \frac{1}{2!} \lambda \cdot d^T \nabla^2 f(x^*) d + \mathcal O(\lambda^2 \cdot \|d\|^2) \\ & = f(x^*) + \frac{1}{2!} \lambda \cdot d^T \nabla^2 f(x^*) d + \mathcal O(\lambda^2 \cdot \|d\|^2) \end{aligned} f(x+λd)=f(x)+1!1λ=0 [f(x)]Td+2!1λdT2f(x)d+O(λ2d2)=f(x)+2!1λdT2f(x)d+O(λ2d2)
    经过整理,并令 λ ⇒ 0 \lambda \Rightarrow 0 λ0,有:
    lim ⁡ λ ⇒ 0 f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) λ 2 = 1 2 d T ∇ 2 f ( x ∗ ) d ⏟ < 0 + O ( λ 2 ⋅ ∥ d ∥ 2 ) λ 2 ⏟ = 0 < 0 \mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda^2} = \frac{1}{2}\underbrace{d^T \nabla^2 f(x^*) d}_{<0} + \underbrace{\frac{\mathcal O(\lambda^2 \cdot \|d\|^2)}{\lambda^2}}_{=0} < 0 λ0limλ2f(x+λd)f(x)=21<0 dT2f(x)d+=0 λ2O(λ2d2)<0
    从而 f ( x ∗ + λ ⋅ d ) < f ( x ∗ ) f(x^* + \lambda \cdot d) < f(x^*) f(x+λd)<f(x),从而与条件矛盾。因此:最优解 x ∗ x^* x对应的 ∇ 2 f ( x ∗ ) ≽ 0 \nabla^2 f(x^*) \succcurlyeq 0 2f(x)0恒成立。

相反,如果存在某点 x ∗ x^* x,使得: ∇ f ( x ∗ ) = 0 \nabla f(x^*) = 0 f(x)=0 ∇ 2 f ( x ∗ ) ≽ 0 \nabla^2 f(x^*) \succcurlyeq 0 2f(x)0,那么点 x ∗ x^* x是否为最优解 ? ? ?不一定。例如: f ( x ) = x 3 f(x) = x^3 f(x)=x3,其函数图像表示如下:
x立方函数图像
x = 0 x = 0 x=0处的梯度 ∇ f ( x ) ∣ x = 0 = 0 \nabla f(x)|_{x=0} = 0 f(x)x=0=0二阶梯度 ∇ 2 f ( x ) ∣ x = 0 = 0 \nabla^2 f(x) |_{x = 0} = 0 2f(x)x=0=0,均满足条件;但该点是一个鞍点,而不是最优解点。

无约束优化问题的充分条件

如果 f ( ⋅ ) f(\cdot) f()不是凸函数,只是一般函数,如果存在某点 x ∗ x^* x,满足: ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) ≻ 0 \nabla f(x^*) =0,\nabla^2 f(x^*) \succ 0 f(x)=0,2f(x)0,那么 x ∗ x^* x严格最优解

  • 其中 ∇ 2 f ( x ∗ ) ≻ 0 \nabla^2 f(x^*) \succ 0 2f(x)0表示函数 f ( ⋅ ) f(\cdot) f() x ∗ x^* x点处的 Hessian Matrix \text{Hessian Matrix} Hessian Matrix正定矩阵
  • 需要注意的是,这里的严格最优解可能是严格局部最优解或者严格全局最优解

证明
要证上式,即证: ∀ x ∈ N ϵ ( x ∗ ) , f ( x ∗ ) < f ( x ) \forall x \in \mathcal N_{\epsilon}(x^*),f(x^*) < f(x) xNϵ(x),f(x)<f(x)

  • x ∗ x^* x起始点,朝着任意方向 d d d前进较小的距离,得到新的函数结果: f ( x ∗ + λ ⋅ d ) f(x^* + \lambda \cdot d) f(x+λd)。观察: f ( x ∗ + λ ⋅ d ) f(x^* + \lambda \cdot d) f(x+λd) f ( x ∗ ) f(x^*) f(x)之间的大小情况。使用泰勒公式展开
    为了简单起见,仅关注 d d d的方向,而令 d d d大小 ∥ d ∥ = 1 \|d\| = 1 d=1
    f ( x ∗ + λ ⋅ d ) = f ( x ∗ ) + 1 1 ! λ ⋅ [ ∇ f ( x ∗ ) ] T ⏟ = 0 d + 1 2 ! λ 2 d T ∇ 2 f ( x ∗ ) ⏟ ≻ 0 d + O ( λ 2 ) ∥ d ∥ 2 = 1 f(x^* + \lambda \cdot d) = f(x^*) + \frac{1}{1!} \lambda \cdot\underbrace{[\nabla f(x^*)]^T}_{=0} d + \frac{1}{2!} \lambda^2 d^T \underbrace{\nabla^2 f(x^*)}_{\succ 0}d + \mathcal O(\lambda^2) \quad \|d\|^2 = 1 f(x+λd)=f(x)+1!1λ=0 [f(x)]Td+2!1λ2dT0 2f(x)d+O(λ2)d2=1
    整理上式,观察 f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) f(x^* + \lambda \cdot d) - f(x^*) f(x+λd)f(x)结果:
    lim ⁡ λ ⇒ 0 f ( x ∗ + λ ⋅ d ) − f ( x ∗ ) λ 2 = 1 2 d T ∇ 2 f ( x ∗ ) d > 0 \mathop{\lim}\limits_{\lambda \Rightarrow 0} \frac{f(x^* + \lambda \cdot d) - f(x^*)}{\lambda^2} = \frac{1}{2}d^T \nabla^2 f(x^*) d > 0 λ0limλ2f(x+λd)f(x)=21dT2f(x)d>0
    从而 f ( x ∗ + λ ⋅ d ) > f ( x ∗ ) f(x^* + \lambda \cdot d) > f(x^*) f(x+λd)>f(x)。这意味着: x ∗ x^* x范围的小的邻域内, f ( x ∗ ) f(x^*) f(x)是最小值,并且是严格最小值,得证。

Reference \text{Reference} Reference
最优化理论与方法-第五讲-无约束优化问题(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/97999.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 整合 Shiro(后端)

1 Shiro 什么是 Shiro 官网&#xff1a; http://shiro.apache.org/ 是一款主流的 Java 安全框架&#xff0c;不依赖任何容器&#xff0c;可以运行在 Java SE 和 Java EE 项目中&#xff0c;它的主要作用是对访问系统的用户进行身份认证、 授权、会话管理、加密等操作。 …

avue实现用户本地保存自定义配置字段属性及注意事项(基于tj-vue2-tools)

avue实现用户本地保存自定义配置字段属性及注意事项&#xff08;基于tj-vue2-tools&#xff09; tj-vue2-tools项目地址&#xff1a;https://www.npmjs.com/package/tj-vue2-tools 文档请看项目官方 依赖js-base64 安装依赖 npm install js-base64安装 npm install tj-vue2-t…

Python综合案例(基本地图使用)

一、基本地图的使用 基本代码&#xff1a; """ 演示地图可视化的基本使用 """ from pyecharts.charts import Map from pyecharts.options import VisualMapOpts# 准备地图对象 map Map() # 准备数据 data [("北京", 99),("…

02-Flask-对象初始化参数

对象初始化参数 前言对象初始化参数import_namestatic_url_pathstatic_foldertemplate_floder 前言 本篇来学习Flask中对象初始化参数 对象初始化参数 import_name Flask程序所在的包(模块)&#xff0c;传__name__就可以 _name_ 是一个标识 Python 模块的名字的变量&#x…

网络协议从入门到底层原理学习(一)—— 简介及基本概念

文章目录 网络协议从入门到底层原理学习&#xff08;一&#xff09;—— 简介及基本概念一、简介1、网络协议的定义2、网络协议组成要素3、广泛的网络协议类型网络通信协议网络安全协议网络管理协议 4、网络协议模型对比图 二、基本概念1、网络互连模型2、计算机之间的通信基础…

配置本地maven

安装maven安装包 修改环境变量 vim ~/.bash_profile export JMETER_HOME/Users/yyyyjinying/apache-jmeter-5.4.1 export GOROOT/usr/local/go export GOPATH/Users/yyyyjinying/demo-file/git/backend/go export GROOVY_HOME/Users/yyyyjinying/sortware/groovy-4.0.14 exp…

百度低质量站点怎么办?解决百度低质量站点的方法和工具

百度低质量站点怎么恢复&#xff1f;这是许多网站主和运营人员在SEO优化过程中经常面临的一个问题。百度作为中国最大的搜索引擎&#xff0c;对于网站收录和排名具有至关重要的影响。然而&#xff0c;由于各种原因&#xff0c;有些网站可能面临被百度降权或收录减少的情况。那么…

IDea寻找冲突的依赖包

场景&#xff1a;boot项目运行时&#xff0c;提示log4j2依赖包冲突。 SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/maven/repository/ch/qos/logback/logback-classic/1.2.3/logback-classic-1.2.3.jar!/org/slf4j/impl/Stati…

AIGC专栏5——EasyPhoto AI写真照片生成器 sd-webui插件介绍、安装与使用

AIGC专栏5——EasyPhoto AI写真照片生成器 插件安装与使用 学习前言源码下载地址技术原理储备&#xff08;SD/Control/Lora&#xff09;StableDiffusionControlNetLora EasyPhoto插件简介EasyPhoto插件安装安装方式一&#xff1a;Webui界面安装 &#xff08;需要良好的网络&…

stable diffusion实践操作-大模型介绍-SDXL1大模型

系列文章目录 大家移步下面链接中&#xff0c;里面详细介绍了stable diffusion的原理&#xff0c;操作等&#xff08;本文只是下面系列文章的一个写作模板&#xff09;。 stable diffusion实践操作 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生…

【Linux】高级IO和多路转接 | select/poll/epoll

多路转接和高级IO 咳咳&#xff0c;写的时候出了点问题&#xff0c;标点符号全乱了&#xff08;批量替换了几次&#xff09;&#xff0c;干脆就把全文的逗号和句号都改成英文的了&#xff08;不然代码块里面的代码都是中文标点就跑不动了&#xff09; 1.高级IO 1.1 五种IO模型…

RK3568-android11-适配ov13850摄像头

参考链接 https://blog.csdn.net/daocaokafei/article/details/127621511硬件连接 主要分为两部分: mipi接口:传输摄像头数据 i2c接口:配置摄像头和对焦马达芯片寄存器Camera engine基本框架 driver layer:驱动层 Engine layer:引擎层,包括core engine库(librkisp.so)…