学习理论:预测器-拒绝器多分类弃权学习

news/2025/2/22 10:49:59/文章来源:https://www.cnblogs.com/orion-orion/p/18730657

目前确定去京大读博了,预计方向是学习理论(Learning Theory)。熟悉我的朋友可能知道,虽然我读研期间的方向主要是联邦学习和推荐系统,但是我也会更新一些理论相关的博客,因为我确实对理论方向比较感兴趣。目前准备10月份左右入学,在这之前接受导师的线上指导开始科研。现在就以以这篇博客做为我PhD科研的开始吧(#^.^#)。

1 导引

弃权学习(learning with abstention) [1]主要是为了使分类器在学习过程中可能出现的误导性或者不正确的信息时(这常被称为“幻觉”),能够对做出预测进行弃权。目前,弃权学习的方法主要可以分为以下几种:

  • 基于置信度的方法(confidence-based methods)。这种方法在预训练模型返回的分数低于某个阈值\(\theta\)时弃权。
  • 选择性分类(selective classification)。设置一个预测器和一个选择器,并定义被期望的选择或收敛度归一化的选择风险或损失。
  • 预测器-拒绝器公式(predictor-rejector formulation)。同时学习一个预测器和一个拒绝器,它们来自不同的函数族,这种方法显式地考虑了弃权花费\(c\),当学习器弃权时将导致大小为\(c\)的损失;
  • 基于分数的公式(score-based formulation)。对多分类类别进行增广(多一个拒绝标签类型),当分配给拒绝标签的分数最高时进行弃权。

本文关注预测器-拒绝器公式,也即显式地建模弃权花费的一种方法。那么该如何对多分类弃权问题进行形式化,什么时候适合弃权呢?

我们先来考虑有监督二分类弃权学习场景。在这种场景中标签为\(\mathcal{Y}=\{-1, +1\}\),样本独立同分布地采样自\(\mathcal{X}\times \mathcal{Y}\)空间上的固定未知分布\(\mathcal{D}\)。给定实例\(x\in \mathcal{X}\),学习器若选择对预测\(x\)的标签进行弃权,则产生一个损失\(c(x) \in [0, 1]\)做为代价;否则,使用预测器\(h\)做出预测\(h(x)\)并产生一个标准的0-1损失\(\mathbb{I}_{yh(x)\leqslant 0}\)(其中\(y\)为真实标签)。由于随机猜测可以达到\(\frac{1}{2}\)的期望代价,拒绝操作只有在\(c(x) < \frac{1}{2}\)时是合理的。

我们使用\((h, r)\)来建模学习器,其中函数\(r: \mathcal{X} \rightarrow \mathbb{R}\)使得点\(x\in \mathcal{X}\)\(r(x)\leqslant 0\)时被拒绝,假设\(h: \mathcal{X} \rightarrow \mathbb{R}\)预测未被拒绝的点的标签(体现为\(h(x)\)的正负)。对任意\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\((h, r)\)的弃权损失[2]定义如下:

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{yh(x)\leqslant 0}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c(x) \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

假定对于学习器来说弃权花费\(c(x)\)是已知的。在接下来的分析中,我们假设\(c\)是一个常值函数,但我们的部分分析可以应用于更普遍的情况。

\(\mathcal{H}\)\(\mathcal{R}\)为两个从\(\mathcal{X}\)\(\mathbb{R}\)的函数构成的函数族。此外,我们假设带标签样本\(S=((x_1, y_1), \cdots, (x_m, y_m))\)独立同分布地采自\(\mathcal{D}^m\)。则学习问题即为确定一个\((h, r)\in \mathcal{H}\times \mathcal{R}\)以使得下列期望弃权损失\(R(h, r)\)尽可能小:

\[R_{L_{\text{abst}}}(h, r) = \mathbb{E}_{(x, y)\sim \mathcal{D}}L_{\text{abst}}(h, r, x, y) \]

对于大多数假设集而言,优化上述期望弃权损失\(R_{L_{\text{abst}}}(h, r)\)是难以处理的(intractable)。因此,在这种情况下学习算法需要依赖于代理损失(surrogate loss )。那么,一个重要问题就是什么种类的代理损失能够被用于替代目标弃权损失。直觉上,一个代理损失需要易于优化,且其最小化会导向目标损失的最小化。术语校准(calibration) 就用于定义这样一种损失函数,这种损失函数能够确保风险最小化的预测器能够成为贝叶斯最优分类器。下图直观地展现了校准的代理损失的性质[4](其中目标损失\(\phi_{\text{01}}\)是二分类中常见的0-1损失,\(\phi\)是其代理损失):

出于理论分析目的,直接定义预测器和拒绝器的校准更为方便(基于它们是否是贝叶斯最优的)。因此,我们定义如下关于校准的符号:

定义 1 预测器-拒绝器的校准 我们称\((h, r): \mathcal{X}\rightarrow \mathbb{R}\times \mathbb{R}\)是校准的,如果\(R_{L_{\text{abst}}}(h, r) = R_{L_{\text{abst}}}(h^*, r^*)\)

在本文中,我们分别考虑预测器和拒绝器的校准,这使得我们更好地理解带拒绝分类的难度来自于何处。

定义 2 预测器的分类校准 我们称\(h: \mathcal{X}\rightarrow \mathcal{Y}\)是预测-校准的,如果\(h(x) = h^*(x)\)\(\mathcal{X}\)上几乎处处成立。

定义 3 拒绝器的拒绝校准 我们称\(r: \mathcal{X}\rightarrow \mathbb{R}\)是拒绝-校准的,如果\(\text{sign}[r(x)] = \text{sign}[r^*(x)]\)对所有满足\(r^*(x) \neq 0\)\(x\in \mathcal{X}\)成立。

通过这些定义与损失函数\(L_{\text{abst}}\)的形式可以看到,如果\(h\)是预测-校准的且\(r\)是拒绝-校准的,则\((h, r)\)是校准的。

如下列的代理损失\(L_{\text{PB}}(h, r, x, y)\)

\[L_{\text{PB}}(h, r, x, y) = \widetilde{\phi} (\alpha [yh(x) - r(x)]) + c\phi (\beta r(x)) \]

这里\(\widetilde{\phi}\)\(\phi\)\(\mathbb{I}_{[z\leqslant 0]}\)的凸上界。通过选择适当的参数\(\alpha, \beta > 0\),Cortes等人[2]基于指数损失\(\widetilde{\phi}(z) = \phi(z) = \exp (-z)\)导出了一个校准的结果。然而,Ni等人[3]指出,这个代理损失只在二分类的情况下可行,想要将这个代理损失扩展到多分类的情况下是有挑战性的,于是转而采用基于置信度分数的方法来处理多分类的情况。

本文作者尝试在多分类的情况下,为预测器-拒绝器框架下的弃权学习定义贝叶斯一致的代理损失[1]。具体地,本文作者引入了一些新的代理损失族并为其证明了强的非渐近和假设集特定的一致性保障。这些保障为弃权损失函数的估计误差提供了代理损失形式的凸上界。

在本文中,我们将在两种不同的设置下讨论预测器-拒绝器弃权代理损失,分别是单阶段两阶段。在单阶段的设置下,预测器和拒绝器同时学习;而在两阶段的设置下(在实际应用中很重要),在第一阶段中预测器使用标准的代理损失(例如交叉熵损失)来学习(例如大的预训练模型),然后在第二阶段预测器被固定,只需要学习拒绝器。

我们会为一些预测器-拒绝器框架中的弃权代理损失\(L\)证明 \((\mathcal{H}, \mathcal{R})\) - 一致性界(\((\mathcal{H}, \mathcal{R})\) -consistency bound)。这些不等式给出了关于假设\(h\in \mathcal{H}\)和拒绝器\(r \in \mathcal{R}\)的预测器-拒绝器弃权损失\(L_{\text{abst}}\)的上界(以它们的弃权代理损失\(L\)形式)。它们满足下列形式:

\((\mathcal{H}, \mathcal{R})\) - 一致性界

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) \leqslant f(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R})) \]

这里\(f\)是非递减函数。因此,当代理估计误差\(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R})\)减少到\(\epsilon\)时,估计误差\((R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}^{*}}(\mathcal{H}, \mathcal{R}))\)会被\(f(\epsilon)\)所界定。在这些界中会出现的一个重要的项为最小化能力差距(minimizability gap),其定义为\(M_{L}(\mathcal{H}, \mathcal{R}) = R_{L}^{*}(\mathcal{H}, \mathcal{R}) - \mathbb{E}_x[\inf_{h\in \mathcal{H}, r\in \mathcal{R}}\mathbb{E}_{y}[L(h, r, X, y)\mid X = x]]\)。当损失函数\(L\)只依赖于\(h(x)\)\(r(x)\)(对在大多数应用中使用的损失函数都成立),且当\(\mathcal{H}\)\(\mathcal{R}\)包括了所有可测函数时,最小化能力差距为0。然而,它对于受限的假设集\(\mathcal{H}\)\(\mathcal{R}\)一般是非0的。最小化能力差距能够被近似误差 (approximation error)\(\mathcal{A}_{L}(\mathcal{H}, \mathcal{R}) = R_{L}^{*}(\mathcal{H}, \mathcal{R}) - \mathbb{E}_x[\inf_{h, r}\mathbb{E}_{y}[L(h, r, X, y)\mid X = x]]\)所界定,这里下界取遍所有可测函数。但是,最小化能力差距是个更好的量并导出更好的理论保障。

2 单阶段预测器-拒绝器代理损失

在多分类情形下,标签\(\mathcal{Y} = \{1, \cdots, n\}\)\(n\geqslant 2\))。我们取\(h(x) = \argmax_{y\in \mathcal{Y}} {[h(x)]}_y\)。则类比二分类情形,对于多分类问题,我们同样可以定义如下的预测器-拒绝器弃权损失:

\[L_{\text{abst}}(h, r, x, y) = \underbrace{\mathbb{I}_{h(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c(x) \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

注意,和之前二分类情况的不同之处在于\(\mathbb{I}_{yh(x)\leqslant 0}\)变为了\(\mathbb{I}_{h(x) \neq y}\),这里\(h(x)\)直接输出分类标签。设\(\mathcal{l}\)为在标签\(\mathcal{Y}\)上定义的0-1多分类损失的代理损失,则我们可以在此基础上进一步定义弃权代理损失\(L\)

\[L(h, r, x, y) = \mathcal{l}(h, x, y)\phi(-\alpha r(x)) + \psi(c) \phi(\beta r(x)) \]

其中\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\(\psi\)是非递减函数,\(\phi\)是非递增辅助函数(做为\(t \mapsto \mathbb{I}_{t \leqslant 0}\)的上界),\(\alpha\)\(\beta\)为正常量。上述的\(L\)可视为Cortes等人提出的二分类弃权代理损失\(L_{\text{PB}}\)的多分类推广版本。\(L_{\text{PB}}\)可视为将\(\mathcal{l}\)损失设置为基于间隔的二分类损失\(\widetilde{\phi}(yh(x))\),并设置\(\psi(t) = t\)

\[L_{\text{bin}}(h, r, x, y) = \widetilde{\phi}(yh(x))\phi(-\alpha r(x)) + c \phi(\beta r(x)) \]

最小化带正则项的\(L_{\text{bin}}\),并使用基于间隔的损失\(\widetilde{\phi}\)(例如指数损失\(\widetilde{\phi}_{\text{exp}}(t) = \exp (-t)\)以及合页损失\(\widetilde{\phi}_{\text{hinge}}(t) = \max\{1 - t, 0\}\)(合页损失可参见博客《统计学习:线性支持向量机(Pytorch实现) 》)),可以在二分类情形下达到SOTA的结果。然而,我们下面会看到推广到多分类的弃权代理损失\(L\)对代理损失\(\mathcal{l}\)的选择施加了更加严格的条件,这将诸如多分类指数损失的代理损失给排除掉了。不过,我们也会看到一些其它的损失函数满足该条件,例如多分类合页损失。下面,为了简便起见,我们主要对\(\phi(t) = \exp(-t)\)进行分析,尽管相似的分析也可以应用于其它函数\(\phi\)。我们先展示负面的结果,排除掉一些弃权代理损失\(L\),这些弃权代理损失基于不满足特定条件的损失\(\mathcal{l}\)

下面,我们假定假设集\(\mathcal{H}\)对称的(symmetric)完备的(complete)。我们称一个假设集\(\mathcal{H}\)是对称的,如果存在一个从\(\mathcal{X}\)\(\mathbb{R}\)的函数\(f\)的族\(\mathcal{F}\)使得对任意\(x\in \mathcal{X}\),有\(\left\{\left({\left[h\left(x\right)\right]}_1, \cdots, {\left[h\left(x\right)\right]}_2\right): h\in \mathcal{H}\right\}=\left\{\left(f_1\left(x\right), \cdots, f_n\left(x\right)\right): f_1, \cdots, f_n \in \mathcal{F}\right\}\)。我们称一个假设集\(\mathcal{H}\)是完备的,如果其产生的分数集合能够张成\(\mathbb{R}\),也即对任意\((x, y)\in \mathcal{X}\times \mathcal{Y}\)\(\left\{\left[h(x)\right]_y: h\in \mathcal{H}\right\} = \mathbb{R}\)

定理 1 单阶段代理损失的负面结果 假设\(\mathcal{H}\)是对称的与完备的,且\(\mathcal{R}\)是完备的。若存在\(x\in \mathcal{X}\)使得\(\inf_{h\in \mathcal{H}}\mathbb{E}_{y}[\mathcal{l}(h, X, y)\mid X = x] \neq \frac{\beta \psi (1 - \max_{y\in \mathcal{Y}}p (x, y))}{\alpha}\),则不存在满足属性\(\lim_{t\rightarrow 0^{+}}\Gamma (t) = 0\)的非递减函数\(\Gamma: \mathbb{R}_{+}\rightarrow \mathbb{R}_{+}\)使得下列\((\mathcal{H}, \mathcal{R})\)-一致性界成立:对所有\(h\in \mathcal{H}, r\in \mathbb{R}\)以及任意分布,有

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R}) \leqslant \Gamma(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R}) + M_{L}(\mathcal{H}, \mathcal{R})) \]

证明可以采用反证法来完成。若假设此处的\((\mathcal{H}, \mathcal{R})\) - 一致性界是有效的,则蕴含着采用单阶段代理损失学习的pointwise最佳类别预测器和最佳类别拒绝器会与采用弃权损失所学习的版本对齐。将这些显式的公式纳入代理损失的条件风险分析会导致导数检验的矛盾。

考虑定理 1,为了找到满足\((\mathcal{H}, \mathcal{R})\) - 一致性界的代理损失\(L\),我们需要考虑满足以下条件的多分类代理损失\(\mathcal{l}\):对任意\(x\in \mathcal{X}\),对某些\(\psi\)\((\alpha, \beta)\in \mathbb{R}^2_{+}\)

\[\inf_{h\in \mathcal{H}}\mathbb{E}_{y}[\mathcal{l}(h, X, y)\mid X = x] = \frac{\beta \psi (1 - \max_{y\in \mathcal{Y}}p (x, y))}{\alpha} \]

在二分类的情形下,找到满足这个条件的\(\mathcal{l}\)较为容易,因为\(\max_{y\in \mathcal{Y}}p (x, y)\)也直接地决定了其它的概率。然而,在多分类的情形下,固定\(\max_{y\in \mathcal{Y}}p (x, y)\)后,在取\(\inf_{h\in \mathcal{H}}\mathbb{E}_{y}[\mathcal{l}(h, X, y)\mid X = x]\)时仍然需要考虑其它概率的不同取值。这将导致将二分类框架扩展到多分类的困难。

然而,我们会展示这个必要的条件会被三个常见的多分类代理损失\(\mathcal{l}\)所满足。进一步地,我们将证明基于这三种\(\mathcal{l}\)中任意一种的预测器-拒绝器代理损失\(L\)\((\mathcal{H}, \mathcal{R})\) - 一致性界。这三种损失\(\mathcal{l}\)的定义如下(对所有\(h\in \mathcal{H}\)\((x, y)\)):

  • 平均绝对误差损失(mean absolute error loss)\(\mathcal{l}_{\text{mae}}(h, x, y) = 1 - \frac{e^{h(x, y)}}{\sum_{y^{\prime}\in \mathcal{Y}}e^{h(x, y^{\prime})}}\)
  • 约束\(\rho\)-合页损失(constrained ρ-hinge loss)\(\mathcal{l}_{\rho-\text{hinge}}(h, x, y) = \sum_{y^{\prime}\neq y}\phi_{\rho-\text{hinge}}(-h(x, y^{\prime})), \rho > 0\),其中\(\phi_{\rho-\text{hinge}}(t) = \max\{0, 1 - \frac{t}{\rho}\}\)\(\rho\)-合页损失,且约束条件\(\sum_{y\in \mathcal{Y}}h(x, y)=0\)
  • \(\rho\)-间隔损失(ρ-Margin loss)\(\mathcal{l}_{\rho}(h, x, y) = \phi_{\rho}(\rho_h (x, y))\),其中\(\rho_{h}(x, y) = h(x, y) - \max_{y^{\prime} \neq y}h(x, y^{\prime})\)是置信度间隔,\(\phi_{\rho}(t) = \min\{\max\{0, 1 - \frac{t}{\rho}\}, 1\}, \rho > 0\)\(\rho\)-间隔损失。

关于这里的间隔损失,可以理解为合页损失的多分类扩展(参见Crammer-Singer损失[4][5]),它旨在最大化下列预测间隔(以3个类别为例):

定理 2 单阶段代理损失的\((\mathcal{H}, \mathcal{R})\) - 一致性界 假设\(\mathcal{H}\)是对称与完备的。则对\(\alpha=\beta\)\(\mathcal{l} = \mathcal{l}_{\text{mae}}\),或者\(\mathcal{l} = \mathcal{l}_{\rho}\)\(\psi(t) = t\),或者\(\mathcal{l} = \mathcal{l}_{\rho - \text{hinge}}\)\(\psi(t) = t\),有下列\((\mathcal{H}, \mathcal{R})\) - 一致性界对\(h\in \mathcal{H}, r\in \mathcal{R}\)和任意分布成立:

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R}) \leqslant \Gamma(R_L(h, r) - R_{L}^{*}(\mathcal{H}, \mathcal{R}) + M_{L}(\mathcal{H}, \mathcal{R})) \]

其中对\(\mathcal{l} = \mathcal{l}_{\text{mae}}\)\(\Gamma (t) = \max\{2n\sqrt{t}, nt\}\);对\(\mathcal{l}=\mathcal{l}_{\rho}\)\(\Gamma (t) = \max\{2\sqrt{t}, t\}\);对\(\mathcal{l} - \mathcal{l}_{\rho - \text{hinge}}\)\(\Gamma (t) = \max\{2\sqrt{nt}, t\}\)

该理论为我们在单阶段设置下描述的预测器-拒绝器代理损失提供了有力的保障。该定理证明中使用的技术是新颖的且需要对涉及pointwise最佳类别预测器和拒绝器的多种情况的仔细分析。这一分析是具有挑战性的且需要考虑具体损失函数的条件风险与校准差距。该方法由于同时在弃权场景下最小化预测器和拒绝器,整体上不同于Awasthi等人描述的标准场景[6]。下面是当\(\mathcal{H}\)\(\mathcal{R}\)包括所有可测函数时定理2的一个直接推论(在下面的情况下最小化能力差距\(M_{{L}_{\text{abst}}}\)\(M_L\)都会变为0)。

推论 3 单阶段代理损失函数的额外误差界\(\alpha = \beta\)\(\mathcal{l} = \mathcal{l}_{\text{mae}}\)或者\(\mathcal{l} = \mathcal{l}_p\)\(\psi(t) = t\),或者\(\mathcal{l} = \mathcal{l}_{\rho-\text{hinge}}\)\(\psi(t) = nt\),下列额外误差界(excess error bound) 对所有\(h\in \mathcal{H}_{\text{all}}, r\in \mathcal{R}_{\text{all}}\)(这里\(\mathcal{H}_{\text{all}}\)\(\mathcal{R}_{\text{all}}\)为所有可测函数构成的集合)以及任意分布成立:

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}}) \leqslant \Gamma (R_L(h, r) - R_L^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})) \]

其中\(\Gamma\)拥有与定理 2中相同的形式。

该推论以一个积极的方式为预测器-拒绝器框架下的多分类弃权学习提供了贝叶斯一致的代理损失。事实上,它提供了一个更强的结果,因为它为之前描述过的三种弃权代理损失给出了额外误差界。这些是比这些损失函数的贝叶斯一致性更强的保障(通过取极限操作即可得到)。

需要指出的是,该新颖的单阶段预测器-拒绝器代理损失可能导致一些优化的挑战。这是下列因素所导致的:优化平均绝对误差损失的困难,约束合页损失施加的限制(与在神经网络假设中做为标准使用的Softmax函数不兼容),以及\(\rho\)-间隔损失的非凸性。然而,我们的原始目标是理论分析,而且这些代理损失的意义体现在它们的创新性和强理论保障。正如推论 3所展示的,它们是首个用于多分类弃权问题的预测器-拒绝器贝叶斯一致的代理损失。

3 两阶段预测器-拒绝器代理损失

接下来,我们展示两阶段的计算方法,在这一方法中我们引入\(\mathcal{l}\)选择更灵活的代理损失,这些代理损失具有更好的优化属性。和前面类似,我们会为它们构建\((\mathcal{H}, \mathcal{R})\) - 一致性界。两阶段场景是一个重要的场景,因为在实践中常常大的预训练的预测模型已经可利用(第一阶段),而重新训练它会产生不可接受的昂贵代价。接下来问题变为了保持第一阶段的预测模型保持不变,而随后学习一个有用的拒绝模型(第二阶段)。

两阶段的预测器-拒绝器弃权损失和我们在第2部分中提到的单阶段预测器-拒绝器弃权损失\(L_{\text{abst}}\)不同的是,\(h\)被固定,只需要学习\(r\),而不同于\(L_{\text{abst}}\)中的\(h\)\(r\)同时被学习。我们设\(L_{\text{abst}, h}\)\(L_{\text{abst}}\)的固定预测器\(h\)的两阶段版本,定义如下:对任意\(r\in \mathbb{R}\)\(x\in \mathcal{X}\)\(y\in \mathcal{Y}\)

\[L_{\text{abst}, h}(r, x, y) = \underbrace{\mathbb{I}_{h(x) \neq y}\mathbb{I}_{r(x) > 0}}_{\text{不弃权}} + \underbrace{c \mathbb{I}_{r(x)\leqslant 0}}_{\text{弃权}} \]

作者提出了一个两阶段计算方法:

  • 首先,找到一个分类器\(h\)以最小化标准多分类代理损失\(\mathcal{l}\)
  • 其次,固定\(h\),通过最小化代理损失\(L_{\phi, h}\)找到\(r\)。关于\(r\)的的代理损失函数定义如下(对所有的\((x, y)\)):

\[L_{\phi, h}(r, x, y) = \mathbb{I}_{h(x) \neq y}\phi(-r(x)) + c \phi(r(x)) \]

这里\(\phi\)为做为\(t\mapsto \mathbb{I}_{t\leqslant 0}\)上界的非递增辅助函数,也即对应在二分类中为函数\(h\)决定间隔损失\(\phi(yh(x))\)的函数(例如指数函数),其中\(y\in \{-1, +1\}\)。该计算方法是比较直接的,因为第一阶段涉及使用标准代理损失(例如Logistic损失或带Softmax的交叉熵损失)寻找预测器的经典任务;而第二阶段也相对简单,因为\(h\)被固定,且\(L_{\phi, h}\)的形式也不复杂,其中\(\phi\)可能是Logistic损失或者指数损失。需要指出的是,严格的选择上式中的示性函数对保障两阶段代理损失获益于\((\mathcal{H}, \mathcal{R})\) - 一致性界是很重要的。如果代理损失函数在第一阶段中被使用,这可能不一定满足。

需要指出的是,损失函数\(L_{\text{abst}, h}\)\(L_{\phi, h}\)都是弃权函数\(r\)的函数,而\(L_{\text{abst}}\)\((h, r)\in (\mathcal{H}, \mathcal{R})\)的函数。

定义二值0-1分类损失\(\mathcal{l}_{\text{0-1}}^{\text{binary}(r, x, y)} = \mathbb{I}_{y\neq \text{sign}(r(x))}\),其中\(\text{sign}(t) = \mathbb{I}_{t > 0} - \mathbb{I}_{t\leqslant 0}\)。正如单阶段代理损失,两阶段代理损失也获益于强一致性保障。我们先展示在第二阶段中,当预测器\(h\)固定时,若\(\phi\)满足关于二值0-1损失\(\mathcal{l}^{\text{binary}}_{\text{0-1}}\)\(\mathcal{R}\)-一致性界,则代理损失函数\(L_{\phi, h}\)获益于关于\(L_{\text{abst}, h}\)\(\mathcal{R}\)-一致性界。

定理 4 第二阶段代理损失的\(\mathcal{R}\)-一致性界 对于固定的预测器\(h\),假设\(\phi\)满足关于\(\mathcal{l}^{\text{binary}}_{\text{0-1}}\)\(\mathcal{R}\)-一致性界,即存在非递减凹函数\(\Gamma\)使得对所有\(r\in \mathcal{R}\),有

\[R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}) + M_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(\mathcal{R}) \leqslant \Gamma(R_{\phi}(r) - R_{\phi}^{*}(\mathcal{R}) + M_{\phi}(\mathcal{R})) \]

则对于所有\(r\in \mathcal{R}\)和任意分布,下列\(\mathcal{R}\)-一致性界成立:

\[R_{L_{\text{abst}, h}}(r) - R_{L_{\text{abst}, h}}^{*}(\mathcal{R}) + M_{L_{\text{abst}, h}}(\mathcal{R}) \leqslant \Gamma\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}_{\phi, h}}^{*}\left(\mathcal{R}\right) + M_{L_{\phi, h}}\left(\mathcal{R}\right)\right) / c\right) \]

该定理的证明包括了对于固定的预测器\(h\),分析弃权损失和第二阶段代理损失的校准差距。这里的校准差距相较于标准设置下的更复杂,因为它考虑了条件概率、该固定预测器的误差和花费,于是因此需要不同的分析。为了构建第二阶段代理损失的\(\mathcal{R}\)-一致性界,我们需要使用该代理损失的校准差距来构建弃权损失的校准差距的上界。然而,直接操作它们会由于其复杂形式而较为困难。不过,我们可以观察到这两种形式共享了与标准分类中校准差距的结构相似性。由上述的观察启发,我们构建了一个合适的条件分布来将这两个校准差距转换为标准形式。我们尝试利用\(\phi\)的关于二值0-1损失的\(\mathcal{R}\)-一致性界,以用代理函数的校准差距构建目标校准差距的上界。

\(\mathcal{H}\)\(\mathcal{R}\)为可测函数集的特殊情况下,定理 4中的所有最小化能力差距项消失了。因此,我们获得了如下推论。

推论5 固定预测器\(h\),假设\(\phi\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)的额外误差界,即存在非递减凹函数\(\Gamma\)使得对所有\(r\in \mathcal{R}_{\text{all}}\),有

\[R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma(R_{\phi}(r) - R_{\phi}^{*}(\mathcal{R}_{\text{all}})) \]

于是,对所有\(r\in \mathcal{R}_{\text{all}}\)和任意分布,下列额外误差界成立:

\[R_{L_{\text{abst}, h}}(r) - R_{L_{\text{abst}, h}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}_{\text{all}}\right)\right) / c\right) \]

我们接下来陈述关于弃权损失函数\(L_{\text{abst}}\)的整个两阶段方法的\((\mathcal{H}, \mathcal{R})\) - 一致性界。设\(\mathcal{l}_{\text{0-1}}\)为多分类0-1损失:\(\mathcal{l}_{\text{0-1}}(h, x, y) = \mathbb{I}_{h(x)\neq y}\)。我们接下来考虑是弃权正规(regular for abstention) 的假设集合\(\mathcal{R}\),也即使得对任意\(x\in \mathcal{X}\),存在\(f, g\in \mathcal{R}\)满足\(f(x) > 0\)\(g(x) \leqslant 0\)。如果\(\mathcal{R}\)是弃权正规的,则对于任意\(x\),既存在一个可以接受的选择也存在一个可以拒绝的选择。

定理6 两阶段方法的\((\mathcal{H}, \mathcal{R})\) - 一致性界 假设\(\mathcal{R}\)是正规的。假设\(\mathcal{l}\)满足关于\(\mathcal{l}_{\text{0-1}}\)\(\mathcal{H}\) - 一致性界,\(\phi\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)\(\mathcal{R}\) - 一致性界,即存在非递减凹函数\(\Gamma_1\)\(\Gamma_2\)使得对于所有的\(h\in \mathcal{H}\)\(r\in \mathcal{R}\),有

\[R_{\mathcal{l}_{\text{0-1}}}(h) - R_{\mathcal{l}_{\text{0-1}}}^{*}(\mathcal{H}) + M_{\mathcal{l}_{\text{0-1}}}(\mathcal{H}) \leqslant \Gamma_1(R_{\mathcal{l}}(h) - R_{\mathcal{l}}^{*}(\mathcal{H}) + M_{\mathcal{l}}(\mathcal{H}))\\ R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}) + M_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(\mathcal{R}) \leqslant \Gamma_2(R_{\phi}(r) - R_{\phi}^{*}(\mathcal{R}) + M_{\phi}(\mathcal{R})) \]

于是,下列的\((\mathcal{H}, \mathcal{R})\) - 一致性界对所有\(h\in \mathcal{H}, r\in \mathcal{R}\)和任意分布成立:

\[\begin{aligned}R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}, \mathcal{R}) + M_{L_{\text{abst}}}(\mathcal{H}, \mathcal{R})\leqslant &\Gamma_1\left(R_{l}\left(h\right) - R_{\mathcal{l}}^{*}\left(\mathcal{H}\right) + M_{\mathcal{l}}(\mathcal{H})\right) \\&+ (1 + c)\Gamma_2\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}\right) + M_{\mathcal{l}_{\phi, h}}(\mathcal{R})\right) / c\right) \end{aligned} \]

其中常数因子\((1 + c)\)\(\frac{1}{c}\)\(\Gamma_2\)是线性的时可以被移除。

和前面类似,当\(\mathcal{H}\)\(\mathcal{R}\)为可测函数族时,下列关于额外误差界的推论成立。

推论 7 假设\(\mathcal{l}\)满足关于\(\mathcal{l}_{\text{0-1}}\)的额外误差界,\(\phi\)满足关于\(\mathcal{l}_{\text{0-1}}^{\text{binary}}\)的额外误差界,即存在非递减凹函数\(\Gamma_1\)\(\Gamma_2\)使得对于所有的\(h\in \mathcal{H}_{\text{all}}\)\(r\in \mathcal{R}_{\text{all}}\),有

\[R_{\mathcal{l}_{\text{0-1}}}(h) - R_{\mathcal{l}_{\text{0-1}}}^{*}(\mathcal{H}_{\text{all}}) \leqslant \Gamma_1(R_{\mathcal{l}}(h) - R_{\mathcal{l}}^{*}(\mathcal{H}_{\text{all}}))\\ R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}(r) - R_{\mathcal{l}_{\text{0-1}}^{\text{binary}}}^{*}(\mathcal{R}_{\text{all}}) \leqslant \Gamma_2(R_{\phi}(r) - R_{\phi}^{*}(\mathcal{R}_{\text{all}})) \]

于是,下列额外误差界对于所有\(h\in \mathcal{H}_{\text{all}}\)\(r\in \mathcal{R}_{\text{all}}\)和任意分布成立:

\[R_{L_{\text{abst}}}(h, r) - R_{L_{\text{abst}}}^{*}(\mathcal{H}_{\text{all}}, \mathcal{R}_{\text{all}})\leqslant \Gamma_1\left(R_{l}\left(h\right) - R_{\mathcal{l}}^{*}\left(\mathcal{H}_{\text{all}}\right)\right) \\+ (1 + c)\Gamma_2\left(\left(R_{L_{\phi, h}}\left(r\right) - R_{{L}^{*}_{\phi, h}}\left(\mathcal{R}_{\text{all}}\right)\right) / c\right) \]

其中常数因子\((1 + c)\)\(\frac{1}{c}\)\(\Gamma_2\)是线性的时可以被移除。

这些结果为两阶段设置下的代理损失提供了强理论保障。此外,\(\mathcal{l}\)在单阶段设置下的选择受特定条件的约束,而多分类代理损失\(\mathcal{l}\)可以被更加灵活地选择。特别地,它可以被选择为Logistic损失(或带Softmax的交叉熵损失),这不但更易于优化,而且能够更好地适配于复杂的神经网络。在第二阶段,公式比较直接,函数\(\phi\)的选择是灵活的,这将导出关于拒绝函数\(r\)的简单的光滑凸优化问题。此外,第二阶段将过程进行了简化:\(h\)做为常量,只有拒绝器被优化。该方法能够增强优化效率。

参考

  • [1] Mao A, Mohri M, Zhong Y. Predictor-rejector multi-class abstention: Theoretical analysis and algorithms[C]//International Conference on Algorithmic Learning Theory. PMLR, 2024: 822-867.
  • [2] Cortes C, DeSalvo G, Mohri M. Boosting with abstention[J]. Advances in Neural Information Processing Systems, 2016, 29.
  • [3] Ni C, Charoenphakdee N, Honda J, et al. On the calibration of multiclass classification with rejection[J]. Advances in Neural Information Processing Systems, 2019, 32.
  • [4] Han Bao: Learning Theory Bridges Loss Functions
  • [5] Crammer K, Singer Y. On the algorithmic implementation of multiclass kernel-based vector machines[J]. Journal of machine learning research, 2001, 2(Dec): 265-292.
  • [6] Awasthi P, Mao A, Mohri M, et al. Multi-Class $ H $-Consistency Bounds[J]. Advances in neural information processing systems, 2022, 35: 782-795.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/887933.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cypher Chapter 6:DIGITAL CRYPTOGRAPHY

PUZZLE1 0110 0100 0110 0001 0111 0100 0110 0001SOLVE1 通过 ASCII 码表可知,明文为 data。 PUZZLE2 HELLO 0011 1111 0010 1010 0011 1110 0010 0000 0010 1011SOLVE2 容易猜出答案是 world,不过如何得到的呢? 考虑将 HELLO 换为 ASCII 码形式,即 0100 1000 0100 0101 0…

2246. 相邻字符不同的最长路径(难)

目录题目题解:dfs 题目给你一棵 树(即一个连通、无向、无环图),根节点是节点 0 ,这棵树由编号从 0 到 n - 1 的 n 个节点组成。用下标从 0 开始、长度为 n 的数组 parent 来表示这棵树,其中 parent[i] 是节点 i 的父 节点,由于节点 0 是根节点,所以 parent[0] == -1 。…

普通人如何靠 AI 副业,1 个月实现月薪 3 万 +

在物价飞涨、经济低迷的今天,仅靠死工资,却有着不固定的开销?房贷、车贷、孩子的教育费用…… 望着日益增长的开销,你是否也在夜深人静时,为钱包的羞涩而发愁?无数次幻想过拥有一份高收入的副业,却始终在迷茫中徘徊,不知从何下手。 如今,AI 时代的浪潮汹涌而来,为我们…

C内存模型

分区 在C语言中,内存被分为以下几个部分 .text 代码段,存放程序的可执行代码,不可修改 .rodata(Read Only Data) 常量区,存放全局常量 .data 数据段,存放已初始化的全局变量和静态变量 .bss(Block Started By Symbol) 未初始化数据段,存放未初始化的全局变量或者初始化为…

探秘Transformer系列之(5)--- 训练推理

从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。探秘Transformer系列之(5)--- 训练&推理 0x00 概述 Transformer训练的目的是通过对输入…

124. 二叉树中的最大路径和(困难)

目录题目题解:后序遍历 题目二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径 至少包含一个 节点,且不一定经过根节点。 路径和 是路径中各节点值的总和。 给你一个二叉树的根节点 root ,返回…

Windsurf AI编程工具

Windsurf AI编程工具实操指南目录一、环境搭建与核心功能安装与登录模型选择与配置中文环境配置二、开发全流程实操创建项目将api目录下的模型调用抽象为服务层三、避坑指南四、与Cursor对比结语安装包 一、环境搭建与核心功能 安装与登录 访问Windsurf官网下载适配版本,支持W…

让你搜索效率翻倍的技巧

本文是《最全面的浏览器教程》第五篇,介绍一些好用的搜索引擎技巧。​ 本文是《最全面的浏览器教程》第五篇,介绍一些好用的搜索引擎技巧。 上一篇文章推荐了很多好用的搜索引擎,但要用好它们,还得加上很多技巧:例如指定文件类型,排除某些内容,在指定域名内搜索等。 本文…

4. MySQL 逻辑架构说明

4. MySQL 逻辑架构说明 @目录4. MySQL 逻辑架构说明1. 逻辑架构剖析1.1 服务器处理客户端请求1.2 Connectors(连接器)1.3 第1层:连接层1.4 第2层:服务层1.5 第3层:引擎层1.6 存储层2. SQL执行流程2.1 MySQL 中的 SQL 执行流程2.2 MySQL8中SQL执行原理最后:1. 逻辑架构剖析…

无线充电

https://baijiahao.baidu.com/s?id=1809048563048631142&wfr=spider&for=pc 工信部放宽无线充电设备频率和功率限制,安卓厂商或加大无线充电功率,苹果则因Qi2.0标准频率与航空无线电导航业务冲突而调整。无线充电技术发展迅速,但仍需解决充电发热等问题。咱也就是说…

陪玩平台搭建,利用Redis实现多级缓存

陪玩平台搭建,利用Redis实现多级缓存如何使用redis6客户端缓存前置条件: redis服务端版本必须是>=6。lettuce版本>=6 目前java的redis客户端找了一圈,貌似只有lettuce 6支持,其他客户端估计后期会支持1、项目中pom引入lettuce GAV<dependency><groupId>i…

《DeepSeek中小学生/家长使用手册》让因材施教不再是选择题!

最近有受到粉丝私信如何在小初高的学习中使用DeepSeek来提供成绩;确实,随着教育改革的推进,学习内容日益丰富且难度加大,许多家长在辅导孩子和沟通交流方面感到困扰。无论是学生还是家长,找到合适的学习与辅导方式至关重要。尽管市面上有多种培训机构和学习工具可供选择,…