1. 核函数的局部性限制
大多数传统核函数(如RBF核、Matern核)基于局部相似性假设,即两个数据点的相似性随其欧氏距离的增大而指数衰减。这种假设在高维空间中面临以下问题:
- 维数灾难:高维空间中数据点之间的距离趋于均匀化,导致局部相似性难以定义。
在高维空间中,随机点对的欧氏距离分布高度集中,区分度降低。\text{在高维空间中,随机点对的欧氏距离分布高度集中,区分度降低。}在高维空间中,随机点对的欧氏距离分布高度集中,区分度降低。
- 长程依赖缺失:核函数仅能建模局部关系,无法有效捕捉全局结构(如图像中的层次化特征或文本中的语义关联)。
2. 核函数表达能力有限
传统核函数的设计通常针对低维平滑函数,而高维数据(如图像、文本)的特征具有多层次和非线性组合的特性:
- 图像数据:需要同时建模局部纹理(边缘、角点)和全局语义(物体类别、场景布局)。RBF核难以区分不同层次的特征。
- 文本数据:词向量的语义相似性并非简单的几何距离,而是由复杂的上下文依赖决定(如注意力机制中的动态权重)。
3. 长程链接的不足
高斯过程的核函数通常基于各向同性假设(如RBF核对所有维度均匀处理),导致以下问题:
- 各向异性忽略:不同维度的重要性不同(例如图像中某些通道或文本中某些词对语义影响更大)。
- 结构化交互缺失:无法显式建模特征间的复杂交互(如空间层次、时序依赖),仅能通过核参数隐式调整。
4. 计算复杂度与高维不兼容
在高维空间中,即使核函数能捕捉复杂特征,其计算成本也极高:
- 协方差矩阵构建:对 ddd 维数据,核函数需要处理 d×dd \times dd×d 的协方差结构,导致计算复杂度爆炸。
- 存储与优化困难:高维核参数(如ARD核的长度尺度参数)的优化需要大量数据和计算资源。
改进方向
针对上述问题,研究者提出了以下解决方案:
(1) 深度核函数(Deep Kernel)
将神经网络与核函数结合,通过非线性变换将高维数据映射到低维空间,再应用传统核函数:
kdeep(x,x′)=k(ϕ(x;θ),ϕ(x′;θ))k_{\text{deep}}(x, x') = k\left( \phi(x; \theta), \phi(x'; \theta) \right)kdeep(x,x′)=k(ϕ(x;θ),ϕ(x′;θ))
其中 ϕ(⋅;θ)\phi(\cdot; \theta)ϕ(⋅;θ) 是神经网络编码器。此方法可自动学习特征表示,缓解维数灾难。
(2) 结构化核设计
- 层次化核:组合不同尺度的核函数(如局部RBF核 + 全局线性核),建模多级特征。
- 图核(Graph Kernel):针对图结构数据(如分子、社交网络),显式建模节点间的关系。
(3) 注意力机制引导的核
引入注意力权重动态调整不同维度的相似性计算:
kattn(x,x′)=exp(−∑i=1dwi(xi−xi′)2)k_{\text{attn}}(x, x') = \exp\left( -\sum_{i=1}^d w_i (x_i - x'_i)^2 \right)kattn(x,x′)=exp(−i=1∑dwi(xi−xi′)2)
其中权重 wiw_iwi 通过注意力机制学习。
(4) 稀疏近似与分布式计算
使用诱导点(Inducing Points)或分块矩阵近似降低计算复杂度,使其适应高维数据。
总结
高斯过程核函数在高维数据中表现受限的核心原因在于其局部性假设和各向同性设计,难以建模复杂的长程依赖和层次化特征。通过结合深度学习、注意力机制等现代技术改进核函数设计,可部分缓解这些问题,但仍需在计算效率和表达能力之间权衡。高斯过程不适合视觉、文本等生成,但对于平滑连续,不确定性敏感的场景,比如机器人动作规划、工业控制等比较适合。