介绍
我们基于生态学和量子统计力学的思想,提出了 Vendi 分数用来解决多样性评估问题
Vendi 分数不需要参考数据集或样本或标签的分布,因此它是通用的,适用于任何可以定义相似性的领域的生成模型、解码算法和数据集
创新
之前的多样性指标的适用性可能受到限制,因为它们需要参考数据集或预定义标签,或者是特定于领域的并且适用于一类模型。没有这些适用性限制的现有指标在捕获多样性方面存在缺陷
与这些方法相比,Vendi 分数是一种无参考指标,衡量一组的内在多样性,而不是与参考分布的关系。这意味着 Vendi 分数应与质量指标一起使用,但可以应用于没有参考分布的设置。它考虑了特征之间的相关性,并且能够捕捉由于组成不同的相似性函数而增加的多样性
定义
核函数
核函数(kernel function)是一种用于度量两个样本之间相似性的函数。用于将数据映射到高维空间中进行分类或回归。(数据在更高的维度更容易分类)给定两个输入样本 xi 和 xj,它们的核函数值 K(xi,xj) 表示这两个样本在高维特征空间中的相似性或相关性(如用内积表示相关性)。这样避免了显式地对高维特征空间进行计算,核函数可以直接利用原数据计算升维度后的相关性。
常用的核函数有高斯函数等。
核矩阵
需要注意的是,虽然核函数本身不是矩阵,但在SVM等算法中,我们通常会构造一个基于核函数的核矩阵(kernel matrix),用于表示输入数据样本之间的相似性。核矩阵是一个 n×n 的对称矩阵,其中第 (i,j) 个元素 Kij 表示样本 xi 和 xj 之间的核函数值。通过构造核矩阵,我们可以在支持向量机等算法中方便地使用核函数进行计算和优化。
可解释性
有效性
要理解 Vendi Score 作为数学对象的有效性,请注意 K /n 的特征值是非负的(因为 k 是半正定的)并且总和为 1(因为 K /n 的对角线项等于 1/n) 。因此,香农熵是明确定义的,Vendi 分数也是明确定义的。在这种形式中,Vendi Score 也可以看作是核矩阵 K 的有效秩
有效秩由 Roy 和 Vetterli (2007) 在信号处理的背景下引入;矩阵的有效秩定义为归一化奇异值的熵的指数。有效秩之前也已用于机器学习中
引理
Vendi 分数可以转化成右式:
该引理明确了 Vendi 分数与量子统计力学的联系:Vendi 分数等于与 K /n 相关的冯诺依曼熵的指数
在量子统计力学中,量子系统的状态由密度矩阵(通常表示为 ρ)来描述。 ρ 的冯诺依曼熵量化了系统状态的不确定性(Wilde,2013)。这里的归一化相似度矩阵 \(K/n\) 起到了密度矩阵 ρ的作用
限制
与其他基于相似性的指标一样,vs 取决于相似性函数的选择。如果相似度函数太敏感,所有集合都会显得非常多样化,而如果不够敏感,所有集合都会具有较低的多样性