多项式方法的一些例子-编程知识

多项式方法的一些例子

news/2025/3/25 22:35:53/文章来源:https://www.cnblogs.com/Elegia/p/18790410/rank-polynomial-method

\(\newcommand{\rank}{\operatorname{rank}}\newcommand{\bbF}{\mathbb{F}}\)

"多项式方法" 这个术语有好几种不同意思, 本文只讲其中一种.

简单来说, 这种方法是指, 研究某些矩阵 (或者不是矩阵) 的东西的秩 ("秩") 的时候, 通过把元素写成多项式的取值来给出非常不平凡的上界.

集合相交的 Frankl–Wilson 定理

首先考虑一个简单的问题: 有若干个集合 \(S_1,\dots,S_k \subset [n]\), 它们的大小都是奇数, 且任何两个集合的交集都是偶数. 那么这些集合的个数最多是多少?

这个问题的一个简单的上界是 \(k \leq n\), 这是因为在 \(\mathbb F_2\) 上, 我们将矩阵 \(A_{ij} = |S_i \cap S_j|\) 写成矩阵, 它可以写作

\[A_{ij} = \sum_{t = 1}^n [t \in S_i] [t \in S_j], \]

这说明 \(A\) 可以写成 \(n\) 个秩为 \(1\) 的矩阵之和. 而给定约束又说明 \(A\) 是单位阵, 所以 \(k = \operatorname{rank}(A) \leq n\).

Frankl–Wilson 定理是上面这个论证方法的一个推广.

定理 (Frankl–Wilson) 设 \(S_1,\dots,S_k \subset [n]\) 是大小都为 \(r\) 的集合, 任何两个集合的交集模 \(p\) 的余数是 \(\lambda_1,\dots,\lambda_s\) 中的一个, 而且它们都不同余 \(r\). 那么 \(k \leq \binom{n}{s}\).

证明. 考虑一个 \(\mathbb F_p\) 上的多项式 \(f\), 它在 \(\lambda_i\) 处的值是 \(0\), 在 \(r\) 处的取值是 \(1\), 这个多项式的次数其实就是 \(s\).

那么, 我们就可以将 \([i = j]\) 写作 \(f(|S_i \cap S_j|)\). 我们记 \(x_1,\dots,x_n\) 是 \(S_i\) 的每一位, \(y_1,\dots,y_n\) 是 \(S_j\) 的每一位, 那么上式又可以写作

\[f(x_1 y_1 + \dots + x_n y_n). \]

注意到 \((x_iy_i)^2 = x_iy_i\), 我们将上面这个多项式展开, 每一项应该是个关于 \(x\) (\(y\)) 不超过 \(s\) 次, 并且每个变量的次数不超过 \(1\) 的, 可以写作如下形式:

\[f(x_1 y_1 + \dots + x_n y_n) = \sum_{I \in \binom{[n]}{\leq s}} f_I x^I y^I \]

做到这一步, 其实我们已经证明了这个矩阵的秩 \(\leq \binom{n}{\leq s}\) 了. 剩下的是一点小优化:

首先可以不妨设 \(r \geq s\), 因为所有 \(\lambda_i\) 必须 \(< r\) 才有意义.

然后, 根据等式 \(x_1 + \cdots + x_n = r\), 如果两边乘以 \(x^I\), 我们会得到

\[(r-|I|) x^I = \sum_{j\notin I} x^{I \cup \{j\}}, \]

当 \(|I| < s\), 我们就可以

\[x^I = \frac1{r-|I|}\sum_{j\notin I} x^{I \cup \{j\}} \]

把低次多项式逐渐升为高次的.

容易从组合意义进一步看出,

\[x^I = \binom{r-|I|}{s - |I|}^{-1} \sum_{\substack{I\subseteq J \\ |J| = s}} x^J. \]

你可能会问了, 这个组合数 \(\bmod p\) 不是有可能是 \(0\) 吗? 这看起来是个问题, 但可以通过细心排列论证过程解决.

先让多项式 \(f(t) = \prod (t - \lambda_i)\) 在整数作为系数上考虑, 这样一个多项式是整系数多项式.

假设满足要求的集族 \(\mathcal A\), 定义矩阵 \(M\in \mathbb Z^{\mathcal A\times \mathcal A}\) 满足 \(M_{S, T} = f(|S\cap T|)\). 虽然前面的过程用到了除法, 但是这一切都只是为了证明 \(M\) 的秩 \(\leq \binom n s\).

最后, 因为 \(M \bmod p\) 是对角矩阵 (且对角非零), 有

\[|A| = \rank_{\mathbb F_p} M \leq \rank_{\mathbb Q} M\leq \binom n s. \square \]

Hadamard 矩阵的非刚性

矩阵刚性是这么一个概念: 我们说矩阵 \(M\) 满足 \(r_M(r) \leq s\), 即, 为了将 \(M\) 修改为 \(\rank \leq r\) 的矩阵, 需要修改其中至少 \(s\) 个位置. 这个概念一开始被 Valiant 提出, 是为了找到一个线性代数电路下界的充分条件. 更多相关的解释可以看之前写过的一篇.

当时 Valiant 提出这个概念的时候是相当乐观的, 他认为我们可以证明 Hadamard 矩阵 \(H_n \in \mathbb R^{N\times N}\) (其中 \(N=2^n\)) 满足他的刚性条件: 对任意 \(\delta>0\), 都有 \(\epsilon\) 满足 \(r_M(\epsilon N / \log \log N) \geq N^{1+\delta}\).

遗憾的是, 这条路被下面的定理否决了:

定理 (Alman–Williams, 2017) Hadamard 矩阵满足

\[r_M(N^{1-f(\epsilon)})\leq N^{1+\epsilon} , \]
其中 \(f(\epsilon) = \Omega(\epsilon^2 / \log^2 (\epsilon^{-1}))\)!

用便于人类的语序理解就是, Valiant 的猜测是, 如果只改 \(N^{1+\epsilon}\) 个位置, 矩阵的秩仍然至少是 \(\Omega(N/\log \log N)\). 但事实是, 改这么多元素已经可以让秩降到 \(N^{1-\delta}\) 了!

这个结果在当时来看应该还是有些惊人的, 因为大家一直以为 Valiant 的猜测是对的, 所以大家都在研究如何证明下界...

我们这里只给 \(\mathbb Q\) 上的证明, 但实际上这个结果是 \(\mathbb Z\) 上成立的: 可以改成一个秩这么小的整数矩阵. 这实际上只涉及一点技术细节的观察, 感兴趣的读者仔细想想.

证明. 这个定理的直观是这样, 首先考虑 \(\mod 2\) 的情况的 "Hadamard 形状" 的矩阵 \(M_{x, y} = \langle x, y\rangle \pmod 2\). 在这个情况下, 这个矩阵的秩显然天生就很小, 只有 \(n = \log N\). 这预示了 Hadamard 矩阵的某种脆弱性.

如何将这种脆弱性搬到一般的域上呢? 某种意义上, 有

\[(H_n)_{x, y} \approx 1- 2(\langle x, y \rangle \bmod 2). \]

为了让这个粗暴的等式成立, 想法是让 \(\bmod 2\) 这个东西在 \(\langle x, y\rangle\) 在大部分位置都成立, 小部分位置失误. 这个小部分位置可能就是我们允许修改的地方.

严格的写下来, 我们需要考虑一个多项式 \(f(T)\), 然后让 \(f(\langle x, y\rangle)\) 尽量拟合 \(H_n\).

显然, 最需要拟合的位置就是 \(\langle x, y\rangle\) 集中的位置, 也就是 \(\langle x, y\rangle \approx n/4\). 同时, 大部分向量都满足 \(|x|, |y| \approx n/2\).

根据插值, 我们有一个次数为 \((1/2-2\epsilon) n\) 的多项式 \(f(T)\), 使得 \(f(k) = (-1)^k\) 在 \(2\epsilon n \leq k \leq (1/2 + \epsilon) n\). (我们待会会看到为什么这么设置).

那么 \(f(\langle x, y \rangle)\) 的 \(\rank\) 就不大了: 用多项式拆成

\[= \sum_{|I| \leq (1/2-2\epsilon) n} f_I x^I y^I, \]

只有 \(\binom{n}{(1/2-2\epsilon)n} = N^{1-\Omega(\epsilon^2)}\) 这么大的秩.

那么剩下没有被正确拟合的部分就是 \(\langle x, y\rangle\leq \epsilon n\) 和 \(\langle x, y\rangle\geq 1/2 - \epsilon n\) 的部分了.

接下来, 我们的第二个操作是只关注 \((1/2-\epsilon)n \leq |x| \leq (1/2+\epsilon)n\) 部分的子矩阵. 因为剩下的行列不超过 \(\binom{n}{(1/2-\epsilon)n} = N^{1-\Omega(\epsilon^2)}\), 每一行一列都可以支付 \(1\) 的秩修补掉.

最后, 剩下的情况里, 对于每个 \(x\), 我们显然有 \(\langle x, y\rangle\leq \epsilon n\) 的不超过 \(\binom{n}{\leq \epsilon n}\) 个满足条件的 \(y\), 这只有 \(N^{O(\epsilon \log (1/\epsilon))}\) 这么多. 而 \(\langle x, y\rangle\geq 1/2-\epsilon n\), 因为那些向量已经被我们丢掉了, 所以剩下的子矩阵里没有这种情况了.

综上, 我们就证明了

\[r_M(N^{1-\Omega(\epsilon^2)}) \leq N^{1+O(\epsilon \log (1/\epsilon))}. \square \]

有限域上等差数列的 Ellenberg–Gijswijt 定理

这是一个经典的加性组合问题:

对于一个 Abel 群 \(G\), 问, \(G\) 包含多大的子集不存在三项等差数列. 也即, 定义 \(r_3(G)\) 为最大的子集 \(|A|\) 满足 \(A\subseteq G\) 且

\[x, y, z \in A, x+z=2y \implies x=y=z. \]

确定 \(r_3(G)\) 的增长速度.

对于 \(G = \mathbb Z / N\mathbb Z\) 的情况, 大家的了解已经相当深刻了:

\[\frac{N}{2^{O(\sqrt{\log N})}} \leq r_3(\mathbb Z / N\mathbb Z) \leq \frac{N}{2^{\Omega((\log N)^{1/9})}} \]

(其中左边是 Behrend 在 1946 年给出的构造, 右边是 Kelly–Meka, Bloom–Sisask 在 2023 年的结果.)

其中, 第一个证明 \(r_3(\mathbb Z / N\mathbb Z) = o(N)\) 是 Roth 给出的一个 Fourier 分析的证明, 这也是目前研究 \(r_3(\mathbb Z / N\mathbb Z)\) 的基本视角. 具体来说, 他证明了 \(r_3(\mathbb Z / N\mathbb Z) = O(N/\log \log N)\).

类似的 Fourier 分析在 \(\mathbb Z_3^n\) 上可以得到 \(r_3(\mathbb Z_3^n) = O(3^n / n)\). 在之后, 很长一段时间, 大家只改进到了 \(O(3^n / n^{1+\epsilon})\). 事实证明, Fourier 分析这个工具在 \(\mathbb Z_3^n\) 这样的群上是不正确的:

定理 (Ellenberg–Gijswijt, 2016) \(r_3(\mathbb Z_3^n) \leq 2.756^n\).

现在大家对 \(r_3(\mathbb Z_3^n)\) 的认识 (出于某些文化原因, 这个东西的另一个名字叫 cap set) 是这样的:

\[\Omega(2.2202^n) \leq r_3(\mathbb Z_3^n) \leq 2.756^n, \]

其中下界是 DeepMind 找到的构造.

我们接下来写的证明和原版的表述方法有所不同, 而是 Tao 提出的 "slice rank" 表述. 对一些类似问题的后续研究表面, 这种表述不仅形式上更易于理解, 也和张量的一些其他度量有着深刻的联系.

一个想法是, 这个 cap set 问题是一个类似于 Frankl–Wilson 定理处理的问题: 找出一个大集合的某个子集, 我们想要找到一个子集使得满足某种条件.

但 Frankl–Wilson 定理处理的是一个二元关系, cap set 处理的是三元关系, 所以相对于 Frankl–Wilson 定理构造的矩阵, 我们需要构造一个三阶张量.

一个观察是, 在 \(\bbF_3^n\) 里, cap set 可以表述为 \(x,y,z\in \bbF_3^n\) 满足 \(x + y + z = 0\). 考虑如此定义的一个张量 \(T_{x,y,z} = [x + y + z = 0]\).

现在让我们来正式给出 slice rank 的定义:

对于一个形如 \(a_x b_{y, z}\), \(a_y b_{z, x}\) 或 \(a_z b_{x,y}\) 的非零张量, 我们称其为一个 slice rank \(1\) 的张量. 我们定义一个张量 \(T\) 的 slice rank 为最小的非负整数 \(r\) 使得 \(T\) 可以写作 \(r\) 个 slice rank \(1\) 的张量.

定理. 对于任何张量 \(T\), 如果 \(T\) 中能找到大小为 \(m\) 的子集 \(I = \{i_1,\dots,i_m\}\), 以及类似编号的 \(J, K\) (大小同为 \(m\)), 满足对于 \((i,j,k)\in I\times J\times K\), 有

\[T_{i,j,k} \neq 0 \iff (i,j,k) = (i_\ell,j_\ell, k_\ell), \]

那么 \(m\) 不超过 \(T\) 的 slice rank.

证明. 注意到 slice rank 如果删去张量 \(T\) 的一些变量是不增大的. 所以我们可以不妨设 \(T\) 的下标就是 \(I\times J\times K\). 且刚好形如

\[T_{ijk} = [i=j=k]. \]

这样的 \(T\) 称作对角张量 \(\langle m\rangle\).

现在假设 \(T\) 的 slice rank 小于 \(m\), 也就是 \(T\) 可以写作

\[T(x,y,z) = \sum_{i=1}^a f_i(x)g_i(y,z) + \sum_{j=1}^b f_j(y)g_j(z,x) + \sum_{k=1}^c f_k(z)g(x,y). \]

其中 \(a+b+c < m\). (其中 \(f_i\), \(f_j\), \(f_k\) 按照各自可以不同的函数理解).

注意我们这里使用了张量的另一个理解方式: 我们将它看作一个三线性型. 这里 \(x,y,z\) 可以看作以 \(I,J,K\) 为基的线性空间. 而 \(f_*\) 是线性函数, \(g_*\) 是双线性函数.

我们考虑这样一个递降证明. 不失一般性的, 假设 \(f_1(x)\) 这个函数的 \(x_m\) 项系数为 \(1\). 那么我们可以考虑这样一个子张量 \(T'\), 它的定义域是 \([m-1]^3\). 其中

\[T'(x', y', z') = T(x,y,z), \]

其中如果 \(f_1(x) = \sum a_i x_i\), 那么 \(x_m = -\sum_{i<m} x_i'\), \(y_m = z_m = 0\). 而对于 \(i<m\), \(x_i' = x_i\), \(y_i' = y_i\), \(z_i' = z_i\).

经过这样的代换, 我们发现 \(T'(x',y',z')\) 无非就是 \(m-1\) 大小的对角张量. 但是 \(T\) 的 slice 分解表示自然而然地给出 \(T'\) 的一个 slice 分解, 而且 \(f_1(x)\) 这一项因为我们对于 \(x_m\) 的选取, 直接满足 \(f_1(x) = 0\) 了. 这也就推出了 \(T'\) 的 slice rank 不超过 \(m-1\).

一直递降下去, 我们就推出一个对角张量具有 \(0\) 的 slice rank. 矛盾. \(\square\)

现在我们可以回到 cap set 问题了.

Ellenberg–Gijswijt 定理的证明. 考虑在 \(\bbF_3\) 上表述这个张量, 我们把 \(T_{x,y,z} = [x+y+z=0]\) 可以写作

\[T_{x,y,z} = \prod_{i=1}^n (1 - (x_i+y_i+z_i)^2). \]

最为核心的观察是, 这是一个次数为 \(2n\) 的多项式. 那么我们可以做这样一件事: 它的每一项写作 \(x^I y^J z^K\) 之后,
\(I, J, K\) 之间必有一个度数不超过 \(2n/3\). 考虑将它写作

\[T_{x,y,z} = \sum_{|I| \leq 2n/3} x^I g_J(y,z) + \sum_{|J| \leq 2n/3} y^J g_I(z,x) + \sum_{|K| \leq 2n/3} z^K g_K(x,y). \]

而概率论告诉我们, 由于 \(I\) 同时满足每个分量不超过 \(2\), 一个从 \(\{x^0,x^1,x^2\}^n\) 这 \(3^n\) 个单项式里随机的 \(x^I\) 满足 \(|I|\approx n\), 那么 \(|I|\leq 2n/3\) 应该是有大偏差的. 根据一些大偏差理论的计算 (虽然不复杂但是和核心思想无关了, 我们略过), 可以得到 \(|I| \leq 2n/3\) 的只有 \(\leq \rho^n\) 个, \(\rho \approx 2.756\). 这是 \(T\) 的 slice rank 的一个上界 \(3\cdot \rho^n\), 由于 cap set 所限制出的子张量一定是一个对角张量, 这就给出了 cap set 的上界.

最后一个小 trick 告诉我们 \(3\) 这个常数是可以被抹去的 (通常称为 tensor power trick): 一个 \(\bbF_3^n\) 里的 cap set \(A\), 它的笛卡尔积 \(A^r\) 容易给出 \(\bbF_3^{nr}\) 里的 cap set, 所以 \(|A|^r \leq 3 \rho^{nr}\), 取 \(r\to\infty\) 就得到了 \(|A| \leq \rho^n\).
\(\square\)

这个证明非常漂亮, 简洁. 但是我们显然有很多可以问的问题. 一个最大的问题就是: 我们是否用尽了 slice rank 的力量? 有没有可能我们只要写出一个更聪明的 slice 分解, 就可以证出更好的上界?

这个问题被 Blasiak–Church–Cohn–Grochow–Naslund–Sawin–Umans 和 Kleinberg–Speyer–Sawin 完全解答了: slice rank 已经做到它能做的全部了. 而且原因在概念上并不复杂.

第一个观察是, slice rank 无法区分 cap set 和如下的更广义的一种子集: 回忆我们一开始关于 slice rank 的那个刻画:

对于任何张量 \(T\), 如果 \(T\) 中能找到大小为 \(m\) 的子集 \(I = \{i_1,\dots,i_m\}\), 以及类似编号的 \(J, K\) (大小同为 \(m\)), 满足对于 \((i,j,k)\in I\times J\times K\), 有

\[T_{i,j,k} \neq 0 \iff (i,j,k) = (i_\ell,j_\ell, k_\ell), \]
那么 \(m\) 不超过 \(T\) 的 slice rank.

注意这里的 \(I, J, K\) 在原来 \(T\) 的下标中不需要是对角的. 也就是说, 如果我们确实能构造出 \(\rho^{n-o(n)}\) 大小的这样的对角张量, 那么我们就证明了 slice rank 不可能给出更好的上界. 这样的 \(I, J, K\) 被 Blasiak–Church–Cohn–Grochow–Naslund–Sawin–Umans 称为 tri-colored sum-free set.

而如何构造呢? 第一步是将 \(T_{x,y,z} = [x+y+z=0]\) 限制在
\(x : |x| = 4n/3\) 这样一个小很多的集合上. 注意在这个集合上, \(x+y+z=0\) 有另一个刻画. 我们考虑 \(\overline x\) 记为 \(\overline x_i = 2 - x_i\), 那么 \(x+y+z=0\) 这个 \(\bbF_3^n\) 上的等式, 等价于

\[\overline x + \overline y + \overline z = (2,\dots,2) \]

这个 \(\mathbb Z^n\) 上的等式.

现在我们限制的下标集合大小 \(|x| = 4n/3\) 总共的元素数量已经是 \(\rho^{n-o(n)}\) 的了. 那岂不是说我们要从 \(N\) 大小的张量中选出一个 \(N^{1-o(1)}\) 大小的子集满足条件?

答案是, 这是可能的. 这个问题的正面回答由 Kleinberg–Speyer–Sawin 注意到.

由于篇幅原因, 不讲这部分的具体细节了. 但是依然有几个有趣的点可以提:

找出 \(N^{1-o(1)}\) 大小的子集, 让我们想起 \(r_3(\mathbb Z/N\mathbb Z)\) 上的情况. 事实上, 这个问题的解答就是通过规约到 \(r_3(\mathbb Z/N\mathbb Z)\) 解决的.
这个构造最早出现在 Coppersmith–Winograd 的激光法 (laser method) 中, 用于控制矩阵乘法的指数 \(\omega\). 因为他们需要构造出一个张量, 从中 "提取出" 足够多的能够用于计算矩阵乘法的张量. 这个问题的解决方法就是通过构造 tri-colored sum-free set 来解决的.

再随便讲一些有的没的:

熟悉张量的人可能会注意到, slice rank 的关键性质其实就是说它给出了估计张量的 subrank \(Q(T) = \max\{ n : \langle n\rangle \leq T\}\) 的一种方法. 可惜的是, 这个问题的对偶问题: 估计 tensor rank \(R(T) = \min\{ n : \langle n \rangle \geq T \}\) 的非平凡下界却进展困难.

Strassen 将 rank 比作张量的价格 (price, 需要多少资源才能得到它), subrank 比作张量的价值 (value, 它可以给出多少), 他曾在一篇文章里如此提到:

Unlike the cynic, who according to Oscar Wilde knows the price of everything and the value of nothing, we can determine the asymptotic value of \(\langle h,h,h\rangle\) precisely...

和 Oscar Wilde 口中的那些 "知道一切事物的价格, 却不懂得任何一件的价值" 的愤世嫉俗者相反, 我们可以确定 \(\langle h,h,h\rangle\) 的渐进价值... (Strassen 所说的渐进价值是矩阵乘法张量的 subrank 的渐进行为, 他在这篇文章中证明了 \(Q(\langle h,h,h\rangle) = h^{2-o(1)}\).)

在 cap set 问题的这一突破之后, 人们又用它解决了很多其他问题, 并且提出了一些其他的 rank:

Gowers–Wolf 提出了有限域上张量的 analytic rank: 对于一个 \(\bbF_q\) 上的张量 \(T(x,y,z)\), 其 analytic rank 定义为

\[-\log_{|\bbF|} \operatorname*{\mathbb E}_{x,y,z} \chi(T(x,y,z)), \]

其中 \(\chi\) 是 \(\bbF\) 的一个非平凡的特征. 他们用这一概念来研究所谓的高维 Fourier 分析.

Kopparty–Moshkovitz–Zuiddam 提出了张量的 geometric rank: 将张量 \(T\) 看做 \(U\times V \to W\) 这个双线性映射, 若基域为代数闭域时, 定义其 geometric rank 为 \(\ker T = \{(x, y): T(x,y) = 0\} \subseteq K^{n+ m}\) 的余维数. (可以证明选取任何两个维度定义得到的结果都相同). 他们利用这个概念证明了 Strassen 对矩阵乘法的 border subrank 的下界估计是最优的.

神奇的是, slice rank, analytic rank 和 geometric rank 这三个完全不同的定义方式, 之间亦有着深刻的联系. Cohen–Moshkovitz 证明了, 对于一个张量 \(T\), 这三个 rank 之间永远只差一个常数倍.

秩方法的局限性

最后让我们来看一个来自代数复杂性领域的例子. 为了能够欣赏这个例子, 我们需要一些背景知识.

不用多说, 复杂性理论的基本目的就是证明问题的下界. 而代数复杂性理论的一个基本问题就是证明一些代数问题的下界. 比如说一个三阶张量 \(T\) 的 tensor rank, 是说最小的 \(r\) 使得 \(T\) 可以写作

\[T(x,y,z) = \sum_{i=1}^r f_i(x) g_i(y) h_i(z), \]

其中 \(f_i, g_i, h_i\) 是一些线性函数.

人们知晓的几乎所有得到下界的方法, 都来自于所谓的 "秩方法" (rank method). 这个方法简而言之, 就是将要计算的问题转换成某个矩阵. 这个转换方法要让容易的问题的秩来的小, 那么如果我们关心的问题转换成的矩阵的秩很大, 就说明问题很难.

首先为了进一步说服读者, 这里列举一下它确实解决了一些问题: 比如 Limaye–Srinivasan–Tavenas 在 2021 年的突破, 概括为两个代数复杂性类的分离:

\[\mathsf{AC^0} \subsetneq \mathsf{ABP}. \]

他们的证明方法归根结底还是考虑将多项式拍平成某个矩阵, 然后证明 \(\mathsf{AC^0}\) 电路对应的秩不能太大.

另一方面, 目前矩阵乘法 \(\langle h,h,h\rangle\) (这是一个 \(h^2\) 维的张量), 目前最优的 border rank 下界 (这是 rank 的某种松弛) 是 Landsberg–Ottaviani 给出的 \(\geq 2h^2 - h\).

具体来说, 对于证明 tensor rank 的下界, rank method 可以形式化为如下方法: 把 \(n\) 维的张量 \(T\) 看做 \(n^3\) 个变量. 考虑某个线性映射 \(L \colon \bbF^{n^3} \to \bbF^{m\times m}\) 把张量映到某种大小的矩阵. 设 \(M\) 为所有 rank 为 \(1\) 的张量 \(f(x)g(y)h(z)\) 中 \(\rank L(fgh)\) 的最大值, 那么就有 \(T\) 的 \(\rank L(T)\) 不超过 \(rM\), 其中 \(r\) 是 \(T\) 的 tensor rank. 自然, \((\rank L(T)) / M\) 就给出了 \(T\) 的 tensor rank 的下界.

就像复杂度理论中我们知道有自然证明 (natural proof) 障碍: 一个过于强的下界方法会排除一个电路类里有伪随机生成器的可能性. 那么这种 rank barrier 是否有类似的障碍呢? 如下结果告诉我们, 答案是肯定的.

定理 (Efremenko–Garg–Oliveira–Wigderson, 2017) 对于三阶张量, 对于任何 rank method 和任何张量 \(T\), 不可能用此证明超过 \(8n\) 的下界.

证明. 证明的想法是这样, 首先考虑 rank 1 的张量, 它形如 \(T_{ijk} = X_i Y_j Z_k\) 的形式. 将这个形式带入 \(L(T)\), 我们得到一个关于 \(X_{1\sim n}, Y_{1\sim n}, Z_{1\sim n}\) 的符号矩阵 \(G \in \bbF[X_{1\sim n}, Y_{1\sim n}, Z_{1\sim n}]^{m\times m}\). 那么我们总有 \(M = \rank G\).

如果一个矩阵的 \(\rank \leq M\), 我们知道, 那它应该可以写成两个矩阵乘积 \(UV\) 的形式, 其中 \(U\in \bbF^{n\times M}, V\in \bbF^{M\times n}\). 但是要注意的是, 这个结果一般的论域是在域上. 在我们的情况里, 就是 \(U, V\) 的元素是 \(\bbF(X_{1\sim n}, Y_{1\sim n}, Z_{1\sim n})\) 的.

我们先证明, 如果 \(U, V\) 在 \(\bbF[X_{1\sim n}, Y_{1\sim n}, Z_{1\sim n}]\) 成立会怎么样. 在这种情况下, 我们也就是将 \(G\) 写作了一些秩 \(1\) 矩阵的线性组合

\[G = \sum_{k\leq M} U_{k}^{\mathsf{T}} V_{k}. \]

接下来的事情是一个基本的代数复杂性道理: 齐次化 (homogenization). 既然 \(G\) 是从一个关于 \(T_{ijk}\) 线性的矩阵来的, 带入又满足 \(T_{ijk}=X_iY_jZ_k\), 那它每一项应该都是形如 \(X_i Y_j Z_k\) 的形式 (称为按集合多重线性, set-multilinear). 我们可以强制将每个 \(U_\ell, V_\ell\) 分离成成其中每一项都是按集合多重线性的形式. 得到 \(U_\ell(x)^{\mathsf T} V_\ell(y,z)\), \(U_\ell^{\mathsf T} V_\ell(x, y,z)\), 等等. 这会让矩阵中间层的大小变成原来的 \(2^3=8\) 倍.

现在, 我们把目光放到其中一项:

\[U_\ell(x)^{\mathsf T} V_\ell(y,z), \]

注意, 我们可以发现它是从某个关于 \(T_{ijk}\) 的矩阵投射过来的, 也就是

\[\sum_i x_i U_{\ell i}^{\mathsf T} \sum_{j,k} y_j z_k V_{\ell jk} = \sum_{ijk} T_{ijk} U_{\ell i}^{\mathsf T}V_{\ell jk} = \sum_i U_{\ell i}^{\mathsf T}\left( \sum_{j,k} T_{ijk} V_{\ell jk} \right). \]

根据最后这个求和顺序, 我们不妨说这个矩阵是 \(G_i(T)\), 那么 \(G = \sum_i G_i(XYZ)\). 每个 \(G_i\) 都满足 \(\rank G_i\leq n\), 这就说明了

\[\rank G \leq n \rank G_i \leq 8 Mn. \]

最后让我们回到一开始忽略的一个问题, 也就是 \(U, V\) 的元素可能是有理分式 \(\bbF(X_{1\sim n}, Y_{1\sim n}, Z_{1\sim n})\) 而不是多项式. 这是代数复杂性的另一个基本道理: 去除除法 (Vermeidung von Divisonen). 一般情况下, 就算一个分解是有理分式, 我们总可以写成 \(UV/F(X,Y,Z)\), 现在 \(U, V\) 都是多项式了.

不妨设 \(F\) 的常数项是 \(1\) (如果是 \(0\) 可以随机给 \(X,Y,Z\) 加一个随机数). 那么可以把 \(F^{-1}\) 用 \(((F-1)+1)^{-1}\) 的幂级数展开, 再做齐次化. 将前面的过程重新按照这个齐次化之后的结果推一边, 就能得到真正的一般意义上的 \(8n\) 结果. \(\square\)

容易看到, 上面的证明容易推广到 \(d\) 维张量, 无法用 rank method 证明高于 \(O(n^{\lfloor d/2\rfloor})\) 的界. 在这个问题里, 多项式方法可以体现在, 无论用何种方式划分, 矩阵都有一半只包含 \(\lfloor d/2\rlfoor\) 部变量.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/905696.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！