学习Kuczma等人的著作
基本概念
概念1: “neighborhood" 是指邻域, “vicinity” 是指空心邻域。
概念2: 设 \(X\) 是一个拓扑空间,\(Y\) 是一个度量空间,
称函数序列 \(\{f_n:X\to Y|n\ge 1\}\) 几乎一致 (almost uniformly, abbreviated to a.u.)
收敛到 \(f\) 当且仅当它收敛到 \(f\) 在 \(X\) 的每一个紧子集上是一致的。
概念3: 设 \(\Phi\) 是某一类函数,\(A\) 是一个集合,用 \(\Phi[A]\) 表示 \(\Phi\) 在 \(A\) 上的函数族。
我们说一个函数方程在 \(\Phi[X]\) 中有一个解 依赖于一个任意的函数 如果存在 \(X\) 的一个开子集 \(A\) 使得每一个 \(\Phi[A]\) 的解都
可以延拓为 \(X\) 上的解(不需要延拓唯一)。
第一章
定理 1.1
设 \(X\) 是 Haussdorff 拓扑空间, \(f:X\to X\) 是一个序列连续映射, 如果 \((f^n(x))_{n\ge 0}\) 收敛于 \(x_0\), 那么 \(x_0\) 是 \(f\) 的一个不动点。
证明
假设 \(f(x_0)\ne x_0\).
利用 \(T_2\)性质, 可以找到\(f(x_0)\)和\(x_0\) 的两个不相交的邻域 \(U\) 和 \(V\), 使得 \(f(x_0) \in U\) 且 \(x_0 \in V\).
因为 \(f^n(x)\to x_0\),所以存在 \(N\) 使得 \(n>N\) 时 \(f^n(x)\in V\).
利用 序列连续映射的性质, \(f(f^n(x))\to f(x_0)\), 所以存在 \(M>N\) 使得 \(n>M\) 时 \(f(f^n(x))\in U\),
即 \(f^n(x)\in U\) 对于任意的 \(n\ge M+1\).
于是 \(f^n(x)\in U\cap V=\emptyset\) 对于任意的 \(n\ge M+1\), 矛盾。
定理 1.2
设 \(X\) 是一个局部紧、\(T_2\)、 满足第一可数公理的拓扑空间,\(f:X\to X\), \(x\in X\) 使得 \(L_f(x)\) 非空。
再假设 \(f\) 在 \(L_f(x)\) 中每个点连续,则:
1. 如果 \(L_f(x)\) 是有限集合,则它是一条周期轨道;
2. 如果 \(L_f(x)\) 是无限集合且没有极限点,则它不包含任何周期轨道。
证明
1.
断言(1): 有限集合 \(L_f(x)\) 是一个周期轨道 \(\Leftrightarrow f(L_f(x))\subset L_f(x)\)
且对于 \(L_f(x)\) 的任一真子集 \(A\) 有 \(f(A)\nsubseteqq A\).
\(\Rightarrow\) 显然.
\(\Leftarrow\) 任取 \(x_0\in L_f(x)\), 我们有 \(\{x_0,f(x_0),f^2(x_0),\cdots\}\subset L_f(x)\).
因为 \(L_f(x)\) 是有限集合, 于是存在 \(m<n\) 使得 \(f^m(x_0)=f^n(x_0)\)
(这里假设 \(n\) 是 \(m\) 之后满足此等式的第一个值)
即 \(f^m(x_0)=f^{n-m}(f^m(x_0))\),
从而 \(\{f^m(x_0), f^{m+1}(x_0),\cdots, f^{n-m-1}(f^m(x_0))\}=L\) 是 \(L_f(x)\) 的一个子集
且它满足 \(f(L)\subset L\), 于是它一定不是一个真子集(否则与假设矛盾),
即 \(L=L_f(x)\),即 \(L_f(x)\) 是一个周期轨道。
用矩阵的特征值估计矩阵范数
引理 1.1
假设 \(A\) 是一个实或复的 \(N \times N\) 矩阵,\(A\) 的所有特征值集合为 \(\sigma(A) = \{\lambda_1, \lambda_2, \cdots, \lambda_N\}\),
它们满足 \(0<|\lambda_1| \le |\lambda_2| \le \cdots \le |\lambda_N|\). 那么
\({\bf (i)}\). 对于任意给定的 \(\varepsilon_0 > 0\),存在一个非奇异 \(N \times N\) 矩阵 \(P(\varepsilon_0)\) 使得
\[|\lambda_1| - \varepsilon_0 \le \|P(\varepsilon_0)^{-1} A P(\varepsilon_0)\| < |\lambda_N| + \varepsilon_0,
\]
\({\bf (ii)}\). 对于任意给定的 \(\varepsilon_0 > 0\),存在一个非奇异 \(N \times N\) 矩阵 \(P(\varepsilon_0)\) 使得
\[\|P(\varepsilon_0)^{-1} A P(\varepsilon_0)\| < |\lambda_N| + \varepsilon_0, \quad
\|P(\varepsilon_0)^{-1} A^{-1} P(\varepsilon_0)\| < \frac{1}{|\lambda_1|} + \varepsilon_0.
\]
证明
(i)
我们可以找到一个非奇异矩阵 \(P\) 使得
\[P^{-1} A P = \operatorname{diag}(A_1, \cdots, A_k),
\]
其中 \(A_i\) 是一个 \(n_i \times n_i\) 上三角矩阵,它的对角的元素是 \(\lambda_i\) 且与对角线平行的上一行元素为 \(1\),其余位置元素全为 \(0\)。
令
\[P_i(\varepsilon) := \operatorname{diag}(\varepsilon, \varepsilon^2, \cdots, \varepsilon^{n_i}), \quad
P(\varepsilon) := \operatorname{diag}(P_1(\varepsilon), P_2(\varepsilon), \cdots, P_k(\varepsilon)).
\]
则
\[P(\varepsilon)^{-1} P^{-1} A P P(\varepsilon) = \operatorname{diag}(\tilde{A}_1, \cdots, \tilde{A}_k),
\]
其中 \(\tilde{A}_i\) 是一个 \(n_i \times n_i\) 上三角矩阵,它的对角的元素是 \(\lambda_i\) 且与对角线平行的上一行元素为 \(\varepsilon\),其余位置元素全为 \(0\)。
在矩阵范数为 \(1\) 范数的情况下,
\[\begin{equation}
\tag{eq:1}
|\lambda_1| \le \|P(\varepsilon)^{-1} P^{-1} A P P(\varepsilon)\| \le |\lambda_N| + \varepsilon.
\end{equation}
\]
因为\(\tilde{A}_i^{-1}\)是一个 \(n_i \times n_i\) 上三角矩阵,它的对角的元素是 \(\lambda_i^{-1}\) 且与对角线平行的上一行元素为 \(-\varepsilon / \lambda_i^2\),其余位置元素全为 \(0\)。
在矩阵范数为 \(1\) 范数(\(\color{red}{\text{即, 列和最大范数}}\))的情况下,
\[\begin{equation}
\tag{eq:2}
\|P(\varepsilon)^{-1} P^{-1} A^{-1} P(\varepsilon)\| \le
\frac{1}{|\lambda_1|} + \frac{\varepsilon}{|\lambda_1|^2}.
\end{equation}
\]
令 \(\bar{A}(\varepsilon) = P(\varepsilon)^{-1} P^{-1} A^{-1} P P(\varepsilon)\),那么
\[\|\bar{A}(\varepsilon)\| \le |\lambda_N| + \varepsilon, \quad
\|\bar{A}(\varepsilon)^{-1}\| \le
\frac{1}{|\lambda_1|} + \frac{\varepsilon}{|\lambda_1|^2}.
\]
利用
\[1 = \|AA^{-1}\| \le \|A\| \|A^{-1}\| \Rightarrow
\|A^{-1}\| \ge \frac{1}{\|A\|}, \quad \|A\| \ge \frac{1}{\|A^{-1}\|},
\]
中的最后一个不等式和 \(\|A^{-1}\|\) 的估计,我们有
\[\frac{1}{\frac{1}{|\lambda_1|} + \frac{\varepsilon}{|\lambda_1|^2}} \le
\frac{1}{\|\bar{A}(\varepsilon)^{-1}\|} \le
\|\bar{A}(\varepsilon)\| \le |\lambda_N| + \varepsilon.
\]
对于事先给定的 \(\varepsilon_0 > 0\),取 \(\varepsilon (< \varepsilon_0)\) 充分小以至于
\[\frac{1}{\frac{1}{|\lambda_1|} + \frac{\varepsilon}{|\lambda_1|^2}} > |\lambda_1| - \varepsilon_0,
\]
即对于这样的 \(\varepsilon\),我们有
\[|\lambda_1| - \varepsilon_0 <
\|\bar{A}(\varepsilon)\| = \|P(\varepsilon)^{-1} P^{-1} A^{-1} P P(\varepsilon)\| < |\lambda_N| + \varepsilon_0.
\]
至此,我们证明了 (i)。
(ii) 对于事先给定的\(\varepsilon_0>0\),
选取\(\varepsilon(<\varepsilon_0)\)充分小以至于在(eq:2)中,
\[\frac{1}{|\lambda_1|}+\frac{\varepsilon}{|\lambda_1|^2}<\frac{1}{|\lambda_1|}+\varepsilon_0.
\]
把 (eq:1)和(eq:2)结合起来, 我们证明了{\bf (ii)}.
注记
利用上面是结论我们可以很容易地证明我们在常微分方程中经常使用的一个结论:
设\(A\)是一个实矩阵,
\(A\)的谱集为\(\sigma(A)=\{\lambda_1,\lambda_2,\cdots,\lambda_N\}\).
如果\(A\)的所有特征值的实部都小于\(0\),
那么对于存在\(\rho<0\), 存在常数 \(K>0\) 使得
\[\|e^{At}\|\le K e^{\rho t},~~t\ge 0.
\]
事实上, \(e^{A}\)的谱集为\(\{e^{\lambda_1},e^{\lambda_2},\cdots,e^{\lambda_N}\}\).
不妨假设在所有特征值中, \(\lambda_N\)的实部最大, 那么
\[\max_{1\le i\le N}|e^{\lambda_i}|=e^{Re(\lambda_N)}.
\]
利用引理\ref{lem:1.1}中的结论, 对于任意的\(\varepsilon>0\),我们可以找到一个非奇异矩阵\(P(\varepsilon)\)使得
\[\|P(\varepsilon)^{-1}e^{A}P(\varepsilon)\|<e^{Re(\lambda_N)}+\varepsilon=:e^{Re(\lambda_N)+\delta},~~
\]
where
\[\delta=\log\left(\varepsilon+e^{Re(\lambda_N)}\right)-Re(\lambda_N),
\]
关于\(\varepsilon\)连续, \(\delta\to 0\) as \(\varepsilon\to 0\).
现在, 取定\(\varepsilon>0\)充分小以至于\(\rho:=\delta+Re(\lambda_N)<0\),
那么我们有
\[\begin{aligned}
\|e^{At}\|=&\|P(\varepsilon) P(\varepsilon)^{-1}e^{At}P(\varepsilon)P^{-1}(\varepsilon)\|\\
\le&\|P(\varepsilon)\|\|P(\varepsilon)^{-1}e^{At}P(\varepsilon)\|\|P(\varepsilon)^{-1}\|\\
\le&\|P(\varepsilon)\| \|P(\varepsilon)^{-1}\|e^{(Re(\lambda_N)+\delta)t}\\
=&K e^{\rho t}, ~~K=\|P(\varepsilon)\| \|P(\varepsilon)^{-1}\|,
\end{aligned}
\]
上面证明中用到
\[\begin{aligned}
(P(\varepsilon)^{-1}e^{A}P(\varepsilon))^t
=&(e^{(P(\varepsilon)^{-1}AP(\varepsilon))})^t
=e^{(P(\varepsilon)^{-1}(At)P(\varepsilon))}\\
=&\sum_{n=0}^{\infty}\frac{(P(\varepsilon)^{-1}(At)P(\varepsilon))^n}{n!}\\
=&\sum_{n=0}^{\infty}\frac{P(\varepsilon)^{-1}(At)^nP(\varepsilon)}{n!}\\
=&P(\varepsilon)^{-1}\sum_{n=0}^{\infty}\frac{(At)^n}{n!}P(\varepsilon)\\
=&P(\varepsilon)^{-1}e^{At}P(\varepsilon).
\end{aligned}
\]
映射的正规形理论:
引理
[参见《Geometry of polynomials》, Morris Marden, publied by the AMS, 1966, page 3, Theorem 1.4]
考虑下面的复多项式(变量和系数都在复数域中考虑):
\[\begin{aligned}
f(z)&=a_0+a_1z+a_2z^2+\cdots+a_{n-1}z^{n-1}+a_nz^n=a_n\prod_{j=1}^{p}(z-z_j)^{m_j},~(z_i\ne z_j,i\ne j),~a_n\ne 0,\\
F(z)&=(a_0+\varepsilon_0)+(a_1+\varepsilon_1)z+(a_2+\varepsilon_2)z^2+
\cdots+(a_{n-1}+\varepsilon_{n-1})z^{n-1}+a_nz^n.
\end{aligned}
\]
固定\(1\le k\le p\), 那么每一个\(r_k\)满足:
\[0<r_k<\min_{i\ne k}|z_k-z_i|,
\]
都存在相应的\(\varepsilon>0\)使得: 只要\(|\varepsilon_j|<\varepsilon,~j=0,1,\cdots,n-1\),
就会有\(F(z)\)在\(C_k=\{z:|z-z_k|=r_k\}\)的内部\({\rm int}C_k\)恰好有\(m_k\)个零点.
这个结论与我们意识是一致的, 因此它的结论的容易记住的, 它的证明是Rouch'e定理的一个简单应用, Rouch'e定理是复分析
中辐角原理的简单推论, 这里不再陈述. 下面我们证明此结论.
证明.
令
\[g(z):=F(z)-f(z)=\varepsilon_0+\varepsilon_1 z+ \varepsilon_2 z^2+\cdots+\varepsilon_{n-1}z^{n-1}.
\]
做一个简单的估计我们得到: 对于\(|\varepsilon_i|<\varepsilon,i=0,\cdots,n-1,\)
\[|g(z)|\le \varepsilon (1+(r_k+|z_k|)+\cdots+(r_k+|z_k|)^{n-1})=\varepsilon M_k,~~~z\in C_k,
\]
且
\[|f(z)|=|a_n|r_k^{m_k}\prod_{i=1,i\ne k}^{p} |z-z_i|^{m_i}\ge
|a_n|r_k^{m_k}\prod_{i=1,i\ne k}^{p} (|z_i-z_k|-r_k)^{m_i}=:\delta_k>0.
\]
因此只要
\[0<\varepsilon<\frac{\delta_k}{M_k},
\]
那么就有\(|g(z)|<|f(z)|\)对于\(z\in C_k\)成立, 于是
Rouch'e定理就可以保证\(F(z)=f(z)+g(z)\)和\(f(z)\)在\({\rm int} C_k\)有相同个数的零点(按重数统计).
证毕.
注记:
注意: 在上面的证明中我们很容易可以看出: 当\(r_k\to 0\)时, \(\delta_k\to 0\), 进而\(\varepsilon\to 0\).
这说明了:\(n\to \infty\)时, \(f_n(\lambda)\)的每一个零点都趋于\(f(\lambda)\)的一个零点.
比上面的一个引理更一般的结论是下面的引理.
引理
[参见《Geometry of polynomials》, Morris Marden, publied by the AMS, 1966, page 4, Theorem 1.5]
假设\(R\)是一个复平面上的一个区域, \({f_n(z):n\ge 1}\)是\(R\)上的一列解析函数,
在\(R\)的任一闭子集上一致收敛于\(f(z) \not\equiv 0\).
假设\(f_n(z_n)=0\)且\(z_n\to \zeta\in {\rm int}R\), 那么\(f(\zeta)=0\).
反之, 假设\(\zeta\in {\rm int}R\)是\(f\)的\(m\)重零点, 那么对\(\zeta\)的任一充分小邻域\(U\)(这里充分小足以保证内部除了\(\zeta\)外没有其他零点),
存在一个\(N(U)\)使得\(f_n\)在\(U\)的内部恰好有\(m\)个零点对\(\forall n>N(U)\).
证明.
反设\(f(\zeta)\ne 0\), 那么存在\(\varepsilon_0>0\)使得\(|f(\zeta)|\ne 0\)
对于\(z\in K:=\{z\in \mathbb{C}||z-\zeta|\le\varepsilon_0\}\).
在\(K\)上\(f_n(z)\)一致收敛于\(f(z)\),
于是\(f(z)\)在\(K\)上解析.
\(f(z)\)在紧集\(\partial K\)上\(f\)可以取到最小值\(m>0\).
因为\(K\)上\(f_n(z)\)一致收敛于\(f(z)\), 所以存在\(N=N(K)\)使得对于\(n>N\)有
\[|f_n(z)-f(z)|<m,~~\forall z\in K.
\]
在\(\partial K\)上,
\[|f_n(z)-f(z)|<m\le |f(z)|,~~\forall z\in \partial K.
\]
Rouch'e定理保证了\(f_n(z)\)和\(f(z)\)在\({\rm int}K\)上有相同个数的零点.
现在由假设\(f(z)\)在\({\rm int}K\)上没有零点, 所以\(f_n(z)\)在\({\rm int}K\)上也没有零点,
这样与\(z_n\to \zeta\)矛盾.
反之, 假设\(\zeta\)是\(f\)的\(m\)重零点.
对于\(\zeta\)的任一邻域\(U\), 我们可以取\(\varepsilon_0>0\)充分小以至于\(|f(\zeta)|>0\)
对于\(z\in \partial B_{\varepsilon_0}(\zeta)\subset U\),
其中\(B_{\varepsilon_0}(\zeta)=\{z\in \mathbb{C}||z-\zeta|<\varepsilon_0\}\).
\(f(z)\)在\(B_{\varepsilon_0}(\zeta)\)上取到最小值\(m>0\).
再次利用\(f_n(z)\)在\(U\)上一致收敛于\(f(z)\), 存在\(N=N(U)\)使得对于\(n>N\)有
\[|f_n(z)-f(z)|<m,~~\forall z\in U.
\]
继续和上面一样的推理得到\(f_n(z)\)在\(U\)的内部恰好有\(m\)个零点对\(\forall n>N(U)\).
证毕.
引理 1.2
假设\(f:\mathbb{R}^N\to \mathbb{R}^N\)是一个\(C^\infty\)映射, \(f(0)=0\), \(S:=Df(0)\)的所有特征值
\(\sigma(S)=\{\lambda_1,\lambda_2,\cdots,\lambda_N\}\)满足非共振条件
\[\lambda_1^{k_1}\lambda_2^{k_2}\cdots \lambda_N^{k_N}\ne \lambda_i,
\forall i=1,2,\cdots,N, \forall k_1+k_2+\cdots+k_N\ge 2,~~~(k_i\ge 0).
\]
那么对于任意的正整数\(r\), 存在一个\(C^\infty\)映射\(\sigma\)定义在\(0\)的某个邻域上,
使得
\[\sigma(0)=0,~~\sigma^\prime(0)=E
\]
且
\[\sigma (f(\sigma^{-1}(x)))=Sx+o(|x|^{r}),~~x\to 0,
\]
证明
考虑下面的共轭方程
\[\sigma(f(x))=g(\sigma(x)).
\]
令
\[f(x)=Sx+\sum_{i=2}^{\infty}X_i(x),~~g(x)=Sx+\sum_{i=2}^{\infty}Y_i(x),~~~\sigma(x)=x+\sum_{i=2}^{\infty}Z_i(x).
\]
这里\(X_i,Y_i,Z_i\in H_n^i\), 其中\(H_n^i\)是\(n\)元\(n\)维\(i\)次齐次多项式的集合.
把他们代入上面的方程, 我们有
\[Sx+\sum_{i=2}^{\infty}X_i(x)+\sum_{i=2}^{\infty}Z_i(Sx+\sum_{j=2}^{\infty}X_j(x))
=Sx+S\sum_{i=2}^{\infty}Z_i(x)+\sum_{i=2}^{\infty}Y_i(x+\sum_{j=2}^{\infty}Z_i(x)).
\]
现在对比两边的\(k\)次项, 我们有
\[X_k(x)+\left(\sum_{i=2}^{k} Z_i(Sx+\sum_{j=2}^{k-1}X_j(x))\right)_k
=SZ_k(x)+Y_k(x)+\left(\sum_{i=2}^{k-1}Y_i(x+\sum_{j=2}^{k-1}Z_j(x))\right)_k,
\]
这里\((\cdot)_k\)表示取\(k\)次项.
对上式再次简化, 我们有
\[X_k(x)+Z_k(Sx)+\left(\sum_{i=2}^{k-1} Z_i(Sx+\sum_{j=2}^{k-1}X_j(x))\right)_k
=SZ_k(x)+Y_k(x)+\left(\sum_{i=2}^{k-1}Y_i(x+\sum_{j=2}^{k-1}Z_j(x))\right)_k,
\]
于是
\[\begin{aligned}
Z_k(Sx)-SZ_k(x)
&=Y_k(x)+\left(\sum_{i=2}^{k-1}Y_i(x+\sum_{j=2}^{k-1}Z_j(x))\right)_k-
X_k(x)-\left(\sum_{i=2}^{k-1} Z_i(Sx+\sum_{j=2}^{k-1}X_j(x))\right)_k\\
&=Y_k(x)-\tilde{X}_k(x),
\end{aligned}
\]
其中
\[\tilde{X}_k(x):=X_k(x)+\left(\sum_{i=2}^{k-1} Z_i(Sx+
\sum_{j=2}^{k-1}X_j(x))\right)_k-\left(\sum_{i=2}^{k-1}Y_i(x+\sum_{j=2}^{k-1}Z_j(x))\right)_k,
\]
它中只含有\(Z\)和\(Y\)中的下标小于\(k\)的项.
注意\(Z_k,k=2,\cdots,r\)可以用上面的方程递归的求出.
现在定义算子
\[M_S^k: H_n^k\to H_n^k,~~~M_S^k(Z_k(x)):=Z_k(Sx)-SZ_k(x).
\]
它的值域设为\(R_S^k\), 并设\(E_S^k\)是它的一个补空间, 即\(H_n^k=R_S^k\oplus E_S^k\).
进而可以假设\(H_n^k\)到\(R_S^k\)和\(E_S^k\)的投影分别是\(\pi_{R(k)}\)和\(\pi_{E(k)}\).
我们有
\[M_S^k(Z_k(x))=Y_k(x)-\tilde{X}_k(x)=(Y_k-\pi_{E(k)}\tilde{X}_k(x))-\pi_{R(k)}\tilde{X}_k(x).
\]
可见, 我们想要让\(g\)中含有的项数尽可能的少, 我们可以选择
\[Y_k=\pi_{E(k)}\tilde{X}_k(x).
\]
最为理想的情况是这个算子是一个满射, 即\(R_S^k=H_n^k\), \(E_S^k=\{0\}\).
这样我们能取到\(Y_k=0\), 于是\(g\)中的\(k\)次项全部被"打掉".
对于本引理中的情况, 我们下面证明对于给定正整数的\(r\), 我们能做到\(g\)的\(2,\cdots,r\)次项都可以被"打掉".
(至于说\(r=\infty\)的情况,
我们形式上可以一直找\(Z_k\), 一直打下去,
但最终得到的形式级数 \(\sigma\) 的收敛性, 我们未加判断, 这就是为什么结论只对任意给定的\(r\), 给出了结果).
下面我们来推导\(M_S^k\)的的特征值和特征向量.
\(H_n^k\)中有一组基为
\[x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i,~~~\alpha_1+\alpha_2+\cdots+\alpha_n=k,~~~i=1,2,\cdots,n,
\]
我们计算
\[M_S^k(x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i).
\]
假设\(S={\rm diag}(\lambda_1,\cdots,\lambda_N)\),
那么 (注意\(x=(x_1,\cdots,x_N),Sx=(\lambda_1x_1,\cdots,\lambda_Nx_N)\))
\[\begin{aligned}
M_S^k(x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i)
&=(\lambda_1x_1)^{\alpha_1}(\lambda_2x_2)^{\alpha_2}\cdots (\lambda_Nx_N)^{\alpha_N}e_i
-\lambda_i x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i\\
&=(\lambda_1^{\alpha_1}\lambda_2^{\alpha_2}\cdots \lambda_N^{\alpha_N}-\lambda_i)x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i,
\end{aligned}
\]
这表明\(M_S^k\)有特征值\(\lambda_1^{\alpha_1}\lambda_2^{\alpha_2}\cdots \lambda_N^{\alpha_N}-\lambda_i\),
对应特征向量是\(x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i\).
可见, 在上面的基下, \(M_S^k\)是一个对角矩阵, 它的对角元由
\(\lambda_1^{\alpha_1}\lambda_2^{\alpha_2}\cdots \lambda_N^{\alpha_N}-\lambda_i\)组成.
利用非共振条件, 我们可以保证\(M_S^k\)是非奇异的, 于是\(R_S^k=H_n^k\), \(E_S^k=\{0\}\).
如果\(S\)不是对角的, 但是可以对角化, 比如\(S=P^{-1}{\rm diag}(\lambda_1,\cdots,\lambda_N)P\).
我们证明: \(M_{P^{-1}SP}^k=P^{-1}M_S^kP\), 进而利用相似矩阵的特征值相同的性质,
我们得到\(R_{S}^k\)的特征值也是那些. 事实上,
令\(h_{\alpha,i}=x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_n^{\alpha_n}e_i\),
\[\begin{aligned}
&M_{P^{-1}SP}^k(h_{\alpha,i})(x)\\
=&h_{\alpha,i}(P^{-1}SPx)-P^{-1}SPh_{\alpha,i}(x)~~(\text{现在我们要尽量把第一个括号中$S$后面的部分换掉})\\
=&h_{\alpha,i}(P^{-1}Sy)-P^{-1}SPh_{\alpha,i}(P^{-1}y)~~~(y=Px)\\
=&P^{-1}(Ph_{\alpha,i}(P^{-1}Sy)-SPh_{\alpha,i}(P^{-1}y))~~~(U_{\alpha,i}=Ph_{\alpha,i}P^{-1})\\
=&P^{-1}(U_{\alpha,i}(Sy)-SU_{\alpha,i}(y))~~~(\text{现在有点像我们需要的结果})\\
=&P^{-1}M_S^k(U_{\alpha,i}(y))~~~(\text{从这里开始把变量回代})\\
=&P^{-1}M_S^k(P^{-1}h_{\alpha,i}(P^{-1}y))=P^{-1}M_S^k(P^{-1}h_{\alpha,i}(x))\\
=&(P^{-1}M_S^kP^{-1})(h_{\alpha,i})(x).
\end{aligned}
\]
这就证明了\(M_{P^{-1}SP}^k=P^{-1}M_S^kP\).
断言:
- 如果\(S\)不能对角化, 我们可以找到一列可以对角化的矩阵\(S_n\)收敛到\(S\);
- \(M_{S_n}^k\)的特征值收敛到\(M_S^k\)的特征值;
- 利用\(M_{S_n}^k\)的特征值可以用上面的形式给出, 于是\(M_S^k\)的特征值也是那些.
首先证明1: 如果\(S\)不能对角化, 我们可以找到一列可以对角化的矩阵\(S_n\)收敛到\(S\).
复相似意义下, \(P^{-1}SP\)是上三角的, 我们给\(P^{-1}SP\)的对角线上的元素依次加上(\(n\)充分大)
\[\left(\frac{1}{n},\frac{1}{n^2},\cdots,\frac{1}{n^N}\right)
\]
得到新的矩阵, 记为\(P^{-1}S_nP\). 明显
\[P^{-1}S_nP\to P^{-1}SP,~~~S_n\to S,~~~n\to \infty,
\]
\(n\)充分大我们可以保证\(S_n\)的特征值互不相同, 从而可以对角化.
接着证明2:\(M_{S_n}^k\)的特征值收敛到\(M_S^k\)的特征值.
考虑特征多项式:
\[\begin{aligned}
f_n(\lambda)&=|\lambda E-P^{-1}S_nP|=\lambda^N+a_{N-1}(n)\lambda^{N-1}+\cdots a_1(n)\lambda+a_0(n),\\
f(\lambda)&=|\lambda E-P^{-1}SP|=\lambda^N+a_{N-1}\lambda^{N-1}+\cdots a_1\lambda+a_0.
\end{aligned}
\]
利用矩阵行列式的性质: \(a_i\)是\(P^{-1}SP\)中元素的多元多项式.
\(P^{-1}S_nP\to P^{-1}SP\)蕴含\(P^{-1}S_nP\)每一个位置的元素趋于\(P^{-1}SP\)的相应位置的元素,
于是\(a_i(n)\to a_i,i=0,\cdots,N-1\).
现在我们利用引理\ref{polynomial-root}, 它说明: 对于\(f(\lambda)\)的零点\(\lambda_0\), 设其重数是\(m_0\),
对于每一个\(\varepsilon\), 存在正整数\(M=M(\varepsilon)\), 使得\(\forall n>M\),
\(f_n(\lambda)\)在
\(B_{\varepsilon}(\lambda_0)=\{z\in\mathbb{C}||z-\lambda_0|<\varepsilon\}\)内恰好有\(m_0\)个零点.
令\(\varepsilon\to \infty\), 恰好有\(f_n(\lambda)\)的\(m_0\)个零点同时趋于\(\lambda\). 这就是我们要证明的.
最后我们证明3: \(M_{S_n}^k\)的特征值可以用上面的形式给出, 于是\(M_S^k\)的特征值也是那些.
事实上, 利用上面一段的结论, 我们可以假设
\[\begin{aligned}
&\lambda_{11}(n), \lambda_{12}(n),\cdots,\lambda_{1m_1}(n)&\to \lambda_1,\\
&\lambda_{21}(n), \lambda_{22}(n),\cdots,\lambda_{2m_2}(n)&\to \lambda_2,\\
&\cdots\cdots\\
&\lambda_{p1}(n), \lambda_{p2}(n),\cdots,\lambda_{pm_p}(n)&\to \lambda_p.
\end{aligned}
\]
这里的\(m_i\)是\(\lambda_i\)作为\(P^{-1}S_nP\)的特征值的代数重数.
利用已经证明的结论: \(M_{S_n}^k\)的特征值是:
\[\left(\lambda_{11}(n)^{k_{11}} \cdots \lambda_{1m_1}(n)^{k_{1m_1}}\right)
\left(\lambda_{21}(n)^{k_{21}} \cdots \lambda_{2m_2}(n)^{k_{2m_2}}\right)
\cdots
\left(\lambda_{p1}(n)^{k_{p1}} \cdots \lambda_{pm_p}(n)^{k_{pm_p}}\right)
-\lambda_{ij}(n),
\]
其中非负整数\(k_{ij}\)满足
\[k_{11}+\cdots+k_{1m_1}+\cdots+k_{p1}+\cdots+k_{pm_p}\ge 2.
\]
令\(n\to \infty\), 我们得到
\[\lambda_1^{k_{11}+\cdots+k_{1m_1}} \lambda_2^{k_{21}+\cdots+k_{2m_1}}\cdots
\lambda_p^{k_{p1}+\cdots+k_{pm_p}}-\lambda_i
\]
令
\[k_1=k_{11}+\cdots+k_{1m_1},~~k_2=k_{21}+\cdots+k_{2m_1},\cdots,~~k_p=k_{p1}+\cdots+k_{pm_p},
\]
那么
\[\lambda_1^{k_1}\lambda_2^{k_2}\cdots \lambda_p^{k_p}-\lambda_i.
\]
至此我们完成了整个断言的证明.
对于固定的\(r\), 我们可以找到\(Z_k,k=2,\cdots,r\)使得\(g\)的\(2,\cdots,r\)次项都被"打掉",
这样得到的\(\sigma\)是多项式, 从而是\(C^\infty\)的. 证毕.
注记1.1
最后作为我们证明下面的\(C^r\)线性化定理做准备, 我们可以从上面的证明中看到, 如果\(S\)的特征值直到\(r\)阶非共振,
那么\(\sigma\)的前\(r\)阶展开的项是唯一确定的, 因为\(M_S^k(k=2,\cdots,r)\)都是可逆算子.
\(\mathbb{R}^n\)上的\(C^r\)线性化定理.
定理1.3
假设
-
(H1) \(X\) 是 \(\mathbb{R}^N\) 中原点的一个邻域, \(f:X \to \mathbb{R}^N\) 是一个 \(C^r\) 映射, \(r \ge 1\),
\(f(0) = 0\), \(S = Df(0)\) 的所有特征值 \(\sigma(S) = \{s_1, s_2, \cdots, s_N\}\)满足\(0 < |s_1| \le |s_2| \le \cdots |s_N| < 1\),
且直到 \(r\) 阶非共振, 即
\[s_1^{k_1}s_2^{k_2}\cdots s_N^{k_N} \ne s_i, \forall i=1,2,\cdots,N, \forall 2 \le k_1+k_2+\cdots+k_N \le r
\]
这里 \(k_i\) 是非负整数.
-
(H2)
\(f^{(r)}(x) = f^{(r)}(0) + O(|x|^\delta), x \to 0, 0 < \delta \le 1.\)
在假设 (H1) (H2) 下, 如果
\[|s_N|^{r+\delta} < |s_1|,
\]
那么 Schroder 方程
\[\sigma(f(x)) = S\sigma(x)
\]
在原点的一个邻域 \(U\) 中有唯一的\(C^r\)解 \(\sigma: U \to \mathbb{R}^N\) 满足
\[\sigma(0) = 0, \quad \sigma'(0) = E (\text{单位矩阵}), \quad \sigma^{(r)}(x) = \sigma^{(r)}(0) + O(|x|^\delta), \quad x \to 0.
\]
证明
我们将利用 Banach's 不动点定理证明这个定理.
分为以下几步:
- 构造空间 \((\Phi, \rho)\), \(\rho\) 是 \(\Phi\) 中的度量.
- 定义映射 \(T: \Phi \to \Phi\).
- 证明 \((\Phi,\rho)\) 在此度量下是完备的.
- 证明 \(T(\Phi) \subset \Phi\).
- 证明 \(T\) 是一个压缩映射.
Step 1. 构造空间 \((\Phi, \rho)\).
令 \(U := \{x \in \mathbb{R}^N \, | \, |x| \le b\}\), 其中 \(b > 0\) 是一个足够小的常数.
定义
\[\Phi := \{\sigma \in C^r(U, \mathbb{R}^N) \, | \, \sigma(0) = 0, \sigma'(0) = E,
\sigma^{(p)}(0) = \eta_p, 2 \le p \le r, \sigma^{(r)}(x) = \sigma^{(r)}(0) + O(|x|^\delta), x \to 0\},
\]
\(\color{red}{\text{其中} \eta_p \text{是利用正规形中的方法计算出来, 正如我们在引理1.2证明后面的注记 1.1 中指出的.}}\)
赋予 \(\Phi\) 一个度量 \(\rho\):
\[\rho(\sigma_1, \sigma_2) := \sup_{0 < |x| \le b} \frac{\|\sigma_1^{(r)}(x) - \sigma_2^{(r)}(x)\|_r}{|x|^\delta},
\]
其中
\[\|\sigma^{(r)}(x)\|_r := \left(\sum_{i=1}^{N} \sum_{k_1 + k_2 + \cdots + k_N = r}
\left|\frac{\partial^r \sigma_i(x)}{\partial x_1^{k_1} x_2^{k_2} \cdots x_N^{k_N}}\right|^2\right)^{1/2}.
\]
(容易验证 \(\rho\) 满足度量的三条公设: \(\rho(\sigma_1, \sigma_2) \ge 0\),
等号成立当且仅当 \(\sigma_1 = \sigma_2\);
\(\rho(\sigma_1, \sigma_2) = \rho(\sigma_2, \sigma_1)\);
\(\rho(\sigma_1, \sigma_3) \le \rho(\sigma_1, \sigma_2) + \rho(\sigma_2, \sigma_3)\).)
Step 2. 定义映射 \(T: \Phi \to \Phi\) :
\[T(\sigma)(x) := S^{-1}\sigma(f(x)).
\]
说明 \(T\) 的合理性: 因为 \(S\) 的所有特征值满足
\[0 < |s_1| \le |s_2| \le \cdots |s_N| < 1,
\]
利用引理 1.1, 我们可以找到一个非奇异矩阵 \(P\) 使得 \(\|P^{-1}SP\| < 1\), 因此对任何 \(\theta \in (|s_N|, 1)\), 可以适当缩小 \(b\) 使得
\[\|P^{-1}f^\prime (P(x))\| < \theta, \quad \frac{\|P^{-1}f^\prime (P(x))\|}{|x|} < \theta, \quad \forall \, x \in U.
\]
查看原方程
\[\sigma(f(x)) = S\sigma(x) \quad (\Leftrightarrow P^{-1}\sigma P P^{-1}(f(Px)) = P^{-1}SPP^{-1}\sigma(Px)).
\]
令 \(x = Px'\), \(\hat{f} = P^{-1}(f(P \cdot))\), \(\hat{\sigma} = P^{-1}\sigma(P \cdot)\),
我们得到一个新的方程
\[\hat{\sigma}(\hat{f}(x)) = \hat{S}\hat{\sigma}(x).
\]
对于这个新方程而言, 我们有 \(\hat{f}^\prime(0) = P^{-1}f(0)^\prime P\), 且
\[\|\hat{f}^\prime(x)\| < \theta, \quad \frac{\|\hat{f}(x)\|}{|x|} < \theta, \quad \forall \, x \in U.
\]
因此我们可以假设
\[\|f^\prime(x)\| < \theta, \quad \frac{\|f(x)\|}{|x|} < \theta, \quad \forall \, x \in U.
\]
由上面第二个不等式, 我们有 \(f(U) \subset U\), 这样我们证明了 \(T\) 是 "well-defined".
Step 3. 证明 \((\Phi, \rho)\) 在此度量下是完备的.
假设 \(\{\sigma_n\}\) 是 \(\Phi\) 中的一个 Cauchy 序列, 即对于任意给定的 \(\varepsilon > 0\), 存在 \(N\) 使得 \(m > n \ge N\) 时,
\[\rho(\sigma_m, \sigma_n) < \varepsilon.
\]
下面我们要找一个 \(\sigma \in \Phi\) 使得 \(\sigma_n \xrightarrow{\text{依度量 }\rho\text{收敛于}} \sigma\).
按照 \(\rho\) 的定义, 我们有
\[\sup_{0 < |x| \le b} \frac{\|\sigma_m^{(r)}(x) - \sigma_n^{(r)}(x)\|_r}{|x|^\delta} < \varepsilon.
\]
因此,
\[\|\sigma_m^{(r)}(x) - \sigma_n^{(r)}(x)\|_r
= \left( \sum_{i=1}^{N} \sum_{k_1 + \cdots + k_N = r}
\left(\frac{\partial^r}{\partial x_1^{k_1} \cdots \partial x_N^{k_N}}
(\sigma_m^i(x) - \sigma_n^i(x))\right)^2 \right)^{1/2}, \quad \forall m > n \ge N, \forall x \in U.
\]
这表明对一组固定的 \(i \in \{1, 2, \cdots, N\}\) 和非负整数 \(k_1, k_2, \cdots, k_N\) 满足 \(k_1 + k_2 + \cdots + k_N = r\),
这个函数序列
\[\left(\frac{\partial^r \sigma_n^i(x)}{\partial x_1^{k_1} \cdots \partial x_N^{k_N}}\right)_n
\]
是空间 \(C(U, \mathbb{R})\) 中的一个 Cauchy 序列 (赋予度量 "sup" 范数), 这是一个完备度量空间,
因此我们可以设
\[\frac{\partial^r \sigma_n^i(x)}{\partial x_1^{k_1} \cdots \partial x_N^{k_N}}
\xrightarrow{\text{依 "sup" 范数一致收敛于}}
(\sigma^i(x))^r_{k_1 k_2 \cdots k_N}.
\]
把这有限多个函数 \((\sigma^i(x))^r_{k_1 k_2 \cdots k_N}\) 组合起来得到一个新的多元多维函数, 记为 \(\sigma_{(r)}(x)\).
那么 \(\sigma_n^{(r)}(x)\) 一致收敛到 \(\sigma_{(r)}(x)\).
接下来我们要找一个 \(\sigma_{(0)} \in \Phi\) 使得 \(\sigma_{(0)}^{(r)} = \sigma_{(r)}\) 且
\(\sigma_n \xrightarrow{\text{依度量 }\rho \text{ 一致收敛到 }} \sigma_{(0)}\).
对于\(q=0,1,2,\cdots,r-1\), 我们有
\[\begin{aligned}
\|\sigma_m^{(q)}(x)-\sigma_n^{(q)}(x)\|_q
&=\left|\left|\int_{0}^{1}\frac{d}{dt}(\sigma_m^{(q)}(tx)-\sigma_n^{(q)}(tx))dt\right|\right|
\le \int_{0}^{1}\left|\left| \frac{d}{dt}(\sigma_m^{(q)}(tx)-\sigma_n^{(q)}(tx))\right|\right|_qdt\\
&\le |x|\int_{0}^{1} \left|\left| \sigma_m^{(q+1)}(tx)-\sigma_n^{(q+1)}(tx)\right|\right|_{q+1}dt \\
&\le |x|\sup_{0<|y|\le |x|}\left|\left| \sigma_m^{(q+1)}(y)-\sigma_n^{(q+1)}(y)\right|\right|_{q+1}\\
&\le b\sup_{0<|y|\le |x|}\left|\left| \sigma_m^{(q+1)}(y)-\sigma_n^{(q+1)}(y)\right|\right|_{q+1}.
\end{aligned}
\]
于是
\[\begin{aligned}
\sup_{0<|x|\le b}\frac{\|\sigma_m^{(q)}(x)-\sigma_n^{(q)}(x)\|_q}{|x|^\delta}
&\le b\sup_{0<|x|\le b}\sup_{0<|y|\le |x|}\frac{\left|\left| \sigma_m^{(q+1)}(y)-\sigma_n^{(q+1)}(y)\right|\right|_{q+1}}{|x|^\delta} \\
&\le b\sup_{0<|x|\le b}\sup_{0<|y|\le |x|}\frac{\left|\left| \sigma_m^{(q+1)}(y)-\sigma_n^{(q+1)}(y)\right|\right|_{q+1}}{|y|^\delta}\frac{|y|^\delta}{|x|^\delta} \\
&\le b\sup_{0<|y|\le |b|}\frac{\left|\left| \sigma_m^{(q+1)}(y)-\sigma_n^{(q+1)}(y)\right|\right|_{q+1}}{|y|^\delta}.
\end{aligned}\]
可见, 对于\(q=r-1\), 上式导出
\[\sup_{0<|x|\le b}\frac{\|\sigma_m^{(r-1)}(x)-\sigma_n^{(r-1)}(x)\|_{r-1}}{|x|^\delta} \le b \rho(\sigma_m,\sigma_n).
\]
同理, 对于\(q=0,1,2,\cdots,r-1\), 我们有
\[\tag{eq:3}
\begin{equation}
\sup_{0<|x|\le b}\frac{\|\sigma_m^{(q)}(x)-\sigma_n^{(q)}(x)\|_q}{|x|^\delta} \le b^{r-q} \rho(\sigma_m,\sigma_n).
\end{equation}
\]
利用假设\(\rho(\sigma_m,\sigma_n)<\varepsilon\), 我们得到
\[\|\sigma_m^{(q)}(x)-\sigma_n^{(q)}(x)\|_q\le b^{r+\delta-q}\varepsilon,~~\forall x\in U, \forall m>n\ge N,
\]
展开是
\[\left(\sum_{i=1}^{N}\sum_{k_1+\cdots+k_N=q}
\left(\frac{\partial^q}{\partial x_1^{k_1}\cdots\partial x_N^{k_N}}
(\sigma_m^i(x)-\sigma_n^i(x))\right)^2\right)^{1/2},~~\forall m>n\ge N,\forall x\in U.
\]
表明对一组固定的\(i\in \{1,2,\cdots,N\}\)和非负整数\(k_1,k_2,\cdots,k_N\)满足\(k_1+k_2+\cdots+k_N=q\),
这个函数序列 \(\left(\frac{\partial^q \sigma_n^i(x)}{\partial x_1^{k_1}\cdots\partial x_N^{k_N}}\right)_n\)
是空间\(C(U,\mathbb{R})\)中的一个Cauchy序列, 这是一个完备度量空间,
因此我们可以假设
\[\frac{\partial^q \sigma_n^i(x)}{\partial x_1^{k_1}\cdots\partial x_N^{k_N}}
\xrightarrow{\text{依"sup"范数一致}}
(\sigma^i(x))^q_{k_1k_2\cdots k_N}.
\]
对于每一个\(q=0,1,2,\cdots,r-1\), 我们得到一个以\((\sigma^i(x))^q_{k_1k_2\cdots k_N}\)为分量的新的多元多维函数,
记为\(\sigma_{(q)}(x)\), 使得
\[\sigma_n^{(q)}(x)\xrightarrow{\text{依"sup"范数一致}}\sigma_{(q)}(x).
\]
这样我们定义了\(\sigma_{(0)}(x),\sigma_{(1)}(x),\cdots,\sigma_{(r-1)}(x),\sigma_{(r)}(x)\),使得
\[\begin{aligned}
\sigma_n^{(q)}(x)\xrightarrow{\text{依"sup"范数一致}}\sigma_{(q)}(x),~~\forall q=0,1,2,\cdots,r,\\
\end{aligned}
\]
因此利用数学分析的基本结论, 我们有\(\sigma_{(0)}\in \Phi\)且\(\sigma_{(0)}^{(q)}(x)=\sigma_{(q)}(x)\), \(q=1,2,\cdots,r\).
最后在
\[\sup_{0<|x|\le b}\frac{\|\sigma_n^{(r)}(x)-\sigma_m^{(r)}(x)\|_r}{|x|^\delta}<\varepsilon, \forall m>n\ge N,
\]
中, 我们令\(m\to +\infty\), 于是
\[\sup_{0<|x|\le b}\frac{\|\sigma_n^{(r)}(x)-\sigma_{(0)}^{(r)}(x)\|_r}{|x|^\delta}<\varepsilon, \forall n\ge N,
\]
这表明\(\sigma_n\xrightarrow{\text{依度量}\rho} \sigma_{(0)}\).
至此, 我们证明了\((\Phi,\rho)\)在此度量下是完备的.
Step 4. 证明\(T(\Phi)\subset \Phi\).
任意的\(\sigma\in \Phi\), 显然\(T(\sigma)\in C^r(U,\mathbb{R}^N)\), 且
\[T(\sigma)(0)=S^{-1}\sigma(f(0))=S^{-1}\sigma(0)=0,~~
T(\sigma)^\prime(0)=S^{-1}\sigma^\prime(0) S=S^{-1}ES=E.
\]
下面验证\(T(\sigma)^{(q)}(0)=\eta_q\), \(2\le q\le r\).
以\(q=2\)为例. 回顾\(\eta_q\)的确定方式, 微分两次方程\(\sigma(f(x))=S\sigma(x)\), 得到
\[\sigma^{(2)}(f(x))(f^\prime(x))^2+\sigma^\prime(f(x))f^{(2)}(x)=S\sigma^{(2)}(x),
\]
在\(x=0\)处, 我们有
\[\sigma^{(2)}(0)(f^\prime(0))^2+\sigma^\prime(0)f^{(2)}(0)=S\sigma^{(2)}(0),
\]
\(\eta_2\)是唯一满足上式的\(\sigma^{(2)}(0)\). 于是
\[S^{-1}\eta_2S^2+S^{-1}Ef^{(2)}(0)=\eta_2.
\]
计算得到
\[T(\sigma)^{(2)}(0)=S^{-1}\sigma^{(2)}(0)S^2+S^{-1}Ef^{(2)}(0)=\eta_2(\text{因为}\sigma\in \Phi\text{蕴含}\sigma^{(2)}(0)=\eta_2).
\]
最后, 我们验证\(T(\sigma)^{(r)}(x)=T(\sigma)^{(r)}(0)+O(|x|^\delta)\), \(x\to 0\).
微分\(q(1\le q\le r)\)次方程\(T(\sigma)(x)\)得到
\[T(\sigma)^{(q)}(x)=S^{-1}\sigma^{(q)}(f(x))(f^\prime(x))^q
+\sum_{i=2}^{q-1}S^{-1}\sigma^{(i)}(f(x))B_i(x)+S^{-1}\sigma^\prime(x)f^{(q)}(x),
\]
其中\(B_i(x)\)仅与\(f^\prime(x),\cdots,f^{(q-1)}(x)\)有关.
由此, 我们有
\[\begin{aligned}
T(\sigma)^{(r)}(x)-T(\sigma)^{(r)}(0)
=&S^{-1}(\sigma^{(r)}(f(x))(f^\prime(x))^r-\sigma^{(r)}(0)S^r)~~~(I)\\
&+\sum_{i=2}^{r-1}S^{-1}(\sigma^{(i)}(f(x))B_i(x)-\sigma^{(i)}(0)B_i(0))~~~(II)\\
&+S^{-1}(\sigma^\prime(x)f^{(r)}(x)-Ef^{(r)}(0))~~~(III).
\end{aligned}
\]
估计
\[\begin{aligned}
{\rm (I)}&=S^{-1}\left\{[\sigma^{(r)}(f(x))-\sigma^{(r)}(0)]f^{(r)}(x)+\sigma^{(r)}(0)[f^{(r)}(x)-S^r]\right\}\\
&= (\text{有界量})\cdot\{ O(|f(x)|^\delta)\cdot(\text{有界量})+(\text{有界量})\cdot O(|x|^\delta)\},~~~
(\text{这一步到下一步利用}|f(x)| \le \theta |x|)\\
&=O(|x|^\delta).
\end{aligned}
\]
and
\[\begin{aligned}
{\rm (II)}&=\sum_{i=2}^{r-1}S^{-1}\left\{[\sigma^{(i)}(f(x))-\sigma^{(i)}(0)]B_i(x)+\sigma^{(i)}(0)[B_i(x)-B_i(0)]\right\}\\
&=O(|x|^\delta)
\end{aligned}
\]
因为\(B_i(x)\)有界, \(\sigma^{(i)}(f(x))-\sigma^{(i)}(0)=O(|f(x)|)\subset O(|x|)\subset O(|x|^\delta)\)(因\(\delta\le 1\)),
\(B_i(x)-B_i(0)=O(|x|)\subset O(|x|^\delta)\),
and
\[\begin{aligned}
{\rm (III)}&=S^{-1}[\sigma^\prime(x)f^{(r)}(x)-Ef^{(r)}(0)]\\
&=S^{-1}[\sigma^\prime(f(x))-E]f^{(r)}(x)+E[f^{(r)}(x)-f^{(r)}(0)]\\
&=(\text{有界量})\cdot O(|f(x)|)\cdot(\text{有界量})+(\text{有界量})\cdot O(|x|^\delta)\\
&=O(|x|^\delta).
\end{aligned}
\]
至此, 我们证明了\(T(\Phi)\in \Phi\).
Step 5. 证明\(T\)是一个压缩映射.
由于
\[T(\sigma)^{(r)}(x)=S^{-1}\sigma^{(r)}(f(x))+\sum_{i=2}^{r-1}S^{-1}\sigma^{(i)}(f(x))B_i(x)+
S^{-1}\sigma^\prime(f(x))f^{(r)}(x),
\]
所有任意的\(\sigma_1,\sigma_2\in \Phi\), 我们有
\[\begin{aligned}
\rho(T(\sigma_1),T(\sigma_2))
=&\sup_{0<|x|\le b}\frac{\|T(\sigma_1)^{(r)}(x)-T(\sigma_2)^{(r)}(x)\|_r}{|x|^\delta}\\
\le
& \sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta}
\left\{\|[\sigma_1^{(r)}(f(x))-\sigma_2^{(r)}(f(x))](f^\prime(x))^r\|\right\}~~~{\rm (I')}\\
&+\sum_{i=2}^{r-1}\sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta} \left\{\|[\sigma_1^{(i)}(f(x))-
\sigma_2^{(i)}(f(x))]B_i(x)\|\right\}~~~{\rm (II')}\\
&+\sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta}
\left\{\|[\sigma_1^\prime(f(x))-\sigma_2^\prime(f(x))]f^{(r)}(x)\|\right\}~~~{\rm (III')}\\
\end{aligned}
\]
估计
\[\begin{aligned}
{\rm (I')}=
&\sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta}
\left\{\|[\sigma_1^{(r)}(f(x))-\sigma_2^{(r)}(f(x))](f^\prime(x))^r\|\right\}\\
\le& ||S^{-1}|| \theta^r\sup_{0<|x|\le b}\frac{\|[\sigma_1^{(r)}(f(x))-\sigma_2^{(r)}(f(x))]\|}{|f(x)|^\delta}
\left(\frac{|f(x)|}{|x|}\right)^\delta\\
\le& ||S^{-1} ||\theta^{r+\delta}\rho(\sigma_1,\sigma_2),
\end{aligned}
\]
且
\[\begin{aligned}
{\rm (II')}=&\sum_{i=2}^{r-1}\sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta} \left\{\|[\sigma_1^{(i)}(f(x))-
\sigma_2^{(i)}(f(x))]B_i(x)\|\right\}~~~{\rm (II')}\\
\le &\sum_{i=2}^{r-1}||S^{-1}||\sup_{|x|\le b}||B_i(x)||
\sup_{0<|x|\le b}\frac{\|[\sigma_1^{(i)}(f(x))-\sigma_2^{(i)}(f(x))]\|}{|f(x)|^\delta}\left(\frac{|f(x)|}{|x|}\right)^\delta
~~~(\text{利用eq:3})\\
\le &\sum_{i=2}^{r-1}||S^{-1}||\sup_{|x|\le b}||B_i(x)||b^{r-i}\rho(\sigma_1,\sigma_2)\theta^{\delta} ,
\end{aligned}
\]
and
\[\begin{aligned}
{\rm (III')}=&\sup_{0<|x|\le b}\frac{\|S^{-1}\|}{|x|^\delta}
\left\{\|[\sigma_1^\prime(f(x))-\sigma_2^\prime(f(x))]f^{(r)}(x)\|\right\}\\
\le & \|S^{-1}\| \sup_{|x|\le b}\|f^{(r)}(x)\| \sup_{0<|x|\le b}\frac{\|[\sigma_1^\prime(f(x))-\sigma_2^\prime(f(x))]\|}{|x|^\delta}\\
\le & \|S^{-1}\| \sup_{|x|\le b}\|f^{(r)}(x)\| \sup_{0<|x|\le b}\frac{\|[\sigma_1^\prime(f(x))-\sigma_2^\prime(f(x))]\|}{|f(x)|^\delta}
\left(\frac{|f(x)|}{|x|}\right)^\delta~~~(\text{利用eq:3})\\
\le & \|S^{-1}\| \sup_{|x|\le b}\|f^{(r)}(x)\| \theta^{\delta}b^{r-1}\rho(\sigma_1,\sigma_2).
\end{aligned}
\]
由此, 我们有
\[\rho(T(\sigma_1),T(\sigma_2))\le
\left\{\|S^{-1}\|\theta^{r+\delta}+\sum_{i=2}^{r-1}\|S^{-1}\|\theta^{\delta}\sup_{|x|\le b}\|B_i(x)\|b^{r-i}
+ \|S^{-1}\| \sup_{|x|\le b}\|f^{(r)}(x)\| \theta^{\delta}b^{r-1}\right\}\rho(\sigma_1,\sigma_2).
\]
对上式\(\{\cdot\}\)中不含\(b\)的项, 利用引理1.1, 我们有
\[\|S^{-1}\|\theta^{r+\delta}\le \left(\frac{1}{|s_1|}+\varepsilon\right)\theta^{r+\delta}
=\frac{\theta^{r+\delta}}{|s_1|}+\varepsilon\theta^{r+\delta}.
\]
因为\(\theta\) 可以充分靠近 \(|s_N|\)且\(|s_N|^{\delta+r}<|s_1|\),
所以我们可以取\(\theta\)以至于\(\frac{\theta^{r+\delta}}{|s_1|}<1\), 再选\(\varepsilon\)充分小以至于
\[\frac{\theta^{r+\delta}}{|s_1|}+\varepsilon\theta^{r+\delta}<1.
\]
最后选\(b\)充分小以至于
\[\left\{\|S^{-1}\|\theta^{r+\delta}+\sum_{i=2}^{r-1}\|S^{-1}\|\theta^{\delta}\sup_{|x|\le b}\|B_i(x)\|b^{r-i}
+ \|S^{-1}\| \sup_{|x|\le b}\|f^{(r)}(x)\| \theta^{\delta}b^{r-1}\right\}<1,
\]
这样我们证明了\(T\)是一个压缩映射. Banach's 不动点定理告诉我们, 存在唯一的\(\sigma\in \Phi\)使得\(T(\sigma)=\sigma\).
这个不动点就是我们要找的解.
矩阵的高阶张量
如果不介绍高阶张量, 我们无法计算下面的式子并弄明白上面的证明.
来看看下面的式子
\[\begin{equation*}
T(\sigma)^{(q)}(x)=S^{-1}\sigma^{(q)}(f(x))(f^\prime(x))^q
+\sum_{i=2}^{q-1}S^{-1}\sigma^{(i)}(f(x))B_i(x)+S^{-1}\sigma^\prime(x)f^{(q)}(x),
\end{equation*}
\]
上式中\((f^\prime(x))^q\)是\(f\)的Jacobi矩阵的\(q\)阶张量而不是\(f\)的Jacobi矩阵的\(q\)次幂, 换言之(以\(q=2\)为例)
\[((f^\prime(x))^2)_{2^2\times 2^2}\ne
\left(\left(\frac{\partial f^i}{\partial x_j}\right)_{2\times 2}
\left(\frac{\partial f^j}{\partial x_k}\right)_{2\times 2}\right)_{2\times 2},
\]
以\(2\)维为例来讲解.
以\(\sigma(f(x))\)为例,
设\(\sigma(x)=(\sigma^1(x),\sigma^2(x))^T\) 且 \(f(x)=(f^1(x),f^2(x))^T\).
问:\(((f^\prime(x))^2)_{2^2\times 2^2}\)应该是什么呢?
答案: 它实际上是\(f^\prime(x)\)与本身的Kronecker积, 即
\[\begin{aligned}
(f^\prime(x))^2
&=
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
\bigotimes
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
=
\left(\begin{array}{cc}
f^1_x
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
& f^1_y
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)\\
f^2_x
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
& f^2_y
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)\\
\end{array}
\right)
\\
&=
\left(\begin{array}{cccc}
f^1_x f^1_x & f^1_x f^1_y & f^1_y f^1_x & f^1_y f^1_y\\
f^1_x f^2_x & f^1_x f^2_y & f^1_y f^2_x & f^1_y f^2_y\\
f^2_x f^1_x & f^2_x f^1_y & f^2_y f^1_x & f^2_y f^1_y\\
f^2_x f^2_x & f^2_x f^2_y & f^2_y f^2_x & f^2_y f^2_y
\end{array}
\right).
\end{aligned}
\]
我们计算\(\sigma(f(x))\)的高阶导数.
\[\sigma(f(x))=
\left(\begin{array}{c}
\sigma^1(f_1(x,y),f_2(x,y))\\
\sigma^2(f_1(x,y),f_2(x,y))
\end{array}
\right)
\]
\[D\sigma(f(x))=
\left(\begin{array}{c}
(\sigma^1_x(f_1,f_2)f^1_x+\sigma^1_y(f_1,f_2)f^2_x)dx+(\sigma^1_x(f_1,f_2)f^1_y+\sigma^1_y(f_1,f_2)f^2_y)dy\\
(\sigma^2_x(f_1,f_2)f^1_x+\sigma^2_y(f_1,f_2)f^2_x)dx+(\sigma^2_x(f_1,f_2)f^1_y+\sigma^2_y(f_1,f_2)f^2_y)dy\\
\end{array}
\right)
\]
把它写成矩阵形式(\(a_{11}\)位置记\(\sigma^1(x)\)对\(x\)的偏导数, \(a_{12}\)位置记\(\sigma^1(x)\)对\(y\)的偏导数, 以此类推)
得到
\[\begin{aligned}
D\sigma(f(x))
&=
\left(\begin{array}{cc}
\sigma^1_x(f_1,f_2)f^1_x+\sigma^1_y(f_1,f_2)f^2_x & \sigma^1_x(f_1,f_2)f^1_y+\sigma^1_y(f_1,f_2)f^2_y\\
\sigma^2_x(f_1,f_2)f^1_x+\sigma^2_y(f_1,f_2)f^2_x & \sigma^2_x(f_1,f_2)f^1_y+\sigma^2_y(f_1,f_2)f^2_y
\end{array}
\right)\\
&=
\left(\begin{array}{cc}
\sigma^1_x(f_1,f_2) & \sigma^1_y(f_1,f_2)\\
\sigma^2_x(f_1,f_2) & \sigma^2_y(f_1,f_2)
\end{array}
\right)
\left(\begin{array}{cc}
f^1_x & f^1_y\\
f^2_x & f^2_y
\end{array}
\right)
\\
&=\sigma^\prime(f(x))f^\prime(x).
\end{aligned}
\]
一阶微分看似没有什么问题, 但是二阶微分就有问题了!
\(D^2\sigma(f(x))\)由两行组成,
\[\begin{aligned}
\text{第一行}=&\left(\sigma^1_{xx}(f_1,f_2)f^1_xf^1_x+\sigma^1_{xy}(f_1,f_2)f^1_x f^2_x+
\sigma^1_{yx}f^2_xf^1_x+\sigma^1_{yy}f^2_xf^2_x\right)dx^2\\
&+\left(\sigma^1_{xx}(f_1,f_2)f^1_xf^1_y+\sigma^1_{xy}(f_1,f_2)f^1_x f^2_y+
\sigma^1_{yx}f^2_xf^1_y+\sigma^1_{yy}f^2_xf^2_y\right)dx dy\\
&+\left(\sigma^1_{xx}(f_1,f_2)f^1_yf^1_x+\sigma^1_{xy}(f_1,f_2)f^1_y f^2_x+
\sigma^1_{yx}f^2_yf^1_x+\sigma^1_{yy}f^2_yf^2_x\right)dy dx\\
&+\left(\sigma^1_{xx}(f_1,f_2)f^1_yf^1_y+\sigma^1_{xy}(f_1,f_2)f^1_y f^2_y+
\sigma^1_{yx}f^2_yf^1_y+\sigma^1_{yy}f^2_yf^2_y\right)dy^2\\
&\color{red}{+\left(\sigma^1_x(f_1,f_2)f^1_{xx}+\sigma^1_y(f_1,f_2)f^2_{xx} \right)dx^2}\\
&\color{red}{+\left(\sigma^1_x(f_1,f_2)f^1_{xy}+\sigma^1_y(f_1,f_2)f^2_{xy} \right)dx dy}\\
&\color{red}{+\left(\sigma^1_x(f_1,f_2)f^1_{yx}+\sigma^1_y(f_1,f_2)f^2_{yx} \right)dy dx}\\
&\color{red}{+\left(\sigma^1_x(f_1,f_2)f^1_{yy}+\sigma^1_y(f_1,f_2)f^2_{yy} \right)dy^2},
\end{aligned}
\]
\[\begin{aligned}
\text{第二行}=
&\left(\sigma^2_{xx}(f_1,f_2)f^1_xf^1_x+\sigma^2_{xy}(f_1,f_2)f^1_x f^2_x+
\sigma^2_{yx}f^2_xf^1_x+\sigma^2_{yy}f^2_xf^2_x\right)dx^2\\
&+\left(\sigma^2_{xx}(f_1,f_2)f^1_xf^1_y+\sigma^2_{xy}(f_1,f_2)f^1_x f^2_y+
\sigma^2_{yx}f^2_xf^1_y+\sigma^2_{yy}f^2_xf^2_y\right)dx dy\\
&+\left(\sigma^2_{xx}(f_1,f_2)f^1_yf^1_x+\sigma^2_{xy}(f_1,f_2)f^1_y f^2_x+
\sigma^2_{yx}f^2_yf^1_x+\sigma^2_{yy}f^2_yf^2_x\right)dy dx\\
&+\left(\sigma^2_{xx}(f_1,f_2)f^1_yf^1_y+\sigma^2_{xy}(f_1,f_2)f^1_y f^2_y+
\sigma^2_{yx}f^2_yf^1_y+\sigma^2_{yy}f^2_yf^2_y\right)dy^2\\
&\color{red}{+\left(\sigma^2_x(f_1,f_2)f^1_{xx}+\sigma^2_y(f_1,f_2)f^2_{xx} \right)dx^2}\\
&\color{red}{+\left(\sigma^2_x(f_1,f_2)f^1_{xy}+\sigma^2_y(f_1,f_2)f^2_{xy} \right)dx dy}\\
&\color{red}{+\left(\sigma^2_x(f_1,f_2)f^1_{yx}+\sigma^2_y(f_1,f_2)f^2_{yx} \right)dy dx}\\
&\color{red}{+\left(\sigma^2_x(f_1,f_2)f^1_{yy}+\sigma^2_y(f_1,f_2)f^2_{yy} \right)dy^2}.
\end{aligned}
\]
形式上,
\[D^2\sigma(f(x))=\sigma^{\prime\prime}(f(x))(f^\prime(x))^2+\sigma^\prime(f(x))f^{\prime\prime}(x).
\]
如果认为\(f^\prime(x)^2\)是Jacobi (\(f^\prime(x)\))的\(2\)次幂, 那么就会有
\[f^\prime(x)^2=
\left(\begin{array}{cc}
f^1_x & f^1_y\\
f^2_x & f^2_y
\end{array}
\right)
\left(\begin{array}{cc}
f^1_x & f^1_y\\
f^2_x & f^2_y
\end{array}
\right)
=\left(\begin{array}{cc}
f^1_x f^1_x+f^1_y f^1_y & f^1_x f^2_x+f^1_y f^2_y\\
f^2_x f^1_x+f^2_y f^1_y & f^2_x f^2_x+f^2_y f^2_y
\end{array}
\right),
\]
这个矩阵中出现不同的元素有\(8\)个, 但是\(D^2\sigma(f(x))\)中出现不同的元素有\(16\)个(看第一行的非红色部分).
由此, 我们有
\[\begin{aligned}
\sigma^{\prime\prime}(f(x))(f^\prime(x))^2
&=
\begin{pmatrix}
\text{第一行的非红色部分}\\
\text{第二行的非红色部分}
\end{pmatrix}
\\
(\sigma^\prime(f(x)))_{2\times 2}(f^{\prime\prime}(x))_{2\times 2\times 2}
&=
\begin{pmatrix}
\text{第一行的红色部分}\\
\text{第二行的红色部分}
\end{pmatrix}
\end{aligned}
\]
(这两部分\(\sigma^\prime(f(x))\)和\(f^{\prime\prime}(x)\)中间的运算不是普通乘法,
而是\(\color{red}{张量运算}\))
上面的式子中, 红色部分整理一下,我们有
\[\begin{aligned}
&(\sigma^\prime(f(x)))_{2\times 2}(f^{\prime\prime}(x))_{2\times 2\times 2}
\\
=&
{\tiny
\begin{pmatrix}
\sigma^1_x(f_1,f_2)f^1_{xx}+\sigma^1_y(f_1,f_2)f^2_{xx}
&\sigma^1_x(f_1,f_2)f^1_{xy}+\sigma^1_y(f_1,f_2)f^2_{xy}
&\sigma^1_x(f_1,f_2)f^1_{yx}+\sigma^1_y(f_1,f_2)f^2_{yx}
&\sigma^1_x(f_1,f_2)f^1_{yy}+\sigma^1_y(f_1,f_2)f^2_{yy} \\
\sigma^2_x(f_1,f_2)f^1_{xx}+\sigma^2_y(f_1,f_2)f^2_{xx}
&\sigma^2_x(f_1,f_2)f^1_{xy}+\sigma^2_y(f_1,f_2)f^2_{xy}
&\sigma^2_x(f_1,f_2)f^1_{yx}+\sigma^2_y(f_1,f_2)f^2_{yx}
&\sigma^2_x(f_1,f_2)f^1_{yy}+\sigma^2_y(f_1,f_2)f^2_{yy}
\end{pmatrix}
_{2\times 4}
}
\end{aligned}
\]
\[\begin{aligned}
\sigma^\prime(f(x))=
\begin{pmatrix}
\sigma^1_x(f_1,f_2) &\sigma^1_y(f_1,f_2) \\
\sigma^2_x(f_1,f_2) & \sigma^2_y(f_1,f_2)
\end{pmatrix}
\end{aligned}
\]
\[Df(x)=
\begin{pmatrix}
f^1_x& f^1_y\\
f^2_x& f^2_y
\end{pmatrix}
\]
拉出一条\(z\)轴, \(D^2(f(x))\)由两个\(2\times 2\)矩阵堆叠而成,
第一层(下面的一层)是
\[\begin{pmatrix}
f^1_{xx} & f^1_{yx} \\
f^2_{xx} & f^2_{yx} \\
\end{pmatrix}
\]
第二层(上面的一层)是
\[\begin{pmatrix}
f^1_{xy} & f^1_{yy} \\
f^2_{xy} & f^2_{yy} \\
\end{pmatrix}
\]
把它按照一种方式平坦化(flattening), 我们有
\[\text{记}(D^2f(x))_{\rm flat}:=
\begin{pmatrix}
f^1_{xx} & f^1_{xy} & f^1_{yx} & f^1_{yy} \\
f^2_{xx} & f^2_{xy} & f^2_{yx} & f^2_{yy}
\end{pmatrix}
\]
现在我们发现
\[\begin{aligned}
&\sigma^\prime(f(x))\cdot (D^2f(x))\\
=&\sigma^\prime(f(x))\cdot (D^2f(x))_{\rm flat}\\
=&
\begin{pmatrix}
\sigma^1_x(f_1,f_2) &\sigma^1_y(f_1,f_2) \\
\sigma^2_x(f_1,f_2) & \sigma^2_y(f_1,f_2)
\end{pmatrix}
_{2\times 2}
\begin{pmatrix}
f^1_{xx} & f^1_{xy} & f^1_{yx} & f^1_{yy} \\
f^2_{xx} & f^2_{xy} & f^2_{yx} & f^2_{yy}
\end{pmatrix}
_{2\times 4}
\\
=&
{\tiny
\begin{pmatrix}
\sigma^1_x(f_1,f_2)f^1_{xx}+\sigma^1_y(f_1,f_2)f^2_{xx}
&\sigma^1_x(f_1,f_2)f^1_{xy}+\sigma^1_y(f_1,f_2)f^2_{xy}
&\sigma^1_x(f_1,f_2)f^1_{yx}+\sigma^1_y(f_1,f_2)f^2_{yx}
&\sigma^1_x(f_1,f_2)f^1_{yy}+\sigma^1_y(f_1,f_2)f^2_{yy} \\
\sigma^2_x(f_1,f_2)f^1_{xx}+\sigma^2_y(f_1,f_2)f^2_{xx}
&\sigma^2_x(f_1,f_2)f^1_{xy}+\sigma^2_y(f_1,f_2)f^2_{xy}
&\sigma^2_x(f_1,f_2)f^1_{yx}+\sigma^2_y(f_1,f_2)f^2_{yx}
&\sigma^2_x(f_1,f_2)f^1_{yy}+\sigma^2_y(f_1,f_2)f^2_{yy}
\end{pmatrix}
_{2\times 4}
}
\end{aligned}
\]
按照这种方式, 我们可以理解\(D^2\sigma(f(x))\):
\[(D^2\sigma(f(x)))_{\rm flat}:=
\begin{pmatrix}
\sigma^1_{xx}(f^1,f^2) & \sigma^1_{xy}(f^1,f^2) & \sigma^1_{yx} (f^1,f^2)& \sigma^1_{yy} (f^1,f^2)\\
\sigma^2_{xx}(f^1,f^2) & \sigma^2_{xy} (f^1,f^2)&\sigma^2_{yx}(f^1,f^2) &\sigma^2_{yy}(f^1,f^2)
\end{pmatrix}
\]
\[\begin{aligned}
&\sigma^{\prime\prime}(f(x))(f^\prime(x))^2\\
=&
{\tiny
\begin{pmatrix}
\sigma^1_{xx}(f_1,f_2)f^1_xf^1_x+\sigma^1_{xy}(f_1,f_2)f^1_x f^2_x+
\sigma^1_{yx}f^2_xf^1_x+\sigma^1_{yy}f^2_xf^2_x
& \sigma^2_{xx}(f_1,f_2)f^1_xf^1_x+\sigma^2_{xy}(f_1,f_2)f^1_x f^2_x+
\sigma^2_{yx}f^2_xf^1_x+\sigma^2_{yy}f^2_xf^2_x\\
\sigma^1_{xx}(f_1,f_2)f^1_xf^1_y+\sigma^1_{xy}(f_1,f_2)f^1_x f^2_y+
\sigma^1_{yx}f^2_xf^1_y+\sigma^1_{yy}f^2_xf^2_y
&\sigma^2_{xx}(f_1,f_2)f^1_xf^1_y+\sigma^2_{xy}(f_1,f_2)f^1_x f^2_y+
\sigma^2_{yx}f^2_xf^1_y+\sigma^2_{yy}f^2_xf^2_y \\
\sigma^1_{xx}(f_1,f_2)f^1_yf^1_x+\sigma^1_{xy}(f_1,f_2)f^1_y f^2_x+
\sigma^1_{yx}f^2_yf^1_x+\sigma^1_{yy}f^2_yf^2_x
&\sigma^2_{xx}(f_1,f_2)f^1_yf^1_x+\sigma^2_{xy}(f_1,f_2)f^1_y f^2_x+
\sigma^2_{yx}f^2_yf^1_x+\sigma^2_{yy}f^2_yf^2_x\\
\sigma^1_{xx}(f_1,f_2)f^1_yf^1_y+\sigma^1_{xy}(f_1,f_2)f^1_y f^2_y+
\sigma^1_{yx}f^2_yf^1_y+\sigma^1_{yy}f^2_yf^2_y
&\sigma^2_{xx}(f_1,f_2)f^1_yf^1_y+\sigma^2_{xy}(f_1,f_2)f^1_y f^2_y+
\sigma^2_{yx}f^2_yf^1_y+\sigma^2_{yy}f^2_yf^2_y\\
\end{pmatrix}
^T
}
\\
=&
{\tiny
\begin{pmatrix}
\sigma^1_{xx}(f^1,f^2) & \sigma^1_{xy}(f^1,f^2) & \sigma^1_{yx} (f^1,f^2)& \sigma^1_{yy} (f^1,f^2)\\
\sigma^2_{xx}(f^1,f^2) & \sigma^2_{xy} (f^1,f^2)&\sigma^2_{yx}(f^1,f^2) &\sigma^2_{yy}(f^1,f^2)
\end{pmatrix}
}
{\tiny
\begin{pmatrix}
f^1_xf^1_x& f^1_xf^1_y&f^1_yf^1_x&f^1_yf^1_y\\
f^1_xf^2_x& f^1_xf^2_y&f^1_yf^2_x&f^1_yf^2_y\\
f^2_xf^1_x&f^2_xf^1_y&f^2_yf^1_x&f^2_yf^1_y\\
f^2_xf^2_x&f^2_xf^2_y&f^2_yf^2_x&f^2_yf^2_y\\
\end{pmatrix}
}
\end{aligned}
\]
\[\begin{aligned}
f^{\prime}(x)^2=
&
\begin{pmatrix}
f^1_xf^1_x& f^1_xf^1_y&f^1_yf^1_x&f^1_yf^1_y\\
f^1_xf^2_x& f^1_xf^2_y&f^1_yf^2_x&f^1_yf^2_y\\
f^2_xf^1_x&f^2_xf^1_y&f^2_yf^1_x&f^2_yf^1_y\\
f^2_xf^2_x&f^2_xf^2_y&f^2_yf^2_x&f^2_yf^2_y\\
\end{pmatrix}
=
\left(\begin{array}{cc}
f^1_x
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
& f^1_y
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)\\
f^2_x
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
& f^2_y
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)\\
\end{array}
\right)
\\
&=
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
\bigotimes
\left(\begin{array}{cc}
f^1_x &f^1_y\\
f^2_x &f^2_y
\end{array}
\right)
\end{aligned}
\]
这与我们一开始的陈述是一致的.
由上知, 下面这个式子定义了\(\sigma^{\prime\prime}(f(x))\)与\(
f^\prime(x)^2\)的张量乘法:
\[((\sigma^{\prime\prime}(f(x)))_{2\times2\times2}((f^\prime(x))^2)_{2^2\times2^2})_{2\times4}
=(\sigma^{\prime\prime}(f(x)))_{\rm flat}(f^\prime(x)\bigotimes f^\prime(x))_{2\times4}.
\]
有了这个定义, 我们就可以理解下面式子中的运算规则了
\[T(\sigma)^{(q)}(x)=S^{-1}\sigma^{(q)}(f(x))(f^\prime(x))^q
+\sum_{i=2}^{q-1}S^{-1}\sigma^{(i)}(f(x))B_i(x)+S^{-1}\sigma^\prime(x)f^{(q)}(x).
\]