微积分笔记04:常见的矩阵求导运算

news/2025/3/13 17:05:10/文章来源:https://www.cnblogs.com/efancn/p/18770330

微积分笔记04:常见的矩阵求导运算

4.1 常规矩阵求导示例

4.1.1 求导示例1:\(f(x)=A_{m\times n}\cdot x_{n \times 1}\) \(\Rightarrow f'_{x^T}(x)=A_{m\times n}\)

如:

\[A= \begin{bmatrix} a_1&a_2&a_3\\ b_1&b_2&b_3 \end{bmatrix}, x= \begin{bmatrix} x_1\\ x_2\\ x_3 \end{bmatrix} \Rightarrow f(x)= \begin{bmatrix} a_1x_1+a_2x_2+a_3x_3\\ b_1x_1+b_2x_2+b_3x_3 \end{bmatrix} \]

由矩阵性质和意义(参数项直接保留在矩阵中)可得:

\[\tag{1} f'_{x^T}(x)= \begin{bmatrix} a_1&a_2&a_3\\ b_1&b_2&b_3 \end{bmatrix}=A \]

4.1.2 求导示例2:\(f(x)= x_{1 \times m}\cdot A_{mm} \cdot x^T_{1 \times m} \Rightarrow f'_x(x)=(A_{mm}+A_{mm}^T)\cdot x_{1 \times m}\)

如:

\[x= \begin{bmatrix} x_1&x_2 \end{bmatrix}, A= \begin{bmatrix} a&b\\ c&d \end{bmatrix}, x^T= \begin{bmatrix} x_1\\ x_2 \end{bmatrix} \]

\[\Rightarrow f(x)= \begin{bmatrix} ax_1+cx_2&bx_1+dx_2 \end{bmatrix} \cdot \begin{bmatrix} x_1\\ x_2 \end{bmatrix} \]

\[\qquad\quad = \begin{bmatrix} a{x_1}^2+bx_1x_2+cx_1x_2+dx_2^2 \end{bmatrix} \]

则有:

\[f'_x(x)= \begin{bmatrix} 2ax_1+bx_2+cx_2&2dx_2+bx_1+cx_1 \end{bmatrix} \]

\[\tag{2} = \begin{bmatrix} a&b\\ c&d \end{bmatrix} \cdot \begin{bmatrix} x_1&x_2 \end{bmatrix} + \begin{bmatrix} a&c\\ b&d \end{bmatrix} \cdot \begin{bmatrix} x_1&x_2 \end{bmatrix} =(A+A^T)x \]

4.1.3 求导示例3:\(f(x)=x_{1\times n}^T\cdot a_{n \times 1} \Rightarrow f_x'(x)=(x_{1\times n}\cdot a_{n \times 1}^T)'_x=a\)

如:

\[x^T= \begin{bmatrix} x_1&x_2 \end{bmatrix}, a= \begin{bmatrix} a_1\\ a_2 \end{bmatrix} \]

\[\Rightarrow f(x)= x^T\cdot a= \begin{bmatrix} x_1a_1+x_2a_2 \end{bmatrix} =x\cdot a^T \]

又:

\[x= \begin{bmatrix} x_1\\ x_2 \end{bmatrix} \]

则由矩阵的性质及意义(参数项直接保留在矩阵中),有:

\[\tag{3} f'_x(x)= (x\cdot a^T)_x' = \begin{bmatrix} a_1\\ a_2 \end{bmatrix} =a \]

4.1.4 求导示例4:\(f(x)=x_{m\times 1}^T\cdot A_{m \times n}\cdot y_{n \times 1} \Rightarrow f_x'(x)=Ay,f'_A(x)=xy^T\)

如:

\[x^T= \begin{bmatrix} x_1&x_2&x_3 \end{bmatrix}, A= \begin{bmatrix} a_1&a_2\\ a_3&a_4\\ a_5&a_6 \end{bmatrix}, y= \begin{bmatrix} y_1\\ y_2\\ \end{bmatrix} \]

\[\Rightarrow f(x) =x^T\cdot A\cdot y= \begin{bmatrix} a_1x_1+a_3x_2+a_5x_3&a_2x_1+a_4x_2+a_6x_3\\ \end{bmatrix} \cdot \begin{bmatrix} y_1\\ y_2\\ \end{bmatrix} \]

\[\qquad\qquad\qquad\qquad\qquad\quad = \begin{bmatrix} (a_1x_1+a_3x_2+a_5x_3)\cdot y_1+(a_2x_1+a_4x_2+a_6x_3)\cdot y_2 \end{bmatrix} \]

则有:

\[f'_x(x)= \begin{bmatrix} (a_1+a_3+a_5)\cdot y_1+(a_2+a_4+a_6)\cdot y_2 \end{bmatrix} =A \cdot y \]

\[\tag{4} f'_A(x)= \begin{bmatrix} (x_1)\cdot y_1+(x_1)\cdot y_2\\ (x_2)\cdot y_1+(x_2)\cdot y_2\\ (x_3)\cdot y_1+(x_3)\cdot y_2 \end{bmatrix} =x\cdot y^T \]

4.2 矩阵的范数求导示例

设存在矩阵\(X_{N \times n},向量a_{n \times 1},y_{N \times 1}\)

\(f(x)=||X\cdot a-y||^2\),则\(f'_a(x)\)的求解过程如下:

由范数相关性质可得:

\[f(x)=(X\cdot a-y)\cdot (X\cdot a-y)^T \]

\[\qquad \qquad =(X\cdot a-y)\cdot (a^T\cdot X^T -y^T) \]

\[\tag{5} \qquad \qquad\qquad\qquad\qquad\quad =a\cdot X X^T \cdot a^T -X\cdot a\cdot y^T-y\cdot a^T \cdot X^T + yy^T \]

式(5)中:

对于项\(a\cdot X X^T \cdot a^T\),由常规矩阵求导的式(2)可得:

\[(a\cdot X X^T \cdot a^T)'_a=(XX^T+X^TX)\cdot a=2XX^T\cdot a \]

对于项\(X\cdot a\cdot y^T\),由常规矩阵求导的式(3)可得:

\[(X\cdot a\cdot y^T)_a'=(y^T\cdot X\cdot a )_a'=[(X^T\cdot y )^T\cdot a] _a'=X^T\cdot y \]

对于项\(y\cdot a^T \cdot X^T\)

\[(y\cdot a^T \cdot X^T)'_a=(a^T\cdot X^T\cdot y)'_a=X^T\cdot y \]

由上可得:

\[f'_a(x)=(||X\cdot a-y||^2)_a'=2(XX^T\cdot a-X^T\cdot y) \]

4.3 矩阵的迹求导示例

4.3.1 矩阵的迹求导示例1:\(tr'_A(A)=I\)

设存在矩阵\(A_{mm}\),且\(tr(A)\)为矩阵\(A\)的迹,则有:

\[tr(A)=\Sigma_{i=1}^m a_{ii} \]

由矩阵的特性和意义(参数项直接保留在矩阵中)可得:

\[\tag{6} \Rightarrow tr(A)'_A=I= \begin {bmatrix} 1&&&\\ &1&&\\ &&...&\\ &&&1\\ \end{bmatrix} \]

4.3.2 矩阵的迹求导示例2:\(tr'_A(A\cdot B)=B^T\)

设存在矩阵\(A_{mm}、B_{mm}\),且\(tr(A\cdot B)\)\(A\cdot B\)的迹,则有:

\[tr(A\cdot B)=\Sigma_{i=1}^m\Sigma_{j=1}^m a_{ij}b_{ji} \]

由矩阵的特性和意义(参数项直接保留在矩阵中)可得:

\[\tag{7} tr'_A(A\cdot B)=(\Sigma_{i=1}^m\Sigma_{j=1}^m a_{ij}b_{ji})'_A=B^T \]

4.3.3 矩阵的迹求导示例3:\(tr'_A(A\cdot A^T)=2\cdot A\)

设存在矩阵\(A_{mm}\),且\(tr(A\cdot A^T)\)\(A\cdot A^T\)的迹,则有:

\[tr(A\cdot A^T)=\Sigma_{i=1}^m\Sigma_{j=1}^m a_{ij}a_{ji}=\Sigma_{i=1}^m\Sigma_{j=1}^m a^2_{ij} \]

由矩阵的特性和意义(参数项直接保留在矩阵中)可得:

\[\tag{8} tr'_A(A\cdot A^T)=(\Sigma_{i=1}^m\Sigma_{j=1}^m a^2_{ij})'_A=(A^2)'_A=2\cdot A \]

4.4 行列式求导示例:\(|A|'_A=|A|\cdot (A^{-1})^T\)

设存在矩阵\(A_{mm}\)\(|A|\)是A的行列式,\(a_{ij}\)是A中任一元素,\(A_{ij}\)\(a_{ij}\)的代数余子式

则有:

\[|A|=a_{i1}A_{i1}+a_{i2}A_{i2}+...+a_{im}A_{im} \]

\[\Rightarrow |A|'_A=(a_{i1}A_{i1}+a_{i2}A_{i2}+...+a_{im}A_{im})'_A \]

\[\qquad\qquad\qquad\qquad = \begin {bmatrix} (a_{11}A_{11}+a_{12}A_{12}+...+a_{1m}A_{1m})'_A\\ (a_{21}A_{21}+a_{22}A_{22}+...+a_{2m}A_{2m})'_A\\ ......\\ (a_{m1}A_{m1}+a_{m2}A_{m2}+...+a_{mm}A_{mm})'_A \end {bmatrix} \]

\[\tag{9} \qquad\qquad\quad = \begin {bmatrix} A_{11}&A_{12}&...&A_{1m}\\ A_{21}&A_{22}&...&A_{2m}\\ &&......&\\ A_{m1}&A_{m2}&...&A_{mm}\\ \end {bmatrix} =A^{*T} \]

由矩阵的逆相关性质\(A^{-1}=\frac{A^*}{|A|}\)可得:

\[\tag{10} |A|'_A=|A|\cdot (A^{-1})^T \]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/898248.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu git 上传项目代码

Ubuntu git 上传项目代码 记录使用实验室电脑第一次上传实验代码的过程。 配置SSH密钥 1、本机生成 RSA 密钥对 本机使用ssh-keygen -t rsa命令生成 RSA 密钥,前面步骤都忘记截图啦。根据生成的密钥所在目录,打开id_rsa.pub并复制。这里复制的是公钥。 2、github 配置 SSH KE…

打印机服务共享器

采购与财务,还是使用针式打印,为了方便用,以前购买了IP打印共享器。 某些原因,局域网改变,域更变了,IP肯也得改变。前辈们以前设置或是配置的打印机共享器,没有留下管理可用的信息。如上,固网HP-1007打印机共享器,只有重置啦,电源插口旁有一个“Init.”手上如果还有光…

数字先锋 | AI+政务,轻松跨语种!霍尔果斯政务服务升级蜕变

今年,义乌国际商贸城的一家袜子店火爆全网,商家通过搭载DeepSeek模型的AI视创工具,只需录制中文口型视频,即可通过系统自动生成阿拉伯语、西班牙语等多语种带货视频,将袜子生意做到了世界各地。 在全球化与数字化深度交织的今天,DeepSeek凭借自然语言处理尖端技术,不仅让…

25年湛江一模第19题(马尔可夫链 )

25年湛江一模第19题(马尔可夫链 )专题:概率+数列 题型:马尔可夫链 难度系数:★★★★题目 (25 年湛江一模第 19 题)甲参加了一场智力问答游戏,每轮游戏均有两类问题(难度系数较低的\(A\)类问题以及难度系数较高的\(B\)类问题)供选择,且每…

25 年湛江一模第8题(函数奇偶性+恒成立)

25 年湛江一模第8题(函数奇偶性+恒成立)专题:概率+数列 题型:马尔可夫链 难度系数:★★★★ 题目 (2025 年湛江一模第8题) 已知定义在\(\mathbf{R}\)上的函数\(f(x)\)为奇函数,且当\(x>0\)时,\(f(x)=e^{x}-a\),若\(\forall x \in \mathbf…

每美搭(1)

一、团队介绍 1.1 团队概况 1.1.1 博客展示链接 团队名:每美搭子们,组长博客链接 https://www.cnblogs.com/0623-k 1.1.2 团队项目描述 每美搭:每美搭是一款专注于服装搭配推荐的APP。它能精准获取用户个人基本体型、上传服装类型等多维度数据,结合地区天气、用户心情、服装…

嵌入向量计算示例

嵌入向量计算示例 1. 问题设定场景:电影推荐系统中用户对电影类型的偏好嵌入 输入特征:4种电影类型(动作片、喜剧片、科幻片、爱情片) 嵌入维度:n_e = 2 词汇大小:n_v = 42. 数据表示 (1)独热编码电影类型 独热编码向量动作片 [1, 0, 0, 0]喜剧片 [0, 1, 0, 0]科幻片 […

塔石串口服务器的工作模式有哪些

串口服务器通过支持多种工作模式,实现了串行接口与网络接口之间的数据透明传输,提供了灵活的网络通信解决方案。以下是串口服务器的几种常见工作模式:| TCP Server模式 在TCP Server模式下,串口服务器作为TCP服务器,等待客户端的连接请求。这种模式下,串口服务器会监听一…

【正点原子】全志T113-i开发板震撼上市!异核开发、工控设计方案!新品上市,限时低价!

【正点原子】全志T113-i开发板震撼上市!异核开发、工控设计方案!新品上市,限时低价!ATK-DLT113IS开发板是正点原子基于全志T113-i处理器而研发的一款用于嵌入式Linux领域的开发板,其拥有高性能、高可靠性、低成本和丰富的接口资源,适用于嵌入式系统开发!T113-i芯片框架 …

Stochastic Orders 理解和相关运算(_随时补充)

Recall数学里,用\(o\)和\(O\)表示the order the terms. \(a_n = o(1)\). \(a_n = O(1)\).Stochastic order notation 是一种用来表示随机变量序列概率收敛的速记方法。 \(O_p(1)\)依概率有界; \(o_p(1)\)依概率收敛到0. \(X_n= O_p(a_n)\Leftrightarrow \frac{X_n}{a_n} =O_p…

DCC控制器模型铁路-蓝牙版本

蓝牙版本: 该单元加上App提供了一个完整的DCC控制器,具有击败更昂贵系统的功能。物有所值,可靠,使用简单,定制系统,以匹配您的火车头花名册。 包括F1到F32功能按钮兼容最新的声音解码器 添加您自己的loco名称和函数标题。 -在Android设备(手机或平板电脑)上安装App 对于初…

jMeter的下载和安装

jMeter简介: JMeter 是一款由 Apache 软件基金会开发的开源性能测试工具,主要用于模拟高负载场景下的应用程序行为,帮助开发者评估系统的性能、稳定性和可靠性。 核心功能1. 协议支持广泛:支持 HTTP/HTTPS、FTP、JDBC、SOAP、REST、WebSocket 等多种协议,可对 Web 应用、A…