图卷积网络(GCN)

本文主要分为两部分,第一部分介绍什么是GCN,第二部分将进行详细的数学推导。

一、什么是GCN

1、GCN 概述

本文讲的GCN 来源于论文:SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS,这是在GCN领域最经典的论文之一。

我们可以根据这个GCN的图看到,一个拥有C个input channel的graph作为输入,经过中间的hidden layers,得到F个 output channel的输出。(注意本文讲的图都特指无向无权重的图。)

图卷积网络主要可以由两个级别的作用变换组成:

(1)graph level

例如说通过引入一些形式的pooling 操作 (see, e.g. Duvenaud et al., NIPS 2015),然后改变图的结构。但是本次讲过GCN并没有进行这个级别的操作。所以看到上图我们的网络结构的输出和输出的graph的结构是一样的。

(2)node level

通常说node level的作用是不改变graph的结构的,仅通过对graph的特征/(features/signals)X作为输入:一个N\times D的矩阵( N : 输入图的nodes的个数, D 输入的特征维度) ,得到输出Z:一个N\times F的矩阵(F输出的特征维度)。
a) 一个特征描述(feature description) x_{i}: 指的是每个节点 i的特征表示

b) 每一个graph 的结构都可以通过邻接矩阵A 表示(或者其他根据它推导的矩阵)

我们可以很容易的根据一个邻接矩阵重构出一个graph。 例如下图:G=(V,E),其中 V代表节点,E代表边

我们通过构造\left | V \right |\times \left | V \right |的矩阵可以得到邻接矩阵A , 其中A_{ij}=1如果节点i和节点j 相连,否则A_{ij}=0 , 我们根据graph可以得到A, 同理通过A也可以得到graph 的结构。

所以网络中间的每一个隐藏层可以写成以下的非线性函数:

H^{(l+1)}=f(H^{(l)},A)

其中输入层H(0)=X, 输出层H(L)=Z,L是层数。 不同的GCN模型,采用不同f(\cdot ,\cdot )函数。

2、模型定义

论文中采用的函数如下:

f(H^{(l)},A)=\sigma (\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})

刚开始看的时候,都会被吓到!这个函数未免也太抽象了。但是我们先了解一下它在起的作用,然后再从头一步一步引出这个公式,以及为什么它起到了这些作用。

首先物理上它起的作用是,每一个节点下一层的信息是由前一层本身的信息以及相邻的节点的信息加权加和得到,然后再经过线性变换W以及非线性变换 \sigma() 。


我们一步一步分解,我们要定义一个简单的 f(H^{(l)},A)函数,作为基础的网络层。

我们可以很容易的采用最简单的层级传导( layer-wise propagation )规则

f(H^{(l)},A)=\sigma (AH^{(l)}W^{(l)})

我们直接将AH做矩阵相乘,然后再通过一个权重矩阵 W^{(l)} 做线性变换,之后再经过非线性激活函数 \sigma(\cdot ) , 比如说 ReLU,最后得到下一层的输入H^{(l+1)} 。

我们需要特别注意的是AH做矩阵相乘,这代表了什么意思呢?

我们先看看,对于下图。

假设每个节点x_{i}=[i,i,i,i], 那么在经过矩阵相乘之后,它会变成什么呢。

输入层的 x_{1}=[1,1,1,1] , 根据矩阵的运算公式我们可以很容易地得到下一层的该节点的表示x_{1}^{​{}'}=[7,7,7,7]  , 也很容易发现x_{1}^{​{}'}=x_{2}+x_{5} ,而 x_{2},x_{5}就是节点1的相邻节点。具体计算结果可以参考下面的代码。

A = torch.tensor([[0,1,0,0,1,0],[1,0,1,0,1,0],[0,1,0,1,0,0],[0,0,1,0,1,1],[1,1,0,1,0,0],[0,0,0,1,0,0]
])H_0 = torch.tensor([[1,1,1,1],[2,2,2,2],[3,3,3,3],[4,4,4,4],[5,5,5,5],[6,6,6,6]
])A.matmul(H_0)
>>>tensor([[ 7,  7,  7,  7],[ 9,  9,  9,  9],[ 6,  6,  6,  6],[14, 14, 14, 14],[ 7,  7,  7,  7],[ 4,  4,  4,  4]])

所以我们直到AH就是把通过邻接矩阵快速的方式,快速将相邻的节点的信息相加得到自己下一层的输入。

但是这就完美了吗?

  • 问题一:我们虽然获得了周围节点的信息了,但是自己本身的信息却没了(除非自己有一条边指向自己)。

我们采用的解决方案是,对每个节点手动增加一条self-loop 到每一个节点,即 \hat{A}=A+I , 其中I 是单位矩阵identity matrix。

  • 问题二:从上面的结果也可以看出,在经过一次的AH 矩阵变换后,得到的输出会变大,即特征向量 X的scale会改变,在经过多层的变化之后,将和输入的scale差距越来越大。

所以我们是否可以将邻接矩阵A做归一化使得最后的每一行的加和为1,使得 AH获得的是weighted sum。

我们可以将A的每一行除以行的和,这就可以得到normalized的A 。而其中每一行的和,就是每个节点的度degree。用矩阵表示则为:A=D^{-1}A , 对于A_{ij}=\frac{A_{ij}}{d_{i}}

我们还是按照上面图的graph来看。

  import torchA = torch.tensor([[0,1,0,0,1,0],[1,0,1,0,1,0],[0,1,0,1,0,0],[0,0,1,0,1,1],[1,1,0,1,0,0],[0,0,0,1,0,0]], dtype=torch.float32)D = torch.tensor([[2,0,0,0,0,0],[0,3,0,0,0,0],[0,0,2,0,0,0],[0,0,0,3,0,0],[0,0,0,0,3,0],[0,0,0,0,0,1],], dtype=torch.float32)hat_A = D.inverse().matmul(A)>>>hat_Atensor([[0.0000, 0.5000, 0.0000, 0.0000, 0.5000, 0.0000],[0.3333, 0.0000, 0.3333, 0.0000, 0.3333, 0.0000],[0.0000, 0.5000, 0.0000, 0.5000, 0.0000, 0.0000],[0.0000, 0.0000, 0.3333, 0.0000, 0.3333, 0.3333],[0.3333, 0.3333, 0.0000, 0.3333, 0.0000, 0.0000],[0.0000, 0.0000, 0.0000, 1.0000, 0.0000, 0.0000]])

但是在实际运用中我们采用的是对称的normalization: A={D}^{-\frac{1}{2}}{A}{D}^{-\frac{1}{2}}

对于 A_{ij}=\frac{A_{ij}}{\sqrt{d_{i}\sqrt{d_{j}}}}

这跟Laplacian Matrix 有关,下一部分会介绍。 我们可以发现

A_{0,1}=\frac{A_{0,1}}{\sqrt{d_{0}\sqrt{d_{1}}}}=\frac{1}{\sqrt{2\sqrt{}3}}=0.4082

  D_minus_sqrt = D.inverse().sqrt()D_minus_sqrt.matmul(A).matmul(D_minus_sqrt)>>>tensor([[0.0000, 0.4082, 0.0000, 0.0000, 0.4082, 0.0000],[0.4082, 0.0000, 0.4082, 0.0000, 0.3333, 0.0000],[0.0000, 0.4082, 0.0000, 0.4082, 0.0000, 0.0000],[0.0000, 0.0000, 0.4082, 0.0000, 0.3333, 0.5774],[0.4082, 0.3333, 0.0000, 0.3333, 0.0000, 0.0000],[0.0000, 0.0000, 0.0000, 0.5774, 0.0000, 0.0000]])

把这两个tricks结合起来,我们可以得到

f(H^{(l)},A)=\sigma (\hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}H^{(l)}W^{(l)})

其中 \hat{A}=A+I , \hat{D} 是\hat{A}的degree matrix。 而 \hat{D}^{-\frac{1}{2}}\hat{A}\hat{D}^{-\frac{1}{2}}是对A做了一个对称的归一化。

二、数学推导

1、Graph Laplacian

首先我们表示一个graph的方式有很多,我们可以用邻接矩阵,也可以用Incidence matrix。 这个matrix 中,每一行表示一个边,每一列表示一个节点。每一行中,边的节点的起点用记为1,边的终点记为-1。 我们将这个metrix 记为 C, 具体如下图。

那么 graph Laplacian 定义为: L(G)=C^{T}C

C = torch.tensor([[1,-1,0,0],[1,0,-1,0],[1,0,0,-1],[0,-1,1,0],[0,0,1,-1],[0,-1,0,1],
])
C.T.matmul(C)
>>>tensor([[ 3, -1, -1, -1],[-1,  3, -1, -1],[-1, -1,  3, -1],[-1, -1, -1,  3]])

我们可以发现,对角线的值 , 其中如果 C_{j,i}=0 , 则其积 = 0,如果 C_{j,i}=1 或者C_{j,i}=-1 , 则其积 = 1。所以我们可以知道对角线代表的是每个节点的度(Degree)

对于非对角线的值  , 我们可以看出来,如果节点 i 和j没有相连,那么 C_{k,i}C_{k,j}=0否则 C_{k,i}C_{k,j}=-1 , 于是知道非对角线的值就是邻接矩阵的负值。

所以我们可以推导得到

L(G)=C^{T}C=D-A

如下图(注意这边W表示的是邻接矩阵)

总结来说:

具体计算参考下面的代码

C = torch.tensor([[-1,1,0,0,0,0], # 1-2[-1,0,0,0,1,0], # 1-5[0,-1,1,0,0,0], # 2-3[0,-1,0,0,1,0], # 2-5[0,0,-1,1,0,0], # 3-4[0,0,0,-1,1,0], # 4-5[0,0,0,-1,0,1], # 5-6
])
C.T.matmul(C)
>>>
tensor([[ 2, -1,  0,  0, -1,  0],[-1,  3, -1,  0, -1,  0],[ 0, -1,  2, -1,  0,  0],[ 0,  0, -1,  3, -1, -1],[-1, -1,  0, -1,  3,  0],[ 0,  0,  0, -1,  0,  1]])

我们需要知道 laplacian L(G) 的性质:

  •  L(G)是对称矩阵
  • L(G) 有实数的,非负的特征值(eigen values)
  • L(G) 有实数的,正交的特征矩阵(eigen vectors), i.e. U^{T}U=I

对此,我们假设 L(G) 的特征值为 \Lambda特征向量为 U :

LU=U\Lambda

LU^{T}U=U\Lambda U^{T}

L=U\Lambda U^{T}

  • 对于特征值我们有 \lambda _{n-1}\geqslant \lambda _{n-2}\geqslant\cdot \cdot \cdot \geqslant \lambda _{1}\geqslant \lambda _{0}\geqslant 0
  • 对称归一化的Laplacian (Symmetric normalized Laplacian)

其元素值,对角线为1,非对角线为 -\frac{1}{\sqrt{dev(v_{i})\sqrt{dev(v_{j})}}}


我们要知道两个函数的卷积可以由以下公式得到,具体参考

其中 F 代表傅立叶变换

而Graph Fourier变换对应的就是以下:

其中Graph Fourier 逆变换对应的就是以下:

其中U是laplacian L的特征矩阵 具体的对应关系:


我们知道普通的卷积公式:

那么相应的图卷积的公式为:

作为图的特征x的filter,我们希望它的作用域跟CNN一样,都是在中心节点附近的区域,所以我们定义 g是一个laplacian的函数 g(L) , 那么作用一次相当于传播一次周围邻居节点的信息。 

又因为 U^{T}L=U^{T}U\Lambda U^{T} =\Lambda U^{T} , 所以我们可以把 U^{T}g 看成是laplacian 特征值的函数 g_{\theta }(\Lambda )=diag(\theta ) , 参数为 \theta 。

所以图卷积在Fourier域上可以表示为:

我们知道 g_{\theta }(\Lambda )需要先计算laplacian matrix L的特征值,这涉及到大量的矩阵运算,所以文章借用了Chebyshev polynomials进行近似计算:

  • 其中 \tilde{\Lambda }=\frac{2}{\lambda _{max}}\Lambda -I_{N} , K 代表的是 K^{th}次Laplacian,即它取决于中心节点的最近的 K^{th} order 的邻居节点(邻居节点和中心节点的距离最大为K)。
  • T_{k}(x)=2xT_{k-1}(x)-T_{k-2}(x) , 其中T_{0}=1以及 T_{1}=x 。

我们回到最初的图卷积计算:

其中 \tilde{L }=\frac{2}{\lambda _{max}}L -I_{N}

我们知道论文中采用的传播邻居层数为1, 所以取 k=1 , 并且我们假设 \lambda _{max} = 2 , 可以得到:

实际运用中,为了防止overfitting以及减少操作,我们令 
\theta =\theta _{0}^{'}=-\theta _{1}^{'}

 得到: 

我们令 \hat{A}=A+I_{N} , 以及 

得到:

再加上激活函数\sigma, 我们获得了

其中H对应输入x , W对应参数\theta。 

三、ref

  • https://en.wikipedia.org/wiki/Laplacian_matrix
  • T. N. Kipf, M. Welling, Semi-Supervised Classification with Graph Convolutional Networks(ICLR 2017) [Link, PDF (arXiv), code, blog]
  • https://math.stackexchange.com/questions/1113467/why-laplacian-matrix-need-normalization-and-how-come-the-sqrt-of-degree-matrix

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/424600.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

两个指针之间的运算

1 、两个指针之间可以做减法运算,但不能做加法运算。 2 、两指针变量相减所得之差是两个指针所指数组元素之间相差的元素个数。

【JS逆向学习】某壁纸下载(ast混淆)

逆向目标 目标网址:https://bz.zzzmh.cn/index逆向接口一:https://api.zzzmh.cn/bz/v3/getData逆向接口二:https://cdn2.zzzmh.cn/wallpaper/origin/0d7d8d691e644989b72ddda5f695aca2.jpg?response-content-dispositionattachment&aut…

大模型笔记【3】 gem5 运行模型框架LLama

一 LLama.cpp LLama.cpp 支持x86,arm,gpu的编译。 1. github 下载llama.cpp https://github.com/ggerganov/llama.cpp.git 2. gem5支持arm架构比较好,所以我们使用编译LLama.cpp。 以下是我对Makefile的修改 开始编译: make UNAME…

AI搜索引擎Perplexity来了,谷歌等老牌搜索引擎或许会有新的威胁?

Perplexity AI 是一家 AI 搜索初创公司,它通过结合内容索引技术和大型语言模型的推理能力,提供更便捷和高效的搜索体验。另外,最近很火的小兔子Rabbit R1硬件AI设备中的搜索功能正是这家公司的杰作。在短短一年半的时间里,一个企业…

【第十五课】数据结构:堆 (“堆”的介绍+主要操作 / acwing-838堆排序 / c++代码 )

目录 关于堆的一些知识的回顾 数据结构:堆的特点 "down" 和 "up":维护堆的性质 down up 数据结构:堆的主要操作 acwing-838堆排序 代码如下 时间复杂度分析 确实是在写的过程中频繁回顾了很多关于树的知识&…

性能优化-OpenCL 介绍

「发表于知乎专栏《移动端算法优化》」 本文首先对 GPU 进行了概述,然后着重地对移动端的 GPU 进行了分析,随后我们又详细地介绍了 OpenCL 的背景知识和 OpenCL 的四大编程模型。希望能帮助大家更好地进行移动端高性能代码的开发。 🎬个人简介…

【Android】细数Linux和Android系统中的伪文件系统

文章目录 前言Linux伪文件系统cgroupfsLinux的cgroupsAndroid的cgroups debugfsfunctionfs(/dev/usb-ffs/adb)functionfs 的引入sysfs是什么 procfs(/proc)pstore(/sys/fs/pstore)selinuxfs(/sys/fs/selinux)sysfs(/sys)参考 前言 做了好些年Android开发,你了解过L…

RFID标签是什么?该技术有哪些应用领域?

射频识别(RFID)技术利用电磁场,自动识别和跟踪附在物体上的标签,其中,近场通信(NFC)是一种基于短距离RFID高频技术的标准,支持13.56 MHz的频率。 NFC技术在现今的产品中应用广泛&am…

【心得】java从CC1链入门CC链个人笔记

来劲了,感觉离真正的CTF又近了一步。 本文仅从一个萌新的角度去谈,如有纰漏,纯属蒟蒻。 目录 CC链概念 CC链学习前置知识 CC1链 Version1 Version2 Version3 CC链概念 CC链 Commons Collections apache组织发布的开源库 里面主要对…

一文教你写出高效的软件测试用例!微信朋友圈动态发送为例

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

如何制作自己的实景中国视频地图?

让每一个人都有自己的地图! 我们在《水经微图Web版1.5.0发布》一文中,提到了水经微图(简称“微图”)Web版新增了视频气泡的功能。 现在,我们为你分享一下如何基于此功能,制作一个属于自己的实景中国视频地…

浏览器无网

目录 1.运行网络诊断,确认原因 原因A.远程计算机或设备将不接受连接(该设备或资源(Web 代理)未设置为接受端口“7890”上的连接 原因B.DNS服务器未响应 场景A.其他的浏览器可以打开网页,自带的Edge却不行 方法A:关闭代理 Google自带翻译…