Paper Reading: Deep forest auto-Encoder for resource-Centric attributes graph embedding

news/2025/1/6 14:08:41/文章来源:https://www.cnblogs.com/linfangnan/p/18417305

目录
  • 研究动机
  • 文章贡献
  • 本文方法
    • 整体思想
    • autoencoder
    • 预处理器
    • 深度森林编码生成器
  • 实验结果
    • 数据集和实验设置
    • 节点分类
    • 节点聚类
    • 用户推荐
    • 消融实验
    • 调参实验
  • 优点和创新点

Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《Deep forest auto-Encoder for resource-Centric attributes graph embedding》
作者 Yan Ding, Yujuan Zhai, Ming Hu, Jia Zhao
发表期刊 Pattern Recognition
发表年份 2023
期刊等级 中科院 SCI 期刊分区(2023年12月最新升级版)1 区,CCF-B
论文代码 文中未公开

作者单位:

  1. College of Artificial Intelligence Technology, Changchun Institute of Technology, Changchun 130012, China
  2. School of Computer Technology and Engineering, Changchun Institute of Technology, Changchun 130012, China
  3. School of Chemistry and Life Sciences, Changchun University of Technology, China
  4. School of Electronics Engineering and Computer Science, Peking University, China

研究动机

很多现实问题都可以用图数据结构进行形式化,目前的做法是将图数据转化为低维、高密度的 embedding 表示,可以看作是一种深度特征提取学习。虽然基于自编码器(AE)的图嵌入(GE)方法在静态网络应用中性能优异,但它们通常局限于由带有属性和未加权边的节点组成的网络。同时现有的方法很难充分挖掘深度学习的本质优势,大多数方法通常是将节点属性和网络拓扑以统一的表示进行连接,对组合数据进行编码。

文章贡献

本文设计了一种基于深度森林的embedding 学习方法 GraphDF,该方法可以实现以资源为中心的加权属性图的属性和拓扑信息的嵌入。提出的图预处理器包括基于自注意机制的潜在隐含特征挖掘、基于相似性和模块化相关转换对潜在隐含关系特征的深度一般信息挖掘。使编码器所提取的原始特征包含更全面的信息,以用于更广泛和更深的嵌入应用。还引入了一种新的特征提取器和相关的嵌入表示生成器,它利用多粒度扫描和深度级联森林在确保局部收敛的同时全局优化图嵌入表示。该方法避免了过多的约束和偏差,具有较强的泛化和判别能力,通过 7 个数据集实验结果表明 GraphDF 方法优于最先进的嵌入方法。

本文方法

整体思想

为了实现更全面有效的 graph embedding,本文采用了 multi-task 预处理来提取高密度的深度集成特征,实现从原始图数据空间到一阶张量潜在空间的映射机制。具体来说,本文实现了一种基于 deep forest 驱动的 auto-encoder 嵌入生成器,如下图所示。

该模型有几个关键组件:预处理器、auto-coder 和 深度森林编码生成器(deep forest encoding generator)。

组件 说明
预处理器 对节点语义的属性矩阵和加权拓扑信息的相邻矩阵进行预处理,从宏观无偏性的角度更好地提取和保留原始数据,从而生成多个块
auto-coder Encoder(E) 利用表示学习的思想,将由节点属性 A 和图 G 的拓扑信息 AD 衍生的多个模块转换为 embedding(Z=E(G)),Dncoder 利用该嵌入重构 G 的原始表示向量
EDFEG 对具有增强属性语义信息的串联特征向量进行多粒度扫描,同时通过特征维升级提取而不是特征维降提取,提取和保留判别信息
GDFEG EDFEG 的基础上,构建深度级联森林,进行高密度特征降维提取

同时提出了两层特征级联的思想,实现了特征的高效压缩以及原始特征属性和迭代特征属性的集成优化。初始映射的基本 auto-coder 将节点属性 A 和局部增强拓扑结构 AD 自然地结合到初始映射中,基于 GCN 的基本 auto-coder 可以更好地实现结构信息加权邻接矩阵的融合嵌入。

autoencoder

在将包含原始矩阵和局部增强的块放入其中之前,使用 GCN 作为一阶初始映射的基本 autoencoder。给定图 G 的邻接矩阵 AD,属性矩阵 A,则可以构造模型为:

每个图卷积层表示为:

公式中的符号含义如下表所示:

符号 含义
I 单位矩阵
W(l) 待训练的权值参数
Z(l) 该层的输出映射
φ 激活函数

Decoder 利用深度森林编码生成器最终得到的嵌入对图像进行重构,在给定最终的图嵌入 Z 的情况下,使用全连接神经网络的内积得到重构的图 Gˆ:

使用交叉熵作为损失函数:

预处理器

在以资源为中心的图中,属性矩阵中节点的属性和拓扑的相似性是很重要的,原始信息的 embedding 不能很好地容纳和利用这种信息。为了正确度量每个节点对的相似性,需要集成具有属性相似性的拓扑,使用如下公式计算出每个节点 vi 的局部邻居集:

公式中的符号含义如下表所示:

符号 含义
Δtopoi 与 vi 直接相邻的邻居的集合
Δattri 由 vi 的属性相似度最高的邻居组成的集合

使用 TF-IDF 余弦相似度来计算节点的属性相似度,设 Xi 为节点 vi 的属性向量,则其第 t 个属性 xit 的 TF-IDF 值 x'it 如下:

接着计算节点 vi 与节点 vj 之间的余弦距离 cos(X'i, X'j) 作为属性的相似度。通过引入权重参数,可以计算相似矩阵 Sim 如下:

为了在特征 embedding 中更好地保留和挖掘图的拓扑语义信息,配合相似矩阵对属性信息进行局部增强。引入模块化思想进一步保留网络拓扑信息和结构属性,并将模块化矩阵 MM 作为最终输入模块之一,定义如下:

除了上述图 embedding 的局部相似性和模块化增强之外,还引入了 self-attention 机制进一步提取原始数据矩阵的全局固有性质,构造新的 n∗m' 维模块,如下所示。

公式中的符号含义如下表所示,3 个矩阵都在 0~1 的取值范围以高斯分布随机初始化。

符号 含义
Wq m∗m' 维查询权矩阵
Wk m∗m' 维键权矩阵
Wv m∗m' 维值权矩阵
Z 归一化因子
√d 调节因子,使内积的值不会太大

本文的方法是针对以资源为中心的加权图的 embedding 问题设计的,资源的位置信息和序列逻辑很可能对应用场景有用。因此将位置 embedding 集成到自关注模块中,形成最终的 A' 如下公式所示,其中 pos 表示原始位置的编码,I 表示编码顺序以控制奇偶编码公式的切换。

在 AD 的基础上,通过 self-attention 机制和位置 embedding 得到新的 AD' 模块。预处理器算法的伪代码如下所示。

深度森林编码生成器

A、AD'、A'、Aξ、ADλ 由 AD 输入基本 autoencoder 进行初始映射,生成对应的原始向量,将所有的 5 个向量串联成维度大小为 μ 的长向量 η 作为深度森林编码生成器的输入数据,如下公式所示。

EDFEG 设置两个扫描窗口 W1 和 W2,W1 设为 [(0.1μ)±1],W2 设为 (0.3μ±1)。以扫描窗口 W1 为例,EDFEG 通过完全随机森林 A1 和随机森林 A2 分别产生 S 个 ψW1 维的特征实例,将这 2S 个实例串接成一个 2SψW1维的特征向量,该特征向量与 W2 中的 2SψW2 维特征向量一起作为GDFEG 的输入。
在 GDFEG 的多粒度级联森林中,每层级联森林由 4 个森林组成,其中 2 个是完全随机森林,另外 2 个是随机森林,每个单独的森林由多棵决策树组成.每个节点根据所选择的特征 f 对接收到的数据进行分割,并进行分割运算得到 R * 。父节点的数据被分为两个子集 R1 和 R2,然后在所选特征空间中随机取 i 个特征作为候选分割属性 Γ * 的集合。取候选数为 c ={√r, 1},其中 c=1 对应于完全随机树。一层级联森林完成训练后,将当前层所有森林的决策结果组合起来,得到一个 4Ψ 维特征向量F'=(F * 1,F * 2,F * 3,F * 4) 作为本层的输出。
将该层的输出特征作为增强特征,与多粒度特征集中下一层粒度的特征向量合并,得到增强的训练样本集。重复训练过程 M 次,生成最终嵌入结果 Z=Ffin=(F * 1fin,F * 2fin,F * 3fin,F * 4fin)。
GraphDF 算法的伪代码如下,考虑到随机森林中矩阵计算和决策树计算的并行性,总时间复杂度为 O(T·M3+n2+ T·L/Max{W1,W2}),其中 n 为节点数、L 为 η 的维数,T 为随机森林中的树数。

实验结果

数据集和实验设置

实验使用了7 个具有不同样本数量和特征的公开数据集,两种网页网络图(Cornell、Texas、Washington、Wisconsin)和文档网络图(Citeseer, Cora、Pubmed)数据集信息如下表所示。

将 GraphDF 方法与 12 种 embedding 方法进行了比较,分别是使用图拓扑的方法:DeepWalk、LINE、GraRep、Node2Vec,和同时使用语义和拓扑信息的方法:TriDNR、VGAE、AANE、SNE、ARVGE、WMCNE-LE、DGI 和 AMIL。节点分类任务使用准确率(AC)作为性能指标,节点聚类任务还使用归一化互信息 NMI 作为额外的指标,用户推荐任务同时使用 AC 和 recall 进行性能评估。
所有数据集和所有提到的方法生成的 embedding 向量的维度设置为 64,比较方法的参数均按原作者的方法设置。GraphDF 使用经典的两层 GCN 作为初始 Encoder,第一层包含 128 个单元,第二层包含 64 个单元。Decoder 采用 3 层全连接神经网络,前两层包含 512 个单元,最后一层包含 1 个单元,前两层的激活函数是 ReLU(·),最后一层的 Sigmoid(·)。这些模型使用 pytorch 实现,学习率设置为 0.001。

节点分类

节点分类任务是将每个节点分类到一个标签作为目标,进行图嵌入之后使用 LibSVM 和 LibLINEAR 对节点进行分类,每个数据集都运行十折交叉验证。实验的结果如下表所示,可见 GraphDF 在 LibSVM 和 LibLINEAR 上的结果都优于其他方法。

节点聚类

节点聚类的目标是位每个节点分配一个不同的聚类,进行嵌入之后使用 k-means 实现。结果如下表所示,可见 GraphDF 整体上优于其他方法。

用户推荐

此处比较了 GraphDF 和基线方法在用户推荐中应用嵌入的效果,使用 LASTFM 数据集,它包含来自在线音乐系统的 1892 名用户和 17632 名艺术家。80% 的用户-艺术家关系构成训练数据,剩下的 20% 作为测试数据集,推荐艺人列表 Ru 通过基本协同过滤算法得到。实验结果如下图所示,GraphDF 方法在准确率和召回率方面都优于这些基线方法。

消融实验

此处验证本文的设置是否优于没有双滑动窗口和级联森林的简单生成器,具有单窗口和单层森林的方法称为 GraphDFNDNC。同样,AC和NMI仍然被选择作为绩效指标。实验结果如下表所示,可见本文的设置性能较优。

调参实验

此处验证嵌入维数对模型性能的影响,选择 16、32、64、128 作为测试维数。实验结果如下图所示,可见 GraphDF 在改变图嵌入维度方面的性能是相对稳定的。

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 本文基于深度森林模型对图嵌入问题进行了一种实现,将最后一层输出的增强向量作为嵌入向量输出,具有一定的新意;
  2. 提出的预处理器包含语义、拓扑、高阶信息等多种信息,并与 GCN 的原始属性矩阵和邻接矩阵相结合,能保证得到的 embedding 向量包含结构语义和深度属性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/799410.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop(十五)项目考核 WordCount案例

一、需求分析需求:在给定的文本文件中统计输出每一个单词出现的总次数 SEVENTEEN.txt文本内容如下:say the name seventeen hello we are seventeen nice to meet you you very nice按照MapReduce编程规范,分别编写Mapper,Reducer,Driver1、Mapper (1)将MapTask传过来的…

和之大题解

1111... = 2^n-1长度为n的都是1的二进制数 = 2的n次方-1思路:对于每个数只有选或不选(1或0)的二进制,剩余见代码点击查看代码 #include<bits/stdc++.h> using namespace std; long long f[20]; int main(){freopen("202409C.in","r",stdin);freo…

2024-03-01 Windows MySQL5.7.27绿色版安装

背景 MySQL是常用数据库,其中版本已经有很多了,安装方式也有很多,联网装、安装包等。不仅安装麻烦,卸载也很麻烦。因此笔者一般都是使用绿色版安装,安装过程自己很清晰,每一步都知道自己做了什么,卸载时也很容易,自己安装的时候做了什么,卸载的时候删除什么就行了。 版…

Z-BlogPHP 模板文件与模板标签

在 Z-BlogPHP 中,模板文件和模板标签是非常重要的组成部分,用于生成前端页面。下面详细介绍 Z-BlogPHP 的模板文件结构和常用的模板标签。 模板文件结构 Z-BlogPHP 的模板文件通常位于 /zb_users/theme/你的主题名字/template/ 目录下。常见的模板文件包括:index.php:首页模…

Z-Blog的安装与升级注意事项

升级说明自动升级从下载页面下载最新版本的 Z-Blog 自动安装升级包。 解压缩安装包,并将包中文件上传至服务器。手动升级备份你的旧版 Z-Blog 程序到本地。 从下载页面下载最新版本的 Z-Blog 手动安装包。 解压缩安装包。 删除新版程序的 DATA 目录中的 zblog.mdb 文件,将旧数…

主机安装zblog 无法登陆:错误原因:登录失败

当你遇到在主机上安装 ZBlog 后无法登录后台,并且收到“错误原因:登录失败”的提示时,可以尝试以下几种方法来解决问题:检查用户名和密码:确认你输入的用户名和密码是否正确,注意区分大小写。清除浏览器缓存和Cookies:清除浏览器中的缓存数据和Cookies,有时候这些数据可…

CPU上下⽂切换是什么意思

什么是 CPU 上下文? 多个进程竞争 CPU 会导致平均负载( Load Average)升高,但是进程在竞争 CPU 的时候并没有真正运⾏,为什么还会导致系统的负载升⾼呢?原因就在于CPU 上下⽂切换。Linux 是⼀个多任务操作系统,它⽀持远⼤于 CPU 数量的任务同时运⾏。当然,这些任务实际…

虚拟主机子目录安装了zblog 文章发布提示错误

如果你在虚拟主机的一个子目录中安装了 Z-Blog,并且在发布文章时遇到错误提示,那么这个问题可能与文件路径、配置设置、权限或服务器环境有关。以下是一些可能的原因及解决方法: 1. 检查文件路径问题描述:文件路径配置不正确可能导致发布文章时出现问题。 解决方法:确认 c…

《鸿蒙/Harmony | 开发日志》选择文件或拍照功能

鸿蒙系统提供无需用户授权的文件选择API,支持照片、视频和文件分类选择,具备临时只读权限,优化了安全性和用户体验。鸿蒙选择文件或拍照的功能,有直接可以用的 API,而且和Android相比,最大的好处,是不需要向用户索要文件权限。 不需要索要权限的原因是,鸿蒙的权限改动升…

EF使用

EF命令使用问题描述: PM> Add-Migration InitialCreate Add-Migration : 无法将“Add-Migration”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后再试一次。 所在位置 行:1 字符: 1 + Add-Migration InitialCr…

hackmyvm Hades5变量劫持提权

在这个目录下有个./uid的程序分别运行./uid 和 id 发现我们在 uid一行是有不一样的我们猜测 在./uid里面他先用chown把我们的 uid改写成了anthea 然后运行id 然后再把我们的uid改回andromeda 那么我们怎么拿到这个anthea的权限呢这里就需要用到变量劫持的思想 如果我们把 id 这…

SPDIF接口介绍

SPDIF接口介绍 S/PDIF接口规范详解 S/PDIF是sony和philips在80年代为一般家用器材所定制出来的一种数字讯号传输接口,基本上是以AES/EBU(也称AES3)专业用数字接口为参考然后做了一些小变动而成的家用版本。 可以使用成本较低的硬件来实现数字讯号传输。为了定制一个统一的接口…