一、概述
本文的主要目标是,仅通过用户行为来判断新闻的真伪。其之所以抛弃传统的基于视频内容、用户反馈(点赞和评论)等信息,是认为,这些内容很容易存在造假的情况(即有水军机器人操控)。而基于用户行为(转发、好友建立)等操作可以识别出哪些用户是机器人,再以其行为去鉴别新闻的真假。
二、问题数字化
首先,研究者提出使用超图的方式将参与(特指转发行为)同一个新闻视频的观众用户用超边进行连接,构成全局图,而局部图则用于描述观众之间的关系(关注行为)。
这两张图在实际上是放在一块的。从这个图中,我们又构建了两类数据:传播级联和时间序列。(这两个东西文章只公式讲解,不太好搞懂,我认为我应该没理解错)
先讲时间序列:其记录的是对于一个新闻视频,有哪些用户在哪个时间点转发了该视频。
再讲传播级联:其描述的是对于参与同一个新闻视频的所有用户,其中一个用户与剩余其他用户的转发情况(即一个用户将视频转发给另一个用户)。
三、模型架构
本文的模型框架分为两个部分,就如文章题目一样:
HG部分是处理全局行为的模块,其通过Hyper-GNN来生成用户向量(这个向量就可以用来识别是真人还是机器人),其中Cen是一个中心性向量,是通过将超图输入嵌入函数后得到各个用户节点的活跃度。(表示为该用户的超边数量)
SL部分是处理局部行为的模块。图中展示是对一个用户的向量进行加工的过程,其最后来到(c)步骤时是将参与同一个事件的所有用户向量进行加和再进行训练和判断。然后回到SL部分,其就用到了前面说的传播级联和时间序列两个信息来加工HG得到的用户向量。
时间序列的编码首先要将时间信息加到用户信息中,即将用户转发时的时间戳(绝对时间)和相对位置(在序列的第几个用户)来加到用户向量上。然后再对所有加工后的用户向量输入到多头自注意力模块中,得到新闻视频j的时序特征。
传播级联的编码也是同理。也要对用户向量加工,使用的信息就是当前用户的转发数和他转发所形成的树的深度。然后将加工后的用户向量输入到另一个多头自注意力模块中,得到新闻视频j的结构特征。
图中Spread Status Encoding部分就是将上面时间戳、相对位置、转发数、树深转化为向量的结构。
第三部分的门控单元就相对简单了,没有细讲的必要。
四、实验结果
实验所使用的数据集如下:(PolitiFact是关注政治新闻的数据集,GossipCop是关注娱乐新闻的数据集)
本文的实验主要有三个:HG-SL相比其他模型的效果;HG-SL在初始阶段识别假新闻的能力;HG-SL的消融实验。
本文的主实验是将各种模型与本文模型进行对比,对比结果如下:
在实验二中,为了模拟新闻刚发布的情况,研究者限制了用户参与数量,即模拟刚发布时转发人数少的时候。得到的实验结果如下:
实验三,消融实验就是验证各个模块是否起作用,研究者最后得到的结果如下:说明缺少任意一个模块都会降低效果。
五、不足与改进
在文中,作者表示其之后可以考虑用户的其他行为和立场来提高检测效果。但实际看实验一的结果,其能达到90%以上的正确率,已经没有提升的必要。在我看来,作者可能有取巧的成分,因为其实验一使用的模型都是一些图模型,其并没有做和使用其他模态的模型进行对比,像我阅读的上一篇文章FakeSV,也就只有79%的正确率,所以文章所选取的数据集是有所偏好的。
不过,其还是证明了一点,用户的转发行为是可以作为一种新模态来鉴别真假新闻的。