研究表明:论文被大V宣传后,引用次数暴涨2~3倍!

随着AI领域的迅猛发展,学术成果的传播方式发生了显著转变。

期刊审稿周期长,当你还在和审稿人battle时,方法先过时了。而会议虽然没有期刊长,但也有几个月的时间差,为了保护成果的创新性并扩大影响力,很多有名的大组都会选择先在在线预印本平台ArXiv上首发,学术成果更迭速度越来越快。

这也导致了每天arxiv上发表的论文根本看不过来。

此时社交媒体上出现了一批论文分享者,他们挑出AI/ML领域里真正有趣、重要的东西,让大家更容易理解和接触学术成果。

比如我们“夕小瑶科技说”就经常给大家分享有趣的论文,嘿嘿~

社交媒体上的论文分享者除了帮助大家筛选论文外,其分享的行为也扩大了论文本身的影响力!

有多大呢?

今天介绍的这篇论文给出的结论是:被大V分享的论文,被引用的次数比其他的多2-3倍!

图片

论文标题
Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

论文链接
https://arxiv.org/pdf/2401.13782.pdf

这篇文章主要选取了X(前身为Twitter)上两位非常有影响力的用户AK (@_akhaliq)和Aran Komatsuzaki (@arankomatsuzaki),追踪经由他们分享后的论文的引用次数,并设置了对照组。还深入探讨了分享者对论文作者的地理、性别和机构是否有偏好等问题。

下图是两位大V在X上的用户页面截图,可以看到粉丝众多。

图片

▲@_akhaliq

图片

▲@arankomatsuzaki

他们的分享形式一般为:论文标题+一句话总结+论文链接+论文首页截图,如下图所示。简单清晰,重点突出。

图片

▲分享形式

每天分享几篇论文,浏览量都超过上千,为其分享的论文带来不少的曝光度。所以其引用量超出未被分享的论文2-3倍,也不难理解了。

图片

当然主观分析不靠谱,还是要用数据说话,接下来我们来看看详细的图表数据以及作者的分析过程。

1. 数据集:超过8000篇论文的综合数据集

本文构建了一个包含超过8000篇论文的综合数据集,这些论文涵盖了2018年12月至2023年10月期间,两位社交媒体大V在X和Hugging Face等平台上分享的所有相关论文。

为了进行对照研究,作者还构建了一个对照组,该组由与分享论文在出版年份、出版地点和摘要主题上一一匹配的论文组成。通过这种方法,确保了两组论文在质量上的可比性,从而排除了大V只分享“高质量”论文(自然会获得更多引用)的常见假设。

2. 研究方法

作者假设论文的引用次数主要受到发表时间、论文质量和主题的影响。为了量化这些因素,我们使用发表的会议和年份作为论文质量的代理变量,并使用论文标题和摘要的文本嵌入来近似论文主题。

数据收集过程包括三个部分:

1. 收集目标集

首先找到@_akhaliq和@arankomatsuzaki两位大V所推荐的论文列表,使用Semantic Scholar API查询每个文档的标题、摘要、发表年份、发表场所和被引用次数。删除缺少所需属性的任何论文。下表是两位用户共享的前五位最常见的作者以及他们的论文数量。

图片

图片

2. 对照组首先收集了与目标集中的论文在同一会议和同一年份上发表的大规模数据集。具体而言,对于每个在会议v中年份y出版的论文实例,通过查询Semantic Scholar API来获取在会议v和年份y出版的所有论文。共得到了247,993篇唯一的论文,以及124,940篇具有所有所需属性的论文。这些数据构成了与目标集匹配的语料库。

3. 匹配算法

将目标集与对照组的论文进行匹配,对分类变量(发表会议和主题)进行精确匹配,并对连续变量(主题嵌入)使用欧几里得距离匹配。余弦相似度的截断值设定为0.6,确保目标集和对照组在主题上的高度相似性,保留了AK的推文论文的91%和Komatsuzaki的推文论文的96%。

匹配对在主题上非常相似,几乎总是涵盖相同的研究子领域(例如,应用于图像生成的扩散模型),解决相同的问题,并使用相似或相同的方法。如下图所示:

图片

4. 评审分数

此外,为了验证该方法成功控制了论文质量,还检查了目标组和对照组在六个主要机器学习会议的论文评审分数:

图片

结果发现,两组的论文的评审分数分布相似,这说明两组论文质量几乎相等,进一步证实了的匹配方法的有效性。

3. 影响力分析:引用次数与社交媒体分享的关系

作者使用直方图(a,b)和小提琴图(c,d)分别展示目标组(Experimental)和对照组(control)的引用次数分布。如下图所示

图片

结果显示,AK分享的论文的中位引用次数为24,而控制组为14;Komatsuzaki分享的论文的中位引用次数为31,而控制组为12。这些结果表明,与对照组相比,被大V分享的论文在引用次数上有显著提高

作者还使用了2-样本Q-Q图比较目标组和对照组在每个分位点上的分布情况。为了构建图表,引用计数被对数缩放,标准化为对照组的分布(z-score),并按顺序配对进行排序。虚线表示一个等分布;线上方的点表示实验组的分位数更高,反之亦然。如下图所示:

图片

图表显示,目标组的分布始终较高,尤其是靠近中位数的部分。这表明大V分享对于改变论文的引用次数等结果变量在实际上具有显著的影响。

另外作者还使用了Epps-Singleton (ES)、Kolmogorov-Smirnov (KS) 和 Mann-Whitney U (MWU) 等统计测试来确立这一差异的统计显著性,所有测试的p值都远低于严格的α = 0.001标准。如下表所示:

图片

这些检验显示了实验组和对照组分布存在显著差异。

虽然传统上,顶级会议接受(即审稿分数)一直是未来引用次数的主要指标,但该研究表明,大V的分享行为对论文的影响力也不容小觑。,这也体现了社区发现和阅读论文方式的转变。

4. 地理与性别多样性讨论

1. 地理分布的影响

鉴于AK和Aran Komatsuzaki的美国背景,作者探讨了探讨他们分享的论文是否存在地理偏见。

各国论文出版数量变化

作者参考斯坦福HAI 2023 AI指数报告中AI存储库出版物的地理分布,统计了各个国家在人工智能领域发表论文的数量。如下图所示:

图片

可以看到,美国在AI领域的论文发表数量略有下降,这可能表明人工智能领域的成熟,研究越来越分散在全球范围内。同时,欧盟和英国在2010年至2017年持续下降之后,开始出现适度增长,而中国的份额呈现持续上升姿态。

影响者分享论文的地域统计

作者使用Semantic Scholar和dblp收集每个目标集中列出的所有作者的隶属数据。然后,使用Nominatim地理编码API找到每个隶属机构的大致纬度和经度。使用在线公开可用的地址手动调整明显不准确的坐标。从这些信息中,使用Nominatim进行反向地理编码,找到每个隶属机构的国家,然后使用多数投票为每个出版物分配一个国家。结果如下图所示:

图片

▲全球影响力文献作者的地理热力图显示其独特机构的分布。

从上图中,我们可以看到两位影响者分享了来自世界各地的论文。其中美国和欧洲尤为热门。

影响者分享论文的趋势变化

最后,作者将各个国家汇总到HAI报告中使用的相同地理区域,并使用类似的格式进行绘图。

图片

影响者在2018年至2021年的分享模式,与论文发表的全球趋势明显不同。

具体来说,AK分享的出版物显示出“未知”类别的急剧下降,美国份额的戏剧性的上升。这似乎表明了隶属关系报告的改善,而不是AK分享习惯的变化,因为来自其他地区的份额相对稳定。

Komatsuzaki的数据显示了对美国隶属论文的持续关注,直到后来才开始出现其他地理区域。

总的来说,虽然AI出版物的全球格局表明多样性的增加和研究产出的更均匀分布,但我数据呈现了偏向美国的倾斜对齐

另外,作者还表示该统计不够完善:仅使用论文上显示的隶属关系可能会对美国产生固有的偏见。例如,许多隶属于跨国组织的研究人员被分配到美国(总部所在地),但他们却在另一个地区的分支机构工作。此外,还必须注意两位影响者数据中“未知”类别的突出性,未找到隶属关系。

2. 性别多样性的现状

在计算机科学和工程领域,性别多样性至关重要,这些领域历史上一直由男性主导。

首先为了了解该领域整体性别分布的情况,作者参考了2021-2022年Taulbee调查报告的美国计算机科学及相关领域博士学位获得者和教员的性别分布。

然后通过仅筛选每篇论文的第一作者,使用了AMiner Scholar Gender Prediction API,该API根据姓名和隶属关系(如果可用)将作者分类为“男性”、“女性”或“未知”。

结果显示,在@_akhaliq数据集中,可以识别性别的作者中男女比例为80:20,而在@arankomatsuzaki数据集中,该比例为81:19。

这些比例与Taulbee调查报告的计算机科学博士学位获得者中的77:23比例大致相符,与教员中的76:24比例略有偏差。

这表明女性研究者正在增加,但与男性研究者的数量还有很大差距。

总结&讨论

由此可见,社交媒体上的大V们在AI/ML研究中真的很重要。他们分享研究论文,让更多人看到这些论文。本文研究发现,被大V分享的论文,被引用的次数比其他的多2-3倍。这说明大V们不只是分享好论文,他们还能帮大家理解和关注重要的研究成果。他们的推广能力真的很强!

但也有几点内容值得我们思考:

  1. 现在信息这么多,每天arxiv上发表的论文根本看不过来,这些大V帮我们挑出AI/ML领域里真正有趣、重要的东西,让大家更容易理解和接触。不过,总是听他们说也可能让我们错过一些其他的好东西。所以,我们需要一个多样化、有竞争的在线学术环境,这样每个人都能看到更多的研究和想法

  2. 现在社交媒体上的大V们在AI/ML学术圈里越来越有影响力。这意味着我们可能需要重新考虑怎么选论文、怎么评审。希望会议和学术机构能跟上这个变化,改进他们的系统和过程,确保高质量的研究能被大家看到和传播。

  3. 社交媒体上的大V们确实帮了忙,让更多人看到了ML领域的研究。但本文的分析发现,他们分享的论文大多是关于美国的。虽然这反映了美国在AI/ML领域的领先地位,但我们也应该看到其他国家的研究。另外,ML领域里男性和女性的比例不太平衡。虽然大V们分享的内容没有明显的性别偏见,但这个差异还是提醒我们要努力增加这个领域的性别多样性。

现如今,社交媒体和学术研究在AI/ML领域越来越紧密。从论文发表者的角度来说,为了扩大论文的影响力,在arxiv发表论文后,也可以考虑多多在社交媒体上宣传自己的工作。毕竟在这个信息爆炸的时代,“酒香也怕巷子深”!

也欢迎大家多多在“夕小瑶科技说”上分享自己有趣的工作哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/454813.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

npm 上传一个自己的应用(3) 在项目中导入及使用自己上传到NPM的工具

上文 npm 上传一个自己的应用(2) 创建一个JavaScript函数 并发布到NPM 我们创建了一个函数 并发上了npm 最后 我们这里 我们可以看到它的安装指令 这里 我们可以打开一个vue项目 终端输入 我们的安装指令 npm i 自己的包 如下代码 npm i grtest我们在 node_modules目录 下…

搭建自己的私服 maven 仓库

申明:本文章所使用docker-compose配置文件纯属学习运用,非商用如有雷同请联系本人协调处理。 一、配置docker-compose.yml文件 # 指定docker-compose的版本 version: 3 services: nexus: container_name: nexus_container image: sonatype/nex…

理解进程的一些知识准备

1. 认识冯诺依曼体系结构 计算机有很多的体系结构,但到如今,冯诺依曼体系结构变成了主流。 输入设备:话筒、键盘、摄像头、鼠标、磁盘、网卡… 输出设备:声卡、显示器、打印机、显卡、网卡、磁盘… 有的设备既能作为输入设备又能…

麒麟信安服务器操作系统荣获 “2023年湖南省软件和信息技术服务业名品”

12月22日,由中国软件行业协会、湖南省工业和信息化厅指导,湖南省软件行业协会、长沙市雨花区政府主办的2023年第五届湖南省软件产业高质量发展大会暨湖南省软件行业协会年会召开。会上隆重揭晓了“2023年湖南软件行业知名软件产品和服务”奖项&#xff0…

【Linux】进程间通信 --管道通信

Halo,这里是Ppeua。平时主要更新C语言,C,数据结构算法…感兴趣就关注我吧!你定不会失望。 本篇导航 0. 进程间通信原理1. 匿名管道1.1 通信原理1.2 接口介绍 2. 命名管道2.1 接口介绍 3. 共享内存3.1 通信原理3.2 接口介绍 0. 进…

Python类与对象

目录 面向对象 定义类 创建对象 类的成员 实例变量 构造方法 实例方法 类变量 类方法 封装性 私有变量 私有方法 使用属性 继承性 Python中的继承 多继承 方法重写 多态性 继承与多态 鸭子类型测试与多态 面向对象 类和对象都是面向对象中的重要概念。面向…

嵌入式基础知识-组合逻辑与时序逻辑电路

本篇来介绍嵌入式硬件电路的相关知识:组合逻辑电路与时序逻辑电路 根据电路是否具有存储功能,将逻辑电路分为组合逻辑电路和时序逻辑电路。 1 组合逻辑电路 组合逻辑电路,是指在任何时刻,电路的输出状态只取决于同一时刻的输入…

Redis缓存过期淘汰策略详讲

前言 查看redis最大占用内存 1)命令查看 config get memory2)进入redis配置文件,查看maxmemory vim /myredis/redis.conf3)redis默认内存多少可用 如果不设置最大内存大小或者设置最大内存大小为0,在64位操作系统…

解决Python xlwings报错AttributeError ‘NoneType‘ object has no attribute apps

一、问题背景 今天,遇到了一个问题:以前调试好的python使用xlwings操作wps表格的脚本突然不能运行了,遇到了很多莫名问题,下面记录分享下: 开始报错如下: D:\PycharmProjects\tiku\venv\Scripts\python.e…

【Gephi项目实战-带数据集】利用gephi绘制微博肖战超话120位用户关系图,并计算整体网络指标与节点指标

数据集在评论区,B站演示视频在评论区! 简介 最近2天需要用到gephi做社会网络分析,于是从0开始接触gephi并摸索出了gephi的基本使用指南。下面将结合真实的节点文件与边文件,利用gephi绘制社会网络并计算相关测量指标。整个过程会…

文件夹正在使用无法删除(重命名)解决办法

1、问题描述 相信都遇到文件夹无法删除,或者无法重命名的情况。如果将文件夹正在使用的文件都已经关闭后,文件夹仍旧无法删除或重命名。 这个时候大概率是有隐藏的进程没有关闭,可以重启电脑,或者采用下面的方式关闭对应文件夹的…

error getting ip from ipam: operation get is not supported on blockkey

无论是否通过注释指定ip,都不支持cni Claim操作。 查了好久。发现是版本问题,我的calico版本太老了。是3.5的calico ,使用 kubernetes 数据存储时,不支持 Calico IPAM。 需要更新calico到3.6以上,支持 kubernetes 数…