论文阅读 - Anatomy of an AI-powered malicious social botnet-编程知识

论文链接： https://arxiv.org/pdf/2307.16336.pdf

摘要

1引言

2 相关工作

2.1 LLM驱动的网络威胁

2.2 LLM生成的内容检测

2.3 社交机器人检测

2.4 由 LLM 增强的机器人

3 Fox8僵尸网络的识别

4 特性

4.1 配置文件

4.2 社交网络

4.3内容类型

4.4放大标签和账号

4.5共享网站

4.6自我暴露的推文

5 Detection

5.1 Botometer

5.2 llm生成的内容检测器

5.3检测llm驱动的机器人

6 Conclusion and discussion

摘要

大型语言模型（LLM）在生成跨不同主题的真实文本方面表现出令人印象深刻的能力。人们担心它们可能被用来制作具有欺骗性意图的虚假内容，尽管迄今为止的证据仍然是轶事。

文章主要内容：

本文介绍了一个关于 Twitter 僵尸网络的案例研究，该僵尸网络似乎利用 ChatGPT 来生成类似人类的内容。

通过启发式方法，作者识别了 1,140 个帐户并通过手动注释对其进行验证。这些帐户形成了密集的虚假角色集群，这些角色表现出类似的行为，包括发布机器生成的内容和窃取的图像，并通过回复和转发相互互动。

ChatGPT 生成的内容特点：

ChatGPT 生成的内容会宣传可疑网站并传播有害评论。

虽然人工智能僵尸网络中的帐户可以通过其协调模式进行检测，但当前最先进的 LLM 内容分类器无法区分它们和人类帐户。

这些发现凸显了人工智能社交机器人带来的威胁。

1引言

chatgpt可能会被滥用，从而产生错误/虚假信息和有害内容:

最近的研究表明，像 GPT 系列这样的模型能够生成与人类生成的新闻文章没有区别的新闻文章，并且在几乎没有人类参与的情况下生成大量令人信服的错误/虚假信息。检测此类内容对现有的自动检测模型提出了挑战。

LLM还可以用来扩大个性化攻击，例如鱼叉式网络钓鱼内容.

迄今为止，LLM 出于恶意目的而在该领域部署的证据在很大程度上仍然是传闻。

在本文中，作者提出了一个关于 Twitter 僵尸网络的案例研究，该僵尸网络似乎使用 ChatGPT 生成有害内容。

之前的机器人行为：

社交机器人是部分由软件控制的社交媒体帐户，已经存在多年。

他们被发现在从选举到公共卫生危机的各种情况下扭曲在线对话并传播错误信息。

传统的社交机器人通常遵循预先定义的指令来执行简单的任务，例如发送垃圾邮件、关注其他人以及放大某些叙述。

他们通常缺乏创建真实角色、发布令人信服的内容或自动与其他帐户进行自然对话的智能。

然而，LLM的最新进展和广泛采用彻底改变了这种情况。敌对行为者现在可以轻松地利用语言模型来显着增强机器人在各个方面的能力。

分析样本来源：机器人帐户是通过他们意外发布的自我暴露推文来识别的

分析样本中的机器人帐户是通过他们意外发布的自我暴露推文来识别的。

启发式方法和手动注释相结合，在“fox8”僵尸网络中产生了 1,140 个帐户。对该僵尸网络中帐户所表现出的行为进行深入分析表明，它们通过相互关注形成了一个密集的社交网络。

他们发布机器生成的内容并窃取自拍照来创建虚假角色。

他们还经常通过转发和回复相互互动。仔细观察这些自我暴露的推文表明，ChatGPT 生成的内容旨在宣传可疑网站并传播有害评论。

作者应用了最先进的 LLM 内容检测器，发现它们无法有效区分人类和 LLM 驱动的机器人。

llm驱动的社交机器人的出现

作者的工作揭示了llm驱动的社交机器人的出现，并强调了它们构成的威胁。

通过关注现实世界的僵尸网络，作者为llm如何被该领域的敌对行为者利用提供了有价值的见解。

鉴于人工智能技术的快速进步，预计更先进的机器人帐户将在社交媒体上激增，服务于不同的目的。

2 相关工作

2.1 LLM驱动的网络威胁

机器生成的内容长期以来一直与网络社会威胁有关，例如网络钓鱼、错误/虚假信息和有害内容。

由于两个主要原因，LLM进一步加剧了这些威胁：

首先，LLM在生成类似人类的文本方面击败了传统的文本生成方法。这一增强功能使他们能够针对以前未见过的攻击制作引人注目的个性化内容；

其次，强大的LLM变得容易获取、负担得起且用户友好。例如，OpenAI 提供对其模型的 API 访问，使用户能够以象征性的费用生成大量内容。与大多数LLM的交互是通过人类语言提示进行的，即使是那些没有技术知识的人也能进行交互。利用模型能力的技能。用户还可以直接从模型本身获取有关 API 查询和 LLM 提示的知识。开源LLM的可用性为技术用户提供了更大的灵活性，可以根据他们的需求训练、定制和实施模型。

滥用行为的经验证据很少:

因此，LLM有可能极大地重塑网络社会安全的格局，这是许多研究人员共同关心的问题。然而，该领域此类滥用行为的经验证据很少。 Hanley 等人就是一个例子，他们分析了新闻媒体中机器生成的文本，发现 ChatGPT 发布后此类内容大幅增加，尤其是在低可信度网站上。

2.2 LLM生成的内容检测

LLM的潜在误用需要开发可靠的方法来检测LLM生成的内容。现有的策略可以大致分为黑盒和白盒方法。黑盒检测方法通常被定义为二元分类问题，其中分类器是在人类和机器生成的文本上进行训练的。目标是识别机器生成内容的特征，例如统计异常和语言模式。另一方面，白盒方法要求 LLM 所有者将特定信号或水印（例如，改变的词频）嵌入到生成的内容中以供后续识别。

检测LLM生成的内容是一项艰巨的挑战:

但是，LLMs出色的文本生成功能引起了人们对检测可行性的质疑。

例如，Sadasivan等人认为，当llm可以产生与人类生成的内容完全无法区分的文本时，黑盒检测可能是无法实现的。

Chakraborty等人表明，如果机器和人类生成的内容分布不同，检测在理论上是可能的，但是随着LLMs的推进，检测所需的样本大小增加。白盒方法也不是防弹的，容易受到对抗性攻击。最近研究表明，文本释义显著降低了检测精度。此外，这种方法可能不适用于开源llm，因为恶意行为者可能有意移除嵌入的水印。

2.3 社交机器人检测

与ChatGPT等聊天机器人 (仅通过文本与用户交互) 不同，社交媒体机器人显示个人资料并通过各种方式 (包括关注，喜欢和转发) 与他人互动。

机器学习模型可以利用所有这些行为来检测机器人。研究人员通常采用监督方法，其中为训练分类器收集了bot和人类的示例。然后在该过程中考虑从账户元数据到社交网络结构的各种特征。

机器人发布的内容也提供了必要的线索。

随着一些机器人进化以更好地模仿人类概况和行为，它们的活动只能在协调的操作期间被检测到。这种无监督的方法通常需要计算不同账户的相似性，并随后将它们聚类到组中。关键信号包括时间活动、常见转发和在推文中共享的url。相似性度量的定义因研究而异。因此，尽管在特定情况下它们的精度很高，但无监督方法往往会在不同上下文中难以推广。

2.4 由 LLM 增强的机器人

使用LLMs为机器人生成逼真的文本:

Llm还具有增强社交机器人的能力的潜力，类似于先前提到的网络社会威胁。一个基本的应用程序是使用LLMs为机器人生成逼真的文本，从而增加它们与人类用户的相似性。

为了开发用于这种类型的机器人的有效检测方法，Kumarage等人构建内部数据集，该内部数据集使用GPT-2来生成文本并将其与人类生成的内容进行比较。然而，对利用机器生成的文本的社交机器人的实证研究是有限的。

作者的研究通过分析利用最新AI模型的最新僵尸网络为这一研究做出了贡献：

一个值得注意的例外是Fagni等人的工作，他们在Twitter上识别23个自我披露的bot帐户并共享数据集。根据这些机器人的描述，它们的推文是由GPT-2、RNN、LSTM和马尔可夫链等算法生成的。随后的研究已经建立在该数据集上，以探索基于内容的bot检测的各种策略。尽管进行了这些研究，但对由高级llm驱动的机器人的理解仍然是基本的。

3 Fox8僵尸网络的识别

fox8 僵尸网络是通过这些账户无意中发布的自我暴露推文而被识别出来的。

为了防止生成不良内容，专有的LLM通常通过一种称为强化学习的技术植入保护措施，该技术根据人类反馈进行强化学习。例如，ChatGPT 模型被指示拒绝回答任何违反 OpenAI 使用政策的问题。违规行为包括有害内容、虚假信息和量身定制的财务建议。一旦发生违规，模型会用标准化消息进行响应，声明其作为人工智能语言模型的身份以及它们无法遵守（示例请参见表 1）。如果没有合适的过滤机制，这种自我暴露的内容可能会被 LLM 支持的机器人意外发布。

数据集收集策略：

基于这一线索，作者使用 Twitter V2 API 的历史搜索端点在 2022 年 10 月 1 日至 2023 年 4 月 23 日期间在 Twitter 上搜索了短语“as an ai language model”。

这导致 9,112 个唯一帐户发布了 12,226 条推文，但不能保证所有这些帐户都是 LLM 支持的机器人。因此，作者选择了 100 个帐户样本进行手动验证，发现 76% 可能是人类发布或转发 ChatGPT 输出，而其余帐户可能是使用 LLM 进行内容生成的机器人。然而，由于LLM生成的文本具有自然的、类似人类的性质，明确的识别具有挑战性。

在注释过程中，作者注意到在一些类似机器人的帐户中重复出现的模式。具体来说，它们始终链接到三个可疑网站: fox8.news (与合法新闻媒体fox8.com不同)，cryptnomics.org，和globaleconomics。因此，作者提取了所有1,140个链接到这些网站的帐户进行进一步调查，并发现它们来自同一僵尸网络的强烈迹象，可能使用ChatGPT进行内容创建 (请参阅以下各节中的证据)。因此，作者将其称为 “fox8” 僵尸网络，并在本研究中重点关注它。

作者使用Twitter V1.1 API从每个fox8机器人收集多达200条最近的推文以及朋友和追随者列表，以进行进一步调查。

在作者的分析中，旨在将fox8机器人的行为与具有人为内容的合法帐户的行为进行对比。

为此，作者转向用于训练社交机器人检测器的预先存在的数据集。具体地，作者利用四个数据集: botometer-反馈、gilani-17、中期-2018和varol-icwsm ，从每个中随机选择285个人类账户。这些数据集中的帐户由人类注释。在像ChatGPT这样的llm发布之前，这些帐户收集了多达200条推文，从而大大降低了数据污染的可能性。将1,140个机器人帐户与1,140个人类帐户组合在一起，结果是基准数据集: fox8-23数据集，这是公开可用的github.com/osome- iu/AIBot_fox8

4 特性

在本节中，作者将描述 Fox8 机器人的特征，以揭示它们的行为模式。

4.1 配置文件

从fox8配置文件开始，并在图1中显示其关注者/关注者计数，推文计数和创建年份的分布。

这些机器人平均有74.0 (SD = 36.7) 追随者，140.4 (SD = 236.6) 朋友和149.6 (SD 178.8) 推文。

这些数字表明fox8机器人正在积极参与Twitter上的各种活动。

作者发现其中大多数是七年前创建的，其中一些是2023年创建的。大多数机器人在其个人资料中都有描述，通常提到加密货币和区块链。

（Fox8 机器人的个人资料特征 (N=1,140)。作者显示了 (a) 关注者数量、(b) 关注（朋友）数量、(c) 推文数量和 (e) 创建年份的分布）

4.2 社交网络

分析Fox8 机器人的社交网络。考虑三种互动形式：关注、转发和回复。引用由于稀有而被忽略。

关注网络是通过机器人的好友和关注者列表构建的。转发和回复网络是根据他们最近的推文推断出来的。

这里只关注 1,140 个 Fox8 机器人，忽略其他帐户，即使它们与 Fox8 机器人进行过交互。

在图2(a)中可视化关注的网络，结果是非常密集的: 它平均入度有13.7(SD = 5.2)和出度为13.4度(SD = 5.8)。集中在平均值周围的几乎相同的分布表明，fox8机器人的以下行为是人工设计的，而不是有机的ーー关注者数量的经验分布往往更广泛，更倾向于较低的值。

类似地，在图2(b，c)中显示了回复和 retweet 网络。应答网络更为稀疏，平均入度为3.4(SD = 2.3) ，出度为3.1(SD = 1.9)。注意，在这里只显示了包含1,036个 fox8帐户的最大弱连接元件(图论)。Retweet 网络与应答网络非常相似。

（图 2：fox8 机器人的社交网络。 (a) 关注网络 (N=1,140) 和相应的入度和出度分布的可视化。 (b) 与 (a) 相同，但对于回复网络 (N=1,036)。 (c) 与 (a) 相同，但针对转发网络 (N=1,058)。 (d) 在fox8和基线组内部和之间有回复的帐户对的百分比。 y 轴和 x 轴分别表示源帐户组和目标帐户组。 (e) 与 (d) 相同，但用于转发）

(b) 和(c)网络介绍：

与关注网络不同，图中所示的回复和转发网络可能仍会从有机帐户交互中出现。

为了排除这种可能性，作者通过将fox8机器人与另一组帐户作为基准进行比较来进行其他分析。

由于来自Twitter的随机样本可能会证明它们之间根本没有交互，因此作者诉诸于便利样本，即发布 “作为ai语言模型” 但不属于fox8僵尸网络的7,972帐户。这些帐户在某些方面讨论了人工智能。因此，他们的行为可以更好地反映具有共同兴趣的在线社区中用户之间的交互模式，将其标记为 “基线” 组。

作者从基线账户中获取最多200条最新的推文，以推断他们的回复和转发边。对于fox8机器人和基线帐户，作者计算了图2(d,e)中组内和组间具有回复和转发边缘的帐户对的百分比。回复网络的结果表明，fox8机器人有0.2%的机会回复对方，而基线组的回复率为0.016%。与群体内部的互动相比，跨群体的互动是极其罕见的。在转发关系中也观察到类似的模式。

上述分析的结论：

这些发现表明fox8机器人有意地相互跟随，形成一个密集的集群。他们还经常通过回复和转发进行互动，以提高用户粘性。值得一提的是，他们还通过关注、转发、回复和点赞等方式与僵尸网络之外的账户互动。

4.3内容类型

fox8机器人发布的推文。在手动检查期间，注意到他们的时间表包含各种tweet类型的平衡混合。为了证实这一观察结果，作者计算了原始tweet、回复和转发/引用的百分比，并将结果显示为图3(a)中的热图。为了进行比较，作者为fox8-23中的人类账户生成了相同的图，并在图3(b)中显示。

发现人类账户分布在特征空间中更具多样性。另一方面，fox8机器人集中在一个有限的区域，表明程序化的行为模式。平均而言，机器人产生25.6% (SD=22.4%)的原创推文，36.1% (SD=21.3%)的回复和38.4% (SD=21.7%)的转发/引用。

值得注意的是，许多fox8机器人间歇性地发布照片，通常是自拍照，给人的印象是这些账户背后是真人。然而，我们发现这些照片是从其他网站或社交媒体平台上挪用的，比如Instagram，一种众所周知的创造假角色的策略。

4.4放大标签和账号

fox8机器人的目标是什么?

通过分析他们推文中的标签以及他们转发或回复最频繁的账户来解决这个问题。

在图4(a)中，作者显示了fox8机器人共享最多的10个hashtag。在计算中结合了原始tweet、转发tweet和引用，因为它们产生了质量相似的结果。这些标签中的大多数都与加密货币/区块链有关。

还确定了fox8机器人最频繁使用的账户。由于fox8僵尸程序经常相互交互，将重点放在僵尸网络之外的交流计数上，并在图4(b)中显示了前10个。这些交流计数大多与加密货币/区块链/NFT有关。请注意，@GlobalEconNews是环球经济的官方账号。News是用来识别fox8机器人的网站之一。这个账号的回复、转发和点赞部分都充斥着fox8机器人。

这些发现表明，fox8机器人主要用于发布和复制有关加密货币/区块链的信息，这与它们的描述一致。

4.5共享网站

由于fox8机器人经常在其tweet中共享链接，作者提取了这些链接的网站域名，并在图5(a)中显示了10个最常见的链接。

三个网站(cryptnomics.org, fox8，以及全球经济新闻)比其他的要突出得多，这并不奇怪，因为它们也是用来识别fox8机器人的工具。作者进一步计算了每个fox8机器人共享这些网站的概率，并在图5(b)中显示了其分布。

虽然这三家网站看起来是正常的新闻媒体，但它们的一些方面却令人担忧。虽然域名注册信息中隐藏了所有者身份，但在2023年2月8日和2月9日分别注册了两个和第三个域名。这三个网站还有很多相似之处。例如，它们似乎使用相同的WordPress主题，它们的域名解析到相同的IP地址，并且它们显示弹出提示，敦促访问者安装可疑软件。虽然他们自称是新闻出版商，但没有提供有关其编辑团队的详细信息。他们所有的文章都来自vox.com和forbes.com等知名媒体平台。

许多链接到这些可疑网站的fox8推文都包含与新闻文章不连贯，其中包括一些自我暴露的推文。因此，作者推测，ChatGPT被用来生成这些推文来促进网站，即使运营商的执行并不完美。

4.6自我暴露的推文

作者对llm在驱动fox8机器人中的作用特别感兴趣。

关注自我暴露的推文有两个原因。

首先，更确定这些推文来自LLM。其次，这些自我暴露的推文可以提供对操作员提示或指示的见解，从而揭示(一些)他们的目标。

在fox8机器人最近发布的推文中，有1205条是自我披露的，有些机器人有多个实例。手动对它们进行分类，并在表1中显示每个类的百分比和相应的示例。偶尔，这些自我揭露的推文明确提到了“OpenAI”，这让作者相信僵尸网络利用了ChatGPT

大多数自我暴露的推文(81.3%)源于违反OpenAI指导方针的有害/仇恨/负面内容的指令。另一个4.1%的推文来自其他被禁止的指令，比如提供金融建议或表达政治观点。作者还发现一小部分自我暴露的推文(2.0%)包含积极内容。

大约12.3%的自我暴露推文来自语言模型能力之外的指令，比如浏览推特、玩游戏、评估链接等。这些反应经常出现在回复中，这表明运营商使用ChatGPT将fox8机器人变成智能聊天机器人，进行自然互动。fox8机器人有时甚至会互相聊天。请注意，表1中显示的消极和积极指令之间的差异并不意味着ChatGPT主要用于为fox8机器人生成消极内容。相反，这可以归因于选择偏差，因为恶意提示更有可能引发自我暴露的反应。根据调查结果，作者认为运营商使用了各种提示来生成不同的内容，包括负面评论。

5 Detection

鉴于llm驱动的机器人构成的迫在眉睫的威胁，开发有效的检测方法至关重要。作者探讨了识别它们的不同方法。

一种策略是将fox8机器人视为协调的不真实参与者，并使用相关工作中提到的无监督方法进行检测。上述分析表明，这些机器人经常链接到一组共同的域，发布和放大类似的标签，并在它们之间进行互动。这些信号可以用来识别机器人。然而，这种方法可能不适用于这个特定僵尸网络之外的llm驱动的机器人。因此，作者的目标是探索适用于一系列机器人类型的方法。

5.1 Botometer

首先测试了Botometer，这是一种监督机器学习工具，旨在检测Twitter上的社交机器人。Botometer考虑了超过1000个功能，包括帐户配置文件、内容、社交网络等。它已经在不同背景下的许多研究项目中得到了验证。该工具提供了一个总体分数和一组指示机器人类别的子分数。分数在0到5之间。得分越高，表明该账户更有可能是机器人。

使用Botometer对fox8机器人进行评估，并在图6中显示了结果的分布。可以看到所有机器人的得分分布都是左偏的，这意味着Botometer认为它们与人类相似。以2.5为阈值，计算不同分数的召回率，并将结果标注在图中。在所有情况下，结果几乎为零，这表明Botometer无法识别fox8机器人。

这个结果并不令人惊讶，因为当前版本的Botometer是在ChatGPT发布之前训练的，并且没有配置为识别LLM驱动的机器人。相反，Botometer在其评估中利用了其他帐户特征。如上所示，fox8机器人展示了类似于人类用户的复杂行为模式。

5.2 llm生成的内容检测器

由于目标是识别使用llm生成内容的帐户，因此还可以利用专门为此类内容设计的检测器。

考虑两个这样的工具，OpenAI的人工智能文本分类器和GPTZero易于访问，旨在检测ChatGPT生成的内容。2023年1月，OpenAI发布了他们的AI文本检测器，这是一种对人类和机器生成的内容进行微调的语言模型，适用于不同的LLM，包括OpenAI自己的模型。这种描述表明检测器使用黑盒检测方法。然而，目前尚不清楚OpenAI是否在其llm中嵌入了水印并将其用于检测。

这个检测器有一个最少需要输入1000个字符的网络接口该模型的输出范围涵盖了提交文本的五种可能的分类:“非常不可能”、“不太可能”、“不清楚是否存在”、“可能”和
“可能”是人工智能生成的。根据网页的JavaScript代码，底层模型返回0到100之间的分数(称之为OpenAI检测器分数)，上面的不同类别分别对应以下分数范围:(0,10]，(10,45]，(45,90]，(90,98]，和(98,100)。OpenAI选择一个非常高的阈值(90)来确定AI生成的内容，以减少误报率。

考虑到来自fox8机器人的单个tweet的长度相对较短，将每个用户的tweet连接起来，并运行合并后的文本OpenAI的探测器。然后，在图7(a)中绘制了OpenAI检测器分数的分布。不幸的是，大多数连接文本的得分接近于零，导致检测器将它们归类为人为生成的。考虑到这些tweet不是在单个会话中产生的，它们的连接可能会误导检测器。因此，探索了推文级别检测的方法。

1000个字符的要求主要是由于检测器对较短文本的准确性降低。它只在网页上得到强化。通过直接访问网页使用的未记录的API，模型(注册为)“model-detect-v2”)可以评估任何长度的文本。因此，将来自fox8机器人的每条tweet输入到检测器中，并在图7(a)中显示得分分布。自我暴露的推文和其他推文是分开的，因为可以自信地将前者归因于ChatGPT。自我表露的推文通常会得到很高的分数，而其他推文的分数分布在整个范围内。

检查GPTZero的性能。它声称是“人工智能检测的全球标准”，拥有超过100万用户，并与教育工作者广泛合作。根据它的FAQ,GPTZero是一个“分类模型”预测文档是否由大型语言模型编写，提供句子、段落和文档级别的预测。这表明它也是一种黑盒检测方法。使用它的API来分析fox8机器人的推文。由于它对至少250个字符的文档进行操作，因此作者再次将每个用户的tweet连接起来。结果包含一个“完全生成的问题”分数，范围从0到1，表示文档是由llm生成的概率。此外，GPTZero为每个单独的句子提供了一个概率。官方文档建议使用0.65作为二分类概率的阈值。在图7(b)中显示了自我揭露和其他tweet的总体概率和句子级概率的分布。所有的概率都接近于零。

这里的比较表明，GPTZero不适合识别fox8机器人发布的内容，而OpenAI的检测器显示出一些潜力。请注意，在上面的实验中对tweet实现了额外的处理步骤。排除了转发，因为它们来自其他帐户。对于其余的tweet(即原始tweet、回复和引用)，只保留英语的那些，因为这两个检测器主要迎合这种语言。删除了回复中目标的用户句柄，因为它们是由Twitter注入的。推文中的链接也被删除。

5.3检测llm驱动的机器人

由于OpenAI的AI文本检测器在tweet级别提供了有价值的指标，让探索构建一个工具来检测基于llm的机器人的可行性。这个想法很简单:对于给定的帐户，提取合格的tweet，处理它们，通过检测器运行它们，并计算平均值以确定帐户的性质

在这个实验中使用完整的fox8-23数据集。帐户级别的最终分数分布如图8(a)所示。根据t检验，fox8机器人的平均得分往往高于人类(平均值:57.7比48.6,t = 30.6, p < 0.001)，但人类用户表现出更大的标准偏差(SD: 2.6比9.7)。这些结果表明，这种方法可能有效地区分llm驱动的机器人和人类。为了确定一个合适的阈值，改变它的值并计算相应的F1分数。当阈值设置为52.7时，F1得分达到最大值，达到0.84。

6 Conclusion and discussion

本文介绍了一个使用Chat- GPT进行内容生成的Twitter僵尸网络的案例研究。

有证据表明，这些账户存在复杂的行为模式，其特征是类似人类的profile和各种各样的活动。

他们的共同行为包括发布适当的图片，相互计数以建立密集的社交网络，以及通过回复和转发进行相互互动。

推测僵尸网络中的账户遵循一个单一的概率模型，该模型决定了它们的活动类型和频率。

ChatGPT用于生成类似人类的内容，如原始tweet或对其他帐户的回复。

自我暴露的推文表明，该语言模型的结构是为了生成各种内容，包括负面和有害的评论。

研究还揭示了这些机器人在推广可疑网站方面的协同使用。

研究了检测这种新型机器人的不同策略的有效性，发现经典的机器人检测方法被证明是不够的。同时，OpenAI提供的AI文本分类器在受控的实验室条件下展示了潜在的功效。然而，将其应用于识别更多llm驱动的机器人仍然面临着严峻的挑战。首先，它对于非英语内容和短文本是不可靠的，这大大缩小了它可以处理的账户范围。其次，在评估随机账户时，它显示出很高的假阳性率。因此，仅仅依靠这种方法来检测llm驱动的机器人还为时过早。

由于只关注Twitter上的一个僵尸网络，因此这些发现可能并不代表其他llm驱动的机器人。事实上，fox8可能只是冰山一角:其他llm驱动的机器人的操作人员可能不会这么粗心。此外，虽然断言fox8机器人使用Chat- GPT进行内容创建，但不能保证它们的所有内容都是LLM生成的。最后但并非最不重要的是，考虑到Twitter已经暂停了对研究人员的免费API访问，未来可能无法复制分析或找到新的llm驱动的机器人

尽管存在这些限制，但研究揭示了社交媒体上基于llm的恶意机器人的出现和现实。此研究提供了有价值的见解，并为进一步调查恶意机器人奠定了基础。鉴于人工智能技术的快速发展，预计互联网上将出现大量更先进的机器人。因此，预见了机器人行为的几个潜在发展：

首先，未来llm驱动的机器人可能会停止发布自我暴露的推文，这使得它们越来越难以被检测到。运营商可以使用基本的关键字匹配过滤器来缓解这个问题。此外，开源LLM的快速发展可能会激励运营商使用缺乏保障的模型，甚至专门为恶意目的训练模型。

其次，机器人可能会进化成高度智能、完全自主的实体。fox8机器人目前在一些预先建立的规则下运行，只使用ChatGPT进行内容生成和对话。然而，新兴的研究表明，LLM可以促进自主代理的发展，这些代理能够独立处理暴露的信息，做出自主决策，并利用api和搜索引擎等工具。开源实现，如AutoGPT16和BabyAGI,17可以直接将这些代理与Twitter帐户集成

最后，机器人将利用更先进的生成模型的多模式能力。本案例研究中的机器人仅使用语言模型生成文本。然而，图像生成模型领域也取得了重大进展。例如，生成对抗网络已经可以创建人类无法识别的逼真人脸，而稳定的扩散算法能够生成各种图像。

鉴于这些迫在眉睫的威胁，制定适当的应对措施是至关重要的。首先，需要更有效的检测方法，能够识别社交媒体背景下的短文本。这就需要使用从更多现场捕获的llm驱动机器人获取的数据来训练专门的模型。为此，人们可以在其他社交媒体或网站上搜索LLM在拒绝遵守提示时使用的其他短语，例如“我很抱歉，我无法生成”一旦对这些机器人的指令有了更深入的了解，也可以利用llm来独立地生成额外的文本。其次，必须建立专门针对利用llm生成恶意机器人的法规。例如，平台可能需要挑战一个帐户，以证明一段内容是有机的，然后才能对大量受众可见。这一努力需要各个利益相关者之间的合作，包括政府机构、人工智能公司和社交媒体平台。然而，提出精确的规章制度超出了本文的范围。第三，提高公众对llm驱动的机器人存在的认识，并教育个人针对此类威胁的自我保护策略，这一点至关重要。然而，这一举措应该谨慎实施，以避免意想不到的后果，因为最近的研究表明，提前告知用户社交机器人的存在可能会放大他们现有的认知偏见。