小了 60,500 倍,但更强;AI 的“深度诅咒”

news/2025/4/3 1:29:19/文章来源:https://www.cnblogs.com/jellyai/p/18804758

作者:Ignacio de Gregorio

                                      图片来自 Unsplash 的 Bahnijit Barman

几周前,我们看到 Anthropic 尝试训练 Claude 去通关宝可梦。模型是有点进展,但离真正通关还差得远。

但现在,一个独立的小团队用一个只有一千万参数的模型通关了宝可梦,比主流前沿 AI 模型小了几千倍。

举个例子,它比最先进的 DeepSeek V3 模型小了 60,500 倍。

但这怎么可能呢?这么小的模型怎么能比所谓的“前沿模型”表现得还好?难道 AI 实验室的钱都打水漂了吗?

答案是:深度诅咒。这是一个很有意思的现象,任何想了解 AI 中最反直觉的问题之一,以及业界打造 AGI 最靠谱路径的人,都值得看看。

训练 AI 处理长线任务

这个小模型是通过强化学习算法(Reinforcement Learning,简称 RL)训练出来的。就像我以前说过很多次的,这个技术就是给 AI 一个目标和一些约束条件,让它学会一套能达成目标的行动策略。

但这次我想聚焦在三件事上:

为什么 RL 和过去两年我们用大语言模型(LLM)做的事不一样,

为什么它对于推动 AI 到新高度至关重要,

还有,为什么这么小的模型能打败大块头们?

我们来深入看看。

从模仿到探索

如果我们看看 AI 的最前沿,有两种主要的训练范式:模仿学习和探索学习。

模仿学习顾名思义就是让模型模仿它的训练数据。通过这种模仿,模型能识别出数据中的底层模式,然后学着去模仿它们。

在 LLM 的情况下,这个训练过程叫做“预训练”,模型会被暴露在互联网级别的大数据集上,它要学会如何模仿这些内容(当然我们也会加些小技巧,让模型在推理阶段生成相似的内容,而不是一模一样的句子;不然它就只是个数据库了)。

模仿学习在让 AI 行为像人方面非常优秀,而且在我们手上有大量可供模仿的数据时,是最佳选择。

但它也会促进记忆式的训练(说到底,就是让模型模仿数据嘛),这也解释了为什么 LLM 的表现主要依赖于它们的记忆能力,而不是真正的智能。

也就是说,模仿学习终究是有上限的。因为有很多应用场景,我们希望 AI 能处理的,恰恰卡在两个问题上:

我们没那么多数据给它模仿;

我们也不想让它去“模仿”,尤其是那种背诵式的,而是要它“真正推理”。

说到这,举个最好的例子就是:推理类任务。

AI 推理的科学

首先,推理类数据(就是人类会明确写出他们怎么推理的过程)非常少。再者,前面说过了,我们不希望 AI 是模仿,我们希望它“跳出框框”,或者更准确地说,在记忆不起作用的时候,探索出不同的解决方式。

基本上我在讲的就是为什么普通的非推理类 LLM 在推理任务上很拉胯——它们不是被训练来“推理”的,而是训练来“复读”的,所以它们只能“执行”它们记住的任务,本质上就是死记硬背而不是逻辑思考。

换句话说,有些任务是需要探索的,就像你也不是每道数学题都能一眼解出来。但是你有那个直觉——数学的“先验知识”——你能通过尝试去探索直到找到答案。

所以最近我们就把一个探索阶段,也就是 RL 阶段,加到了 LLM 上面,让它们去“探索”。

那这到底是怎么工作的?

理解推理训练

探索训练的基本思路就是让模型输出不同的答案,然后我们在训练时实时给予反馈,看哪个答案好,哪个不好。这样模型就能学会什么行为会带来好结果,什么不会。

你可以把这个训练想象成“热还是冷”游戏:我们告诉模型“热”或者“冷”,这样它就能一步步靠近目标(当然实际比这复杂多了,但基本逻辑就是这样)。在实际操作中,这就变成了大规模的试错游戏。

第一个真正用上探索训练的 LLM 是 DeepSeek R1(可能 o3 更早,但他们后来才承认)。

可以想象,这个方法极大地提高了 AI 在推理任务上的表现,于是我们才有了所谓的“推理模型”,像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。

在 LLM 的世界里,这种探索训练让模型发展出了推理技巧,比如反思(模型能反省自己的“想法”)、回溯(模型承认错误并自行纠正)等等。

通俗点说,就是靠“蛮力”试错,模型学会了怎么最有效地解决问题。这也是为什么 DeepSeek 的结果被认为是重大突破。

在 DeepSeek/OpenAI 出现之前,我们所谓的 RL 其实只是“人类反馈的强化学习”(RLHF),就是模型在两个选项中学会挑出更合适的那个,以此符合工程师希望的行为。但这当中没有探索,所以其实说是 RL 有点名不副实。

注意:大多数实验室现在仍然会用 RLHF,但只是作为进入“真正 RL”前的一个阶段。

总结一下,现在这些前沿推理模型的训练流程分两个步骤:

通过模仿学习把知识“塞进”模型,造出一个非推理模型(也就是传统的 LLM);

然后基于这个“认知基础”(或者说是直觉引擎,毕竟这个模型对问题处理还是有点直觉的),我们跑一轮探索训练,让它靠这些直觉去探索、去学会推理,最终造出一个推理模型。

如果这样理解更容易,那你可以把“推理”看作:直觉(内置知识和经验)+ 搜索。

换句话说,推理 = 直觉驱动的探索。

说清楚 RL 在现在 AI 世界的重要性之后,我们还没回答这个问题:

一个小得不能再小的纯 RL 模型,怎么能打败用 RL 训练过的、像 Claude 3.7 Sonnet 这样的推理 LLM?

广度 vs 深度

几十年来,AI 一直在“广”与“深”之间拉扯。

LLM 是“广”的代表。它们是超大规模的模型,被喂进各种你能找到的数据,目标是实现泛化,也就是在没见过的数据任务上也能表现不错。

相对的,像 AlphaGo/AlphaZero 或这次的宝可梦模型,就是“深”的代表。它们只用 RL 训练,而且只聚焦在一个任务上。

在“基础模型”出现之前(它们之所以被叫这个名字就是这个原因),AI 一直是“深”的游戏:每个模型只专注一个任务。

而如今,大部分资金都砸在“广”的模型上。为什么?这样做有什么代价?

你大概已经猜到了,答案就是:AGI(通用人工智能)之梦。

主流观点是,超级智能的 AI 应该是通用的。不需要它对每个任务都训练得很深入(这也不现实),但它应该有一套足够好的“先验知识”,能在没训练的任务上也有 decent 的表现。

有趣的是,虽然这个观点没错(也确实有证据,比如 AlphaZero 在多个棋类游戏上都超过了专精模型),但超级 AI 的表现却反着来。

人类历史上所有达到“超人水平”的 AI(就是远远超越人类的)全是单任务模型,比如 AlphaGo(围棋)。

而到目前为止,没有一个“广”的模型,在任何一个任务上做到超人。

这就解释了为什么我们今天讨论的这个宝可梦模型,虽然比 SOTA 小了四个数量级,却轻松打爆它们:

这个模型放弃了“广”,换来了在一个任务上的极致表现。

换句话说,它小巧、灵活,只专注一个任务,所以才能练出这个任务的终极能力,甚至反过来打败“全能型”的选手。它靠的是“开挂式”的探索学习。

这又意味着什么?

不像 LLM,因为太贵,无法让它们跑非常长时间的探索来找最优策略;小模型恰好相反:它可能在多个任务上都拉,但在那个唯一训练过的任务上,它能打出神级表现。

总结一句话,这个小团队之所以能训练出一个能打爆主流模型的宝可梦 AI,就是因为虽然我们知道 RL 很强,但我们还没学会怎么在“基础模型”上正确地跑 RL。

这能不能做到、能不能把 RL 训练应用到大模型上,就是现在所有顶级 AI 实验室都在努力搞清楚的问题。

所以,RL 是答案吗?

这项研究看起来可能有点泄气:

我们 AI 的路是不是走错了?

是不是在大模型上烧钱没意义?

AGI 是不是应该由一堆小的、单任务的模型组成?

我能理解你有这些想法,但我其实恰恰相反地看:

这又一次证明了 RL 是有效的,我们只需要找到方法,把它扩展到更大规模上。

如果我们能在 LLM 的基础上跑出纯 RL,那我们可能就找到了通往新时代 AI 的路:不再是“模仿”智能,而是真正拥有某种程度的“智能”。

这会不会把 AI 推向真正的智能?我们希望如此,但也不能确定。不过这是我们唯一已知的靠谱赌注,那就只能希望它能成功了。

但我们现在搞清楚怎么让这一步发生了吗?没有,那些被吹成“博士水平”的 LLM 连井字棋都玩不好。

总的来说,本文最重要的 takeaway 是:RL,或者说探索学习,依然是唯一一个在某些情况下能做到“超人表现”的方法。

虽然手段不同、技术各异,但从基本原理上看,所有 AI 实验室走的其实是一条路:直觉驱动的搜索。

你只需要知道这一点,就能明白现在前沿 AI 的真相。他们全都在玩同一个游戏。

剩下的,就只是工程和资本分配而已。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/909645.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度推出端到端语音大模型,支持方言、可打断、电话语音成本砍半;雷神 AI 眼镜发布:语音助理+摄像头,1799 元起丨日报

开发者朋友们大家好:这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑…

技术书《AI芯片开发核心技术详解》(1)、《智能汽车传感器:原理设计应用》(2)、《TVM编译器原理与实践》(3)、《LLVM编译器原理与实践》(4),谢谢

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该…

从准备到成交的全方位销售策略

在销售领域,成功的关键在于一系列精心策划与高效执行的步骤。以下这份销售实战指南,全面涵盖从前期准备到最终成交的全流程,旨在助力销售人员提升业绩,构建稳固的客户关系。一、充分筹备1. 夯实产品知识深入掌握产品卖点、功能、价格,并做好竞品分析。确保在与客户沟通时,…

[T.2] 团队项目:选题和需求分析

Study The Spire :卡牌肉鸽关于这款游戏​ Study The Spire 是一款富有创意的 Rougelike 卡牌游戏,将随机与卡牌构筑要素融入游戏,选择不同卡牌来构筑独特卡组来战胜敌人,精心规划你的路线,获得丰富的游戏体验,在游戏过程中你也会逐渐提升自己的专业领域知识,休闲的同时…

高性能计算-GPU并行扫描

1. 扫描概念对数组arr[N]扫描就是得到数组prefix[N],每个元素是之前arr元素的求和. 开扫描定义:prefix1[N] = { arr[0], arr[0]+arr[1], ..., arr[0]+arr[1]+arr[N-1] } 闭扫描定义: prefix2[N] = { 0, arr[0], arr[0]+arr[1], ..., arr[0]+arr[1]+arr[N-12}2. Hillis steele …

硬盘损坏盘片划伤还能恢复数据资料吗?专业数据恢复公司怎么修复

这是一块台式机电脑里的希捷4T机械硬盘,型号是ST4000DM004,是北京某单位客户寄过来的,描述说是突然损坏不识别,出现了吱吱的异响声,先在北京当地找了一家数据恢复公司做了开盘维修处理,说是盘片有损伤,难度很大,在客户前后多次支付备件服务费后,也仅仅做出了100G左右的…

B+树是如何进行查询的?

千里之行,始于足下。 —— 老子因为一个数据页中的记录是有限的,且主键值是有序的,所以通过对所有记录进行分组,然后将组号(槽号)存储到页目录,使其起到索引作用,通过二分查找的方法快速检索到记录在哪个分组,来降低检索的时间复杂度。 但是,当我们需要存储大量的记录…

使用RAGFlow和Docker部署本地知识库

随着DeepSeek的火热,大模型对与广大开发者越来越触手可及。本文介绍了使用 DeepSeek R1 模型来构建本地知识库。Ollama 管理本地模型首先要了解大模型的管理工具 Ollama:安装 OllamaOllama 官网   点击下载安装 Ollama 客户端;安装成功后打开,在终端中输入以下命令来检查是…

CherryStudio使用

一、概述 CherryStudio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。 CherryStudio 高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者,都能在 CherryStudio 中找到…

app测试——adb基本命令

ADB常用的指令:查看当前连接设备 : adb devices进入到shell : adb shell查看日志 : adb logcat ctrl+c退出安装apk文件 : adb install xxx.apk 安装安卓版本后缀apkk包测试包路径:E:\dcs\two\app\baiduyuedu_5520.apk卸载APP : adb uninstall +包名案例:adb uninstall…

移动端动态化建设的演进与实践:从技术革新到生态繁荣

移动端动态化建设已从技术优化演变为企业战略的核心组成部分。尤其在业务迭代加速、生态竞争加剧的背景下,小程序容器技术以其高效、灵活、合规的特性,成为动态化演进的重要方向。未来,随着5G、AI等技术的普及,动态化将进一步推动应用开发范式的变革,为智能终端生态的繁荣…

快节奏业务增长,还是得App混合开发

在用户需求瞬息万变、全球化竞争加剧的背景下,混合开发已从“成本妥协方案”进化为“战略效率工具”。通过跨端框架与小程序的生态协同,企业不仅能实现业务的快速迭代与全球扩张,更能在技术降本与用户体验间找到最佳平衡点。正如某金融科技公司CEO所言:“混合开发不是选择题…