人工智能的第一性原理-编程知识

今天跟大家分享一篇

北师大 - 图像处理研究中心主任

郭平教授的一篇文章

通过“四个问题”，

解释了人工智能的第一性原理

提出了如何运用第一性原理思维

来解决人工智能缺乏基本常识的问题

并且他建议将最小作用量原理

作为人工智能的第一性原理

在这里插入图片描述

什么是第一性原理

说到第一性原理

大家估计会想到“钢铁侠”埃隆·马斯克（Elon Musk）

在一次TED采访中

他告诉大家他成功的秘密

就是运用了第一性原理思维

简单来说

就是用物理学的角度看待世界

一层层拨开事物表象

看到里面的本质

再从本质一层层往上走

今天我们就来看看AI领域的第一性原理应该是什么

以下是我整理的文章核心内容

希望对大家有帮助

首先第一个问题是

人工智能领域存在第一性原理吗？

古希腊哲学家亚里士多德

将第一性原理表述为

在每一个系统的探索中，存在第一性原理

这是一个最基本的命题或假设，不能被省略或删除，也不能被违反

在20世纪以前

第一性原理主要用于哲学、数学和理论物理

在数学中

第一性原理是一个或几个公理

而且不能从系统内的任何其他公理中推导出来

在理论物理中

第一性原理是指一个计算直接从物理定律建立

不经过经验模型和拟合参数等假设

生物学的第一性原理是达尔文提出的“物竞天择、适者生存”理论

在近代社会

第一性原理已经扩展到许多学科

包括生命科学、化学、经济、社会科学等

不过随着人类认知的发展

有些学科已不再使用“第一性原理”这个术语

而采用同义词来表述

比如在哲学中采用了“先验原理”（priori-principle）

数学中统一使用了规范术语“公理”（axioms）

而物理学则沿用了“第一性原理”。

1 - AI是否存在第一性原理

AI领域是否存在第一性原理

这是个有争议的话题

有人认为不存在

理由是第一性原理是在哲学、数学或物理规则定义的域内

定义了问题空间的边界

而AI领域的第一性原理需要在明确定义了什么是“智能”之后

才有意义

由于目前对“智能”还没有明确定义

因此对AI还没有一个精确的、人们普遍可以接受的定义

在学界有两个定义可供参考

一个是斯坦福大学、人工智能研究中心、尼尔斯·约翰·尼尔逊（Nils J

Nilsson）教授提出的

AI是关于知识的学科

怎样表示知识、怎样获得知识并使用知识的科学

二是麻省理工学院的帕特里克·温斯顿（Patrick Winston）教授提出的

AI就是研究如何使计算机

去做过去只有人类能做的智能工作

在尼尔逊教授撰写的《人工智能原理》（Principles of Artificial Intelligence）一书中

他认为AI目前没有通用理论

也就是说，目前AI不存在第一性原理

而只是衍生了一些与工程目标相关的原理

智能是许多过程并行发生和相互作用的结果

而这些过程无法轻易地追溯到一个基本的物理原理

从他的角度来看

应该是把AI看作是一种技术，或者说

是把AI看作一种类似于建立在实验基础上的学科

当然，这本书已经出版了40余年

随着我们思维认知水平的提高

现在应该重新考虑AI是否存在第一性原理这个问题了

物理学家张首晟在一次演讲时

提到了第一性原理的思维方式

在20世纪以前

第一性原理的概念属于人脑的归纳、演绎产生的逻辑自洽学科

包括数学、哲学和理论物理

其理论体系的基石都可称之为第一性原理

它们可以明显区别于化学、生物等建立在实验基础上的学科

中国工程院院士李国杰认为

AI与计算机科学在本质上是一门学科

AI系统就是用计算机技术对信息加工和处理的系统

既然是一个系统，那么依据定义

每一个系统中都应该存在第一性原理

我们知道

AI的基础研究是建立在数学和物理基础之上的

北京交通大学教授于剑曾经出版过一本书《机器学习：从公理到算法》，

实际上是把数学的第一性原理应用到了机器学习上

而从物理方面来看

物理的第一性原理也被称为“从头计算”（ab initio）

即只使用最基本的物理学定律

不使用经验参数

仅用电子质量、光速、质子、中子质量等少数实验数据去做量子计算

既然我们研究基于物理的AI

那么AI的第一性原理也可以借用物理的第一性原理

将“从头计算”应用到AI

可以将它视为AI的第一性原理

但是**“从头计算”是狭义的第一性原理**

对应的广义第一性原理应该是“最小作用量原理”（the least action principle）

2 - 基于物理的AI

第二个问题是

为什么是基于物理的人工智能？

数学、物理不但是其他学科的基础

更是AI的基础

为什么要基于物理学来研究AI基础理论呢？

这是因为物理学是研究物质运动最一般规律和物质基本结构的学科

是自然科学的带头学科

其他各自然科学学科的研究基础

都建立在物理学科之上

而且哲学与物理的关系也非常紧密

著名物理学家斯蒂芬·霍金（Stephen Hawking）在他的论著《大设计》（The Grand Design）第一页上

就语出惊人地宣称“哲学已死”，

认为哲学跟不上科学

特别是物理学现代发展的步伐

杨立昆在2018年国际人工智能联合会议上也指出

由于目前AI存在的缺点

未来AI的研究需要一种新型的理论

从而构建一个可以实现的世界模型

而基于物理的AI

可能是最有希望实现这个理论的方式

3 - 如何让AI具有常识

对于AI缺乏常识的问题

基于物理的AI框架也可能会提供一种解决思路

要想将常识赋予AI

首先需要搞清楚什么是常识

通俗地讲

常识就是大部分人都知道的普通知识

而普通知识就是一个生活在社会中的、心智健全的人所应该具备的基本知识

包括生存技能、基本劳作技能、基础的自然科学以及人文社会科学知识等

关于常识的另一种较为专业的释义

是一般指从事各项工作以及进行学术研究所需具备的相关领域内的基础知识

这些知识来源于对自然规律、自然现象或者人类社会活动的归纳总结

那么这就引出了第三个问题

如何让人工智能具有常识？

杨立昆曾经解释过AI为什么没有常识

因为如果AI要掌握常识

就需要搞清楚物理世界的运作方式并做出合理决定

所以它们必须能够获取大量的背景知识、了解世界的运行规律

进而做出准确的预测和计划

不难看出

本质上这是归纳性的思维方式

而我们的常识

大多数是运用归纳法获得的

为什么让AI具有常识这么难？

数十年来进展甚微，可能的原因之一

就是没有按照第一性原理去思考

一提到AI没有常识

大多数学者都会潜意识地认为

AI的常识包括了所有领域的基础知识

其实，常识是与领域相关的

有生活常识、基本劳作技能

还有基础的自然科学常识等等

如果上来就想赋予AI具有所有的、没有分类的常识

不考虑常识的领域相关性

这显然是按照AGI来要求的

但是主流AI学界的努力方向

从来就不是朝着AGI方向的

现有技术的发展也不会让AGI自动成为可能

目前可以实现的都是在考虑某种特定类型的智能行为

也就是所谓的“弱人工智能”。

实际上，我们完全有理由认为

采用类比思维

即使能精确地观察和仿制出神经细胞的行为

也无法还原产生出智能行为

因此，依据第一性原理思维

在复杂的现象中找到最根本的原理

才能解决根本的问题

按照第一性原理思维，需要从头计算

即先训练AI

学习基础的自然科学常识

这也就是新加坡国立大学教授颜水成所提出的婴儿学习（baby learning）方法

即模拟婴儿自主学习

逐步获取知识的方法

为了让AI拥有常识

我们需要化繁为简

把常识限定到特定的领域

例如将掌握物理科学常识

作为现阶段的首要目标

用第一性原理的思维方式

把基于物理的科学常识灌输给AI

因此，我们需要转变一下思维方式

从纯数据处理逻辑迈向某种形式的“常识”，

即从基本物理原理出发

让AI先掌握科学常识，从而学习推理

为什么先让AI学习基础的自然科学常识

而不是生活常识或其他领域的常识呢？

因为基础的自然科学常识背后的物理原理

是有明确定义的

而且可以用数学公式描述的

第一性原理是通过少数的几个公理演绎出事物目前的状态

而物理的定律往往是用偏微分方程来描述的

牛顿的《自然哲学的数学原理》一书

为经典力学定义了一套基本概念

提出了力学的三大定律和万有引力定律

从而使经典力学成为一个完整的理论体系

从物理定律出发

用牛顿力学的公式演绎出各种运动现象

至少能使AI具有用经典力学可以解释的自然现象的科学常识

实际上这方面已经有了先例

AAAI 2017的最佳论文《基于物理和领域知识的神经网络无标签监督》，

就是基于万有引力定律推算出枕头的运动轨迹

利用网络的输出必须满足物理定律的约束来训练神经网络

从而实现了神经网络的无标签监督学习

这里面的常识就是

一个物体如果没有其他外力作用

例如桌面的支撑力

那么就应该在万有引力作用下做自由落体运动

基于第一性原理思维需要花费更多的精力

而基于第一性原理构建世界模型要比模仿计算

可能需要更大的计算量

一方面

目前我们还没有足够的算力让机器去学习庞大的背景知识

但是只学习基础的自然科学背景知识还是有可能的

另一方面是运用物理思维做合理的近似

简化问题复杂度

把不可计算的问题约减为可计算的问题

数学家总是想精确求解问题

而物理学家会在无法精确求解的情况下采用近似方法

追求和谐、统一与完美是物理学家的最高境界

这也是AI科学家以及所有科学家追求的境界

AI的第一性原理也应该是对完美追求的典范

物理学中的最小作用量原理就是一个非常简单而优雅的原理

可以看作是整个物理学的第一性原理

这个原理是现代物理学和数学的核心

在热力学、流体力学、相对论、量子力学、粒子物理学和弦理论都有广泛的应用

从具有可操作性的角度考虑

我们认为应该将最小作用量原理作为AI的第一性原理

作为AI领域的基石

4 - 为什么用第一性原理和如何用第一性原理

最后一个问题

为什么要用第一性原理

以及如何应用第一性原理？

近几百年来

哥白尼、牛顿、爱因斯坦、达尔文等科学巨匠

他们共同的思维方式

都是简洁而优美的第一性原理

而第一性原理的本质是逻辑学中的演绎性思维

机器学习的一个局限是无法解释因果关系

因果关系也称为“因果律”，

哲学上有一种对第一性原理的说法

第一性原理是超越因果律的第一因

而且是唯一因

同时第一性原理一定是抽象的

由于第一性原理思维与因果律关系紧密

或许将帮助我们解决AI无法解释因果关系的问题

如果我们以第一性原理思维出发

来看GPT-3

那么首先

一个AI系统从宏观上看是由软件和硬件组成的系统

软件是AI系统的灵魂

硬件是物理实体

从硬件角度来看

GPT-3所用的计算机仍然是冯·诺伊曼体系结构

计算机的数制采用二进制

计算机按照人的指令编写好的程序顺序执行

现有的AI芯片

也只是把人们设计的算法硬件化

AI的核心算法并没有得到突破

硬件化后也并不是真正的智能芯片

从软件的角度来看

软件是计算机程序+文档及数据

程序包含了算法

在AI算法上

GPT-3采用了与GPT-2同样的Transformer架构

不同之处是它融合了一种稀疏自注意力机制

有效提高了训练速度

改善了循环神经网络（RNN）学习速度慢的缺点

因此

在冯·诺伊曼体系结构与目前深度学习算法下

依据“无限猴子定理”，

需要无限长时间才有可能完成一部《红楼梦》，

在有限时间内能让GPT-3产生一部类似《红楼梦》的著作的概率也是无限小

即使产生了一部人们可以读懂的著作

但是GPT-3也完全不可理解其内容是什么含义

所以在当前的架构下

GPT-3不会迈向AGI

不会出现“硅基文明的崛起”。

这就是基于第一性原理思维得出的结论

目前关于AI未来的辩论的核心是

我们究竟是使用当前的工具来构建AGI

还是需要进行新的基础发现？

AI从业者对于这个问题现在分成了两大阵营

一个阵营说

计算机必须先了解因果关系等事物

然后才能接近人类的智能

另一个阵营则说

AI的问题可以通过向它们投入更多的数据和提高计算机的处理能力来解决

OpenAI显然是属于后者

他们一直认为巨大的计算力配合强化学习

是通往AGI必经之路

但是大多数AI学者

包括约书亚·本吉奥（Yoshua Bengio）和杨立昆

基本上是属于前一阵营的

认为AGI是不可能创造出来的

从第一性原理出发

我们得到的结论也是不可能实现AGI

对此，我们应有非常清醒的认知

受物理规律的制约

深度学习框架的天花板很快就会来临

如果在基础理论方面没有突破

基于深度学习的框架

就不可能发展成为硅基文明的AGI

所谓的硅基文明是科学幻想

不是科学事实

GPT-3没有产生技术革命

只是在应用上取得了重大的突破

未来我们还需要从第一性原理出发

重新构建AI基础理论框架

才能够赋予AI常识

发展具有可解释性的AI

清华大学张钹院士说过

在探索通往AGI的道路上

现在呢走的并不远

在出发点的附近

如果我们能以第一性原理作为出发点

先让AI具有基于物理规律的科学常识

让人工智能不再是人工智障

可能才是通往AGI的正确道路

好了以上就是文章的核心内容

郭平教授将物理学中的最小作用量原理

作为人工智能的第一性原理

进而推导出现有的GPT模型是不会走向AGI的

显然呢它是更倾向于杨立昆的世界模型理论

我个人认为呢有一定道理

但是理论和实际有非常大的差异

我们到现在除了以Transformer架构为主的大语言模型

还没有看到其他能够让AI产生智能的可大规模应用的办法

更何况呢

Transformer本身也是对知识的一种压缩

大力出奇迹有时候可能反而是一种更直接有效的手段

毕竟如果说世界上只有一种算法那就是穷举了

那关于什么是AI的第一性原理

我觉得每个人可能都会有自己的一个理解

短时间内呢我觉得业界也不会有一个共识

郭教授呢是从物理学的角度

有的人呢可能也会从数学的角度

那大家觉得AI的第一性原理是什么呢