乌镇智库理事长张晓东：大模型的四个基础原理

作者： Oliver 07-06 14:43

来源：爱集微 #大模型#

1.1w

7月6日，在世界人工智能大会期间同步举办的RISC-V和生成式AI论坛上，乌镇智库理事长张晓东在以《大语言模型的原理与发展应用》为主题的演讲中，谈到了大模型的4大基础原理。

本次论坛以“智”由“芯”生为主题，由上海开放处理器产业创新中心、芯原微电子（上海）股份有限公司主办，中国RISC-V产业联盟协办。

张晓东指出，三条牛顿定律和万有引力定律就够成了我们理解世界的基础，对于大语言模型基础，同样有这样的原理。以图灵计算机为例，张晓东首先表示大语言的第一个原理是：“目前已知的所有计算装置，都等同于图灵计算机”，即丘奇-图灵论题是计算机科学的基石。这也意味着，所有“智能”的基石都是图灵计算机。

目前，关于人工智能再次爆火，张晓东认为，主要来自于语言层面的突破，如果语言如果不完全等同于思维，也等同于90%的思维。

第二个原理，张晓东认为是，“学习就是图灵机求逆”。图灵机是计算的，学习就是图灵机的“逆”，如果给一堆输出，如果能够猜得出是什么样的图灵机，能够产生数据，这就叫“学习”。另外，学习就是Solomonoff归纳，所有的学习问题就是图灵机求逆，而图灵机求逆就是next token prediction。

在解释BERT和GPT的区别时，张晓东指出，BERT是双向任务，而GPT是next token prediction，是单向更省算力的一种模式。目前，所有大模型都是GPT路线，而自然语言处理的进步在过去七十年中发生了五次范式变迁，张晓东认为，开源对于自然语言处理的进步至关重要。

第三个原理，张晓东认为是深度学习的充分性依据：Kolmogorov-Arnold叠加。数学根据是 Kolmogorov 1956年证明的Kolmogorov–Arnold 表示定理，也称叠加定理或映射定理。希尔伯特第 13问题提及大模型会发展到什么时候，张晓东引用一位OpenAI前员工的说法：“2027-2028年会出现超级人工智能，这需要1000万张H100。”

最后，关于第四个原理，张晓东提到了能耗与智能。从0变成1是需要能量的，如果触及Landauer极限时，摩尔定律也将走到极限，预计2040年以后就会到极限。而张晓东预计，摩尔定律还能走到2100年以后，半导体行业还可以蓬勃发展100年左右。