通过无限的后训练『补丁』,就能实现AGI吗?

o1 模型的通过推出将研究方向从预训练带向了推理层,尽管给大模型「打补丁」的无限方式取得了一定效果,但无限地通过扩展测试时间计算,训练现就能实现通用人工智能吗?补丁规模能扩展到什么程度?计算资源、时间成本问题如何解决?通过无限的知识和数据是否意味着大模型具有真实的泛化能力?

强化学习之父 Richard Sutton 这样形容当下的业内研究方向,「就像是无限在路灯下找钥匙的问题,我丢了钥匙会在路灯下找,训练现因为那里能看见,补丁尽管那可能不是通过钥匙所在的地方。」

分别来自阿尔伯塔大学、无限Google DeepMind的训练现两项研究工作跳出了「在路灯下找钥匙」的视野范围,指出了实现更强 AI 的补丁两个可能方向。

目录

01. o1 还不能称为 AGI:推理计算之外,通过实现 AGI 还有哪些不一样的无限思路?

o1 离 AGI 还有多远?在推理阶段给大模型「打补丁」之外,实现 AGI 还有哪些思路?训练现

02. 阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能

流式深度 RL 方法有哪些优势?对 Richard Sutton 推崇的持续学习有何影响?

03. Google DeepMind 的「苏格拉底学习」:扩展实现 AI 自主、自我完善能力的重要途经

苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径?存在哪些挑战?

01 o1 还不能称为 AGI:推理计算之外,实现 AGI 还有哪些不一样的思路?

1、近期,OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型,如 R1-Lite(DeepSeek)、k0-math(月之暗面)、QwQ(阿里)等。AI 业内的关注点逐渐转向推理层。

2、 尽管 o1 等推理模型在复杂推理等方面的能力显著提升,但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑,从而输出正确结论。「测试时训练」技术像是一块「补丁」,通过给大模型一个「临时记忆」,临时调整反应,让大模型能够回答问题。尽管大模型能够输出正确的答案,但并不意味着其能真正理解或具有推理能力。

3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外,AI 业内的大佬们提出了一些不同的思路,如 Yann Lecun 提出的世界模型路线,Richard Sutton 提出的持续学习等。

4、近期,有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围,指出了实现更强 AI 的两个可能思路。

① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作,提出了一个新的深度强化学习算法「stream-x」,解决了流式深度强化学习中的流式障碍问题,为持续学习和终身学习提供了支撑;

② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法,即「苏格拉底式学习」,突破了传统训练数据的局限,是实现自主且自我完善的人工智能的重要途径。

02 阿尔伯塔的 stream-x 算法:解决「流式障碍」,为实现持续学习提供可能

1、阿尔伯塔大学近期的一项新工作,得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习(Deep Reinforcement Learning,DRL)算法「stream-x」,解决了流式深度强化学习中的流式障碍问题。[1]

① 「stream-x」算法能够在没有经验回放(Experience Replay)、目标网络(Target Networks)或批量更新(Batch Updates)的情况下进行有效的学习。

② 研究者发现,「stream AC」算法能够在没有存储和重用样本的情况下,通过实时处理数据流,实现与 PPO 算法相近的学习效果和任务性能,甚至在某些复杂环境中超越了批量强化学习算法的性能。

2、相比于目前主流的批量学习,流式学习有很大的发展空间,适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域,流式强化学习的优势更大......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

休闲
上一篇:海尔零距离自由嵌入系列冰箱到手价2835元 领券更优惠
下一篇:OPPO Find N5折叠屏手机:全球首款骁龙8 Gen2旗舰