休闲 2025-02-06 08:53:24 49674

通过无限的后训练『补丁』，就能实现AGI吗？

o1 模型的通过推出将研究方向从预训练带向了推理层，尽管给大模型「打补丁」的无限方式取得了一定效果，但无限地通过扩展测试时间计算，训练现就能实现通用人工智能吗？补丁规模能扩展到什么程度？计算资源、时间成本问题如何解决？通过无限的知识和数据是否意味着大模型具有真实的泛化能力？

强化学习之父 Richard Sutton 这样形容当下的业内研究方向，「就像是无限在路灯下找钥匙的问题，我丢了钥匙会在路灯下找，训练现因为那里能看见，补丁尽管那可能不是通过钥匙所在的地方。」

分别来自阿尔伯塔大学、无限Google DeepMind的训练现两项研究工作跳出了「在路灯下找钥匙」的视野范围，指出了实现更强 AI 的补丁两个可能方向。

01. o1 还不能称为 AGI：推理计算之外，通过实现 AGI 还有哪些不一样的无限思路？

o1 离 AGI 还有多远？在推理阶段给大模型「打补丁」之外，实现 AGI 还有哪些思路？训练现

02. 阿尔伯塔的 stream-x 算法：解决「流式障碍」，为实现持续学习提供可能

流式深度 RL 方法有哪些优势？对 Richard Sutton 推崇的持续学习有何影响？

03. Google DeepMind 的「苏格拉底学习」：扩展实现 AI 自主、自我完善能力的重要途经

苏格拉底式的学习方法可能是实现自我完善 AI 的重要途径？存在哪些挑战？

01 o1 还不能称为 AGI：推理计算之外，实现 AGI 还有哪些不一样的思路？

1、近期，OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层。随后国内多家大厂、AI 创企也陆续发布了类 o1 推理模型，如 R1-Lite（DeepSeek）、k0-math（月之暗面）、QwQ（阿里）等。AI 业内的关注点逐渐转向推理层。

2、尽管 o1 等推理模型在复杂推理等方面的能力显著提升，但 o1 带来的范式转变仅是从记住答案到记住正确的推理逻辑，从而输出正确结论。「测试时训练」技术像是一块「补丁」，通过给大模型一个「临时记忆」，临时调整反应，让大模型能够回答问题。尽管大模型能够输出正确的答案，但并不意味着其能真正理解或具有推理能力。

3、除了通过语言大模型方向来加强深度学习来实现 AGI 的主流路线之外，AI 业内的大佬们提出了一些不同的思路，如 Yann Lecun 提出的世界模型路线，Richard Sutton 提出的持续学习等。

4、近期，有两项新的研究工作跳出了「如何更好地让语言模型在 Pre-training 阶段学习知识、在 Post-training/Inference 阶段提高表现」的视野范围，指出了实现更强 AI 的两个可能思路。

① 受到 Richard Sutton 的高度评价的阿尔伯塔大学的一项研究工作，提出了一个新的深度强化学习算法「stream-x」，解决了流式深度强化学习中的流式障碍问题，为持续学习和终身学习提供了支撑；

② Google DeepMind 近期的一项工作提出了一种创新性的 AI 递归自我完善的新方法，即「苏格拉底式学习」，突破了传统训练数据的局限，是实现自主且自我完善的人工智能的重要途径。

02 阿尔伯塔的 stream-x 算法：解决「流式障碍」，为实现持续学习提供可能

1、阿尔伯塔大学近期的一项新工作，得到了强化学习之父 Richard Sutton 的推荐。该工作提出了一个新的深度强化学习（Deep Reinforcement Learning，DRL）算法「stream-x」，解决了流式深度强化学习中的流式障碍问题。[1]

① 「stream-x」算法能够在没有经验回放（Experience Replay）、目标网络（Target Networks）或批量更新（Batch Updates）的情况下进行有效的学习。

② 研究者发现，「stream AC」算法能够在没有存储和重用样本的情况下，通过实时处理数据流，实现与 PPO 算法相近的学习效果和任务性能，甚至在某些复杂环境中超越了批量强化学习算法的性能。

2、相比于目前主流的批量学习，流式学习有很大的发展空间，适应于计算资源受限和需要实时决策的环境。特别是在 TinyML 领域，流式强化学习的优势更大......

关注👇🏻「机器之心PRO会员」，前往「收件箱」订阅，查看完整解读内容

相关文章