大年初四,大年Daya Guo在社交媒体上分享了他最兴奋的布新事情:亲眼见证了R1-Zero模型性能曲线的持续增长,并直言强化学习(RL)的模型力量非常强大。
Daya Guo回复网友有关DeepSeek R1的激动一些问题和公司计划。他透露,大年尽管R1只是布新他们研究的开始,但内部研究仍在快速推进,模型甚至春节期间都没有休息,激动研究人员一直在努力推动他们的大年研究成果。他还表示,布新在尝试将R1应用于形式化证明环境,模型并希望尽快向社区发布更好的激动模型。
根据Daya Guo的大年说法,他们在该领域已经有了进展,布新并期待未来会有更重磅的模型模型发布!