他們隻是再次核實了 deepseek 推崇的方向:在一個比較好的 base model 基礎上,鼓勵它自己跟自己說話,用給予獎賞的 Reinforced Learning 可以得到意想不到的好效果。
也就是說,AI 已經慢慢從 generative AI, 跨入了 reasoning AI。