R1擅長的推理模型,領先O1但非碾壓。最出色的還是用RL代替人工做微調,再度證明:AI勝過人力。

來源: 2025-01-27 15:03:26 [博客] [舊帖] [給我悄悄話] 本文已被閱讀: