R1擅長的推理模型,領先O1但非碾壓。最出色的還是用RL代替人工做微調,再度證明:AI勝過人力。

請您先登陸,再發跟帖!