成本僅50美元,性能媲美Deepseek-R1,李飛飛帶著S1來炸場了

來源: 2025-02-06 09:38:07 [舊帖] [給我悄悄話] 本文已被閱讀:

成本僅50美元,性能媲美Deepseek-R1,李飛飛帶著S1來炸場了 

S1的研究團隊表示,s1模型是以穀歌推理模型Gemini2.0 Flash Thinking Experimental為基礎模型,通過蒸餾法提煉出來的。

他們采用了一種名為test-time scaling的方法。研究團隊構建了一個小型數據集s1K,通過難度、多樣性和質量三個標準來篩選,其中包括1000個經過精心挑選的問題以及相應答案,並附上了“推理”過程,僅使用了16台英偉達H100 GPU,耗時26分鍾就完成了訓練。


 

https://wallstreetcn.com/articles/3740484