成本僅50美元，性能媲美Deepseek-R1，李飛飛帶著S1來炸場了

來源: Zhivago 於 2025-02-06 09:38:07 [舊帖] [給我悄悄話] 本文已被閱讀：次

S1的研究團隊表示，s1模型是以穀歌推理模型Gemini2.0 Flash Thinking Experimental為基礎模型，通過蒸餾法提煉出來的。

他們采用了一種名為test-time scaling的方法。研究團隊構建了一個小型數據集s1K，通過難度、多樣性和質量三個標準來篩選，其中包括1000個經過精心挑選的問題以及相應答案，並附上了“推理”過程，僅使用了16台英偉達H100 GPU，耗時26分鍾就完成了訓練。

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.