S1的研究團隊表示,s1模型是以穀歌推理模型Gemini2.0 Flash Thinking Experimental為基礎模型,通過蒸餾法提煉出來的。
他們采用了一種名為test-time scaling的方法。研究團隊構建了一個小型數據集s1K,通過難度、多樣性和質量三個標準來篩選,其中包括1000個經過精心挑選的問題以及相應答案,並附上了“推理”過程,僅使用了16台英偉達H100 GPU,耗時26分鍾就完成了訓練。
https://wallstreetcn.com/articles/3740484