所有的成功都是站在巨人的肩膀上負重而來,沒有什麽捷徑。剛讀完DS第一版發布的技術論文,就對LLM作了很多工程改進,
花了很多精力探索、調試最優宏觀參數組合。而且花了很多精力prepare培訓數據(The filtering stage enhances the density of information). 拋棄了簡單以參數量度量模型複雜度,改用 IsoFLOP。拋棄了簡單的Cosine學習速度計劃,改用多級進階式學習速度計劃。等等等等。
成功絕非偶然,也不是一蹴而就。
這還隻是第一版,引起轟動的DS R1是其第四版。