所有的成功都是站在巨人的肩膀上負重而來，沒有什麽捷徑。剛讀完DS第一版發布的技術論文，就對LLM作了很多工程改進，

來源: 成功的飛過於 2025-01-28 09:06:06 [舊帖] [給我悄悄話] 本文已被閱讀：次

花了很多精力探索、調試最優宏觀參數組合。而且花了很多精力prepare培訓數據(The filtering stage enhances the density of information). 拋棄了簡單以參數量度量模型複雜度，改用 IsoFLOP。拋棄了簡單的Cosine學習速度計劃，改用多級進階式學習速度計劃。等等等等。

成功絕非偶然，也不是一蹴而就。

這還隻是第一版，引起轟動的DS R1是其第四版。

文學城簡介
廣告服務
聯係我們
招聘信息
注冊筆名
申請版主
收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.