訓練數據和工藝是低成本的關鍵

昨天李飛飛團隊用不到50刀的成本訓練出跟OpenA1-o1和DeepSeek一樣水平的模型,在網上迅速傳開。

前段時間興奮了很久用低成本隻花600萬做出DS,而李飛飛團隊的S1隻花了不到50刀,就做出同樣水平的東西。

很多人覺得不可能,咋不可能呢?

我一直在說DS的低成本沒啥可吹的:在別人的模型基礎上,用好的訓練數據,加上點工藝,當然能低成本了

現在李飛飛團隊用50刀成本訓練出來,好像倒是可以吹一下,哈哈

 

我大概看了一下李飛飛團隊s1論文,大概就是下麵這個樣子,對比一下DS,是不是很類似?

李飛飛團隊的S1 = 阿裏雲Qwen2.5模型為基礎 + 測試時間縮放訓練新方法(1000個精心策劃微小數據集)+ 在雲計算蒸餾出來(雲計算成本低於50刀)

DS = Meta 模型為基礎 + OpenAI數據集(被懷疑)+ 自己的方法 + 花600萬蒸餾出來

 

s1秘訣是什麽?用了一種名為 “預算強迫 ”的技術,再加上監督微調(SFT)技術,在一個經過精心策劃的、隻有 1000 個示例的微小數據集上實現。

1000個精心策劃微小數據集(訓練數據),和“預算強迫 ”的技術(工藝)是關鍵。

今天早上,下載了s1的代碼看了一下,訓練s1需要的模塊和庫,竟然還有openai, 哈哈

所有跟帖: 

抬下扛,50刀屬於吹牛了。。 -種西瓜- 給 種西瓜 發送悄悄話 (332 bytes) () 02/07/2025 postreply 08:49:52

訓練的運算成本,你以為DS的那個600萬算的啥成本?是運算成本吧, -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/07/2025 postreply 09:05:17

那就再扛一下。。。 -種西瓜- 給 種西瓜 發送悄悄話 (101 bytes) () 02/07/2025 postreply 09:45:25

抬杠要切中要點,還需自己做功課。知道DS號稱的6百萬是啥費用嗎?對比要同樣的事做對比啊。給你看一下吧,GPUhours -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (157 bytes) () 02/07/2025 postreply 11:00:10

你想簡單了。。咱的扛正是切中了要害。。。 -種西瓜- 給 種西瓜 發送悄悄話 (344 bytes) () 02/07/2025 postreply 11:55:06

那說明你不了解AI屆說成本是啥意思啊,比的就是訓練一個模型需要的運算成本,用多少GPU時間 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (212 bytes) () 02/07/2025 postreply 13:16:36

嗯.咱就欣賞杠精。杠精同學,咱說的就是隻比拚電腦gpu時間不公平 -種西瓜- 給 種西瓜 發送悄悄話 (259 bytes) () 02/07/2025 postreply 15:23:01

一個是SFT 一個是基礎模型 你50美元訓練個基礎模型試試 -林誠毅德-Lincoln- 給 林誠毅德-Lincoln 發送悄悄話 (827 bytes) () 02/08/2025 postreply 09:27:31

發貼的"未完的歌"根本不懂AI, 他習慣性網上搜些數據編個貼到處造謠 -常有理是對- 給 常有理是對 發送悄悄話 常有理是對 的博客首頁 (0 bytes) () 02/08/2025 postreply 11:29:31

你一個一竅不通的人,還起一個ID常有理是對的。前些日子你造謠被我抓住,懷恨在心了吧,到現在還不認錯,哈哈 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (81 bytes) () 02/10/2025 postreply 04:15:34

DS基礎模型的基礎是啥?知道這個大佬吧 -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (81 bytes) () 02/08/2025 postreply 19:34:19

DeepSeek技術創新主要是在它的基礎模型V3 -林誠毅德-Lincoln- 給 林誠毅德-Lincoln 發送悄悄話 (1850 bytes) () 02/09/2025 postreply 11:09:45

最新的Math500模型測試準確率對比 -林誠毅德-Lincoln- 給 林誠毅德-Lincoln 發送悄悄話 (750 bytes) () 02/14/2025 postreply 15:27:52

請您先登陸,再發跟帖!