李飛飛花20元26分鍾造出新模型媲美DeepSeek

文章來源: 星島日報於 2025-02-11 16:17:46 - 新聞取自各大新聞媒體，新聞內容並不代表本網立場！

被閱讀次數

美籍華裔科學家李飛飛，僅用20美元和26分鍾，便創出新的AI模型，效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek，推出後震撼科技界後，有AI教母之稱的美籍華裔科學家李飛飛，率領其團隊僅花了20美元及26分鍾，便創造出一個「s1」的AI推理模型，表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

僅用16塊H100 GPU訓練

綜合外媒報道，李飛飛是史丹福大學首位紅杉講席教授，美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊，在一個月內便研發出s1模型，因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座，在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾，訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

表現媲美OpenAI o1及DeepSeek R1

報道指，李飛飛團隊在研究中提出了「預算控製」策略，透過加入「wait指令」等方式，強製延長模型推理過程、思考時間，以此促使模型自我檢查並修正錯誤的推理步驟，提升推理品質。

根據李飛飛等人的研究論文《s1：Simple test- time scaling》，該模型在數學和編碼能力測試中的表現，可媲美OpenAI的o1，以及DeepSeek的R1等尖端推理模型，在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道，複旦大學計算機學院副教授鄭驍慶受訪時表示：「像DeepSeek或類似的公司，在尋找有效的整合解決方案時，需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調，而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用，如DeepSeek-V3不到600萬美元的訓練成本，其實也隻包含了訓練時的GPU算力費用。

advertisement

北美最大中英文保健網“母親節特大酬賓”！美國專利[骨精華][心血通][益腦靈]健骨強心護腦，用過的都說好!

查看評論(26)

文學城新聞

切換到網頁版

李飛飛花20元26分鍾造出新模型媲美DeepSeek

星島日報 2025-02-11 16:17:46

美籍華裔科學家李飛飛，僅用20美元和26分鍾，便創出新的AI模型，效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek，推出後震撼科技界後，有AI教母之稱的美籍華裔科學家李飛飛，率領其團隊僅花了20美元及26分鍾，便創造出一個「s1」的AI推理模型，表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

僅用16塊H100 GPU訓練

綜合外媒報道，李飛飛是史丹福大學首位紅杉講席教授，美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊，在一個月內便研發出s1模型，因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座，在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾，訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

表現媲美OpenAI o1及DeepSeek R1

報道指，李飛飛團隊在研究中提出了「預算控製」策略，透過加入「wait指令」等方式，強製延長模型推理過程、思考時間，以此促使模型自我檢查並修正錯誤的推理步驟，提升推理品質。

根據李飛飛等人的研究論文《s1：Simple test- time scaling》，該模型在數學和編碼能力測試中的表現，可媲美OpenAI的o1，以及DeepSeek的R1等尖端推理模型，在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道，複旦大學計算機學院副教授鄭驍慶受訪時表示：「像DeepSeek或類似的公司，在尋找有效的整合解決方案時，需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調，而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用，如DeepSeek-V3不到600萬美元的訓練成本，其實也隻包含了訓練時的GPU算力費用。