簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 李飛飛花20元26分鍾造出新模型 媲美DeepSeek

李飛飛花20元26分鍾造出新模型 媲美DeepSeek

文章來源: 星島日報 於 2025-02-11 16:17:46 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


美籍華裔科學家李飛飛,僅用20美元和26分鍾,便創出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek,推出後震撼科技界後,有AI教母之稱的美籍華裔科學家李飛飛,率領其團隊僅花了20美元及26分鍾,便創造出一個「s1」的AI推理模型,表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  僅用16塊H100 GPU訓練

綜合外媒報道,李飛飛是史丹福大學首位紅杉講席教授,美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊,在一個月內便研發出s1模型,因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾,訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

  表現媲美OpenAI o1及DeepSeek R1

報道指,李飛飛團隊在研究中提出了「預算控製」策略,透過加入「wait指令」等方式,強製延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

根據李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數學和編碼能力測試中的表現,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道,複旦大學計算機學院副教授鄭驍慶受訪時表示:「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調,而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用,如DeepSeek-V3不到600萬美元的訓練成本,其實也隻包含了訓練時的GPU算力費用。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(28)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

默多克1590億爭產,鄧文迪成最大贏家
柯克槍擊案疑犯"不配合"調查,猶他州長多次批評社群媒體
2.5萬人丟飯碗!川普政府大刀砍聯邦雇員,法院裁定違法
“天價墓地”,變天了
矽穀這群人,放棄酒精與娛樂,唯一信仰是萬億市值




24小時討論排行

轉發柯克2年前發言後 大學教授因“不當言論”被解雇
解放軍殺氣騰騰:“定要把勝利的旗幟插在寶島上”
貝森特:如歐洲不先行動 美方不對中國加征俄油關稅
福克斯主持人公開喊“遊民應被處死” 遭出征道歉
猶他州長怒噴社交媒體:這些平台是毒瘤 算法太邪惡!
美航 達美 聯航宣布:對柯克案發不當言論員工全數停職
對美施壓?中國對輝達啟動反壟斷調查
紐約時報:特朗普正在模仿中國模式,這糟透了
李承鵬最新文章:跳舞的媽媽
和解!華女遭警員開槍重傷 獲賠$675萬 官方罕見認錯
中國“大一統”罪人:他讓越南徹底脫離華夏版圖
柯克案嫌犯熱愛獸迷文化 跨性別伴侶曾讚揚拜登
Office Depot拒印柯克追悼海報,員工當場被開除
華人網購噩耗!“小額豁免”取消 1件衣服補稅283刀
他到底是極右還是極左?刺殺科克者的心理畫像
美國罕見提“台灣未定論” 批中國刻意扭曲二戰文件
文學城新聞
切換到網頁版

李飛飛花20元26分鍾造出新模型 媲美DeepSeek

星島日報 2025-02-11 16:17:46


美籍華裔科學家李飛飛,僅用20美元和26分鍾,便創出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek,推出後震撼科技界後,有AI教母之稱的美籍華裔科學家李飛飛,率領其團隊僅花了20美元及26分鍾,便創造出一個「s1」的AI推理模型,表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  僅用16塊H100 GPU訓練

綜合外媒報道,李飛飛是史丹福大學首位紅杉講席教授,美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊,在一個月內便研發出s1模型,因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾,訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

  表現媲美OpenAI o1及DeepSeek R1

報道指,李飛飛團隊在研究中提出了「預算控製」策略,透過加入「wait指令」等方式,強製延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

根據李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數學和編碼能力測試中的表現,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道,複旦大學計算機學院副教授鄭驍慶受訪時表示:「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調,而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用,如DeepSeek-V3不到600萬美元的訓練成本,其實也隻包含了訓練時的GPU算力費用。