簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
您的位置: 文學城 » 新聞 » 焦點新聞 » 李飛飛花20元26分鍾造出新模型 媲美DeepSeek

李飛飛花20元26分鍾造出新模型 媲美DeepSeek

文章來源: 星島日報 於 2025-02-11 16:17:46 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


美籍華裔科學家李飛飛,僅用20美元和26分鍾,便創出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek,推出後震撼科技界後,有AI教母之稱的美籍華裔科學家李飛飛,率領其團隊僅花了20美元及26分鍾,便創造出一個「s1」的AI推理模型,表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  僅用16塊H100 GPU訓練

綜合外媒報道,李飛飛是史丹福大學首位紅杉講席教授,美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊,在一個月內便研發出s1模型,因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾,訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

  表現媲美OpenAI o1及DeepSeek R1

報道指,李飛飛團隊在研究中提出了「預算控製」策略,透過加入「wait指令」等方式,強製延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

根據李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數學和編碼能力測試中的表現,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道,複旦大學計算機學院副教授鄭驍慶受訪時表示:「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調,而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用,如DeepSeek-V3不到600萬美元的訓練成本,其實也隻包含了訓練時的GPU算力費用。

查看評論(44)

24小時熱點排行

紐約時報:中國遠遠落後於美國的時代已經終結
近代最大規模纏鬥!125架戰機激戰1小時 38人喪命
紐約時報:習近平訪俄為中國拉攏歐洲的努力蒙上陰影
曼穀大樓"工程師簽名"竟是假的,30人宣稱身分遭冒用
快訊!梵蒂岡冒白煙 新教皇當選

24小時討論排行

散播假消息?印駁斥“巴擊落軍機”:拿舊照發文
沈陽將舉行紀念蘇軍“不朽軍團”遊行 中小學生也參加
習近平冒著無人機襲擊的危險來到莫斯科
川普對等關稅第一國!美國與英國簽署貿易協議
中又贏?巴基斯坦證實:使用J10戰機擊落印軍“陣風”
印巴爆發近20年最嚴重衝突後,莫迪首次發聲
普京和習近平發表聯合聲明譴責美國,強調中俄互信
習近平告訴普京 麵對“霸權騷擾”他與俄羅斯站在一起
不減息!川普發文大罵鮑威爾:蠢材 什麽都不懂
印度稱摧毀巴防空係統 遭嘲諷:派幾架陣風來查看
被拜登懟急眼,白宮怒批:他是國家之恥
中國同意與美國談判,但仍可能堅持強硬立場
中西醫之爭,到底是哪一個更厲害?
印度空襲巴基斯坦後巴方報複是否無可避免?
比爾·蓋茨:未來20年,我將捐出幾乎全部財富
美商務部證實 川普將撤銷“拜登版”AI芯片出口禁令
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

文學城新聞
切換到網頁版

李飛飛花20元26分鍾造出新模型 媲美DeepSeek

星島日報 2025-02-11 16:17:46


美籍華裔科學家李飛飛,僅用20美元和26分鍾,便創出新的AI模型,效能媲美Deepseek、OpenAI。路透社

中國低成本高效的AI模型DeepSeek,推出後震撼科技界後,有AI教母之稱的美籍華裔科學家李飛飛,率領其團隊僅花了20美元及26分鍾,便創造出一個「s1」的AI推理模型,表現媲美OpenAI o1和DeepSeek R1等尖端推理模型。

  僅用16塊H100 GPU訓練

綜合外媒報道,李飛飛是史丹福大學首位紅杉講席教授,美國國家工程院院士。她與史丹福大學和華盛頓大學的研究團隊,在一個月內便研發出s1模型,因像DeepSeek一樣並非從零開始。s1是以阿裏巴巴的通義千問Qwen2.5 -32B-Instruct開源模型為底座,在16塊輝達(NVIDIA)H100 GPU上監督微調26分鍾,訓練出新模型。

美籍華裔科學家李飛飛有「AI教母」之稱。@drfeifei

李飛飛是史丹福大學首位紅杉講席教授。Stanford University

  表現媲美OpenAI o1及DeepSeek R1

報道指,李飛飛團隊在研究中提出了「預算控製」策略,透過加入「wait指令」等方式,強製延長模型推理過程、思考時間,以此促使模型自我檢查並修正錯誤的推理步驟,提升推理品質。

根據李飛飛等人的研究論文《s1:Simple test- time scaling》,該模型在數學和編碼能力測試中的表現,可媲美OpenAI的o1,以及DeepSeek的R1等尖端推理模型,在競賽數學問題上更較o1-preview高出27%。

內媒每日經濟新聞報道,複旦大學計算機學院副教授鄭驍慶受訪時表示:「像DeepSeek或類似的公司,在尋找有效的整合解決方案時,需要進行大量的前期研究與消融實驗。」這意味著前期是需要大量「燒錢」的。

由於s1是基於現成模型進行監督微調,而微調一個模型和從零開始訓練一個模型的成本是無法相提並論的。其次50美元是否包含了其他數據、設備和消融實驗等費用,如DeepSeek-V3不到600萬美元的訓練成本,其實也隻包含了訓練時的GPU算力費用。