簡體 | 繁體
loading...
新聞頻道
  • 首頁
  • 新聞
  • 讀圖
  • 財經
  • 教育
  • 家居
  • 健康
  • 美食
  • 時尚
  • 旅遊
  • 影視
  • 博客
  • 群吧
  • 論壇
  • 電台
  • 焦點新聞
  • 圖片新聞
  • 視頻新聞
  • 生活百態
  • 娛樂新聞
1您的位置: 文學城 » 新聞 » 焦點新聞 » 僅憑一篇博客,他成功入職OpenAI!

僅憑一篇博客,他成功入職OpenAI!

文章來源: 新智元 於 2025-06-16 11:52:16 - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數

僅憑一篇博客,他成功入職OpenAI!



  新智元報道  

編輯:定慧 桃子

【新智元導讀】未中頂會,沒有發表arXiv,一篇博客卻成為OpenAI速通票。天才科學家Keller Jordan僅憑Muon優化器博客加入OpenAI。甚至,它可能被用於訓練下一代超級模型GPT-5。



如果想成功應聘加入OpenAI需要什麽條件?

科班出身?頂會論文?師從像Hinton、LeCun這樣的AI大師?還是社交媒體上的技術紅人?

或者,

也許隻需要

寫一篇博客

就行。

Keller Jordan是一名機器學習領域的研究學者,2024年底他設計了一種神經網絡隱藏層的優化器Muon,並公開記錄了自己的研究進展。

圖片

很快,社區成員也開始並行實驗,報告結果,事情變得越來越有趣——OpenAI和xAI同時注意到了他,最終他選擇加入了OpenAI!

圖片

Muon第二作者Yuchen Jin直言,發表論文≠影響力。或許Muon已經被用於GPT-5的訓練中。

圖片

圖片

別再盲目追頂會

Keller Jordan的故事和DeepSeek

開源引發的轟動有些相似,雖然兩者的影響力遠不可比擬,但事情背後的底層邏輯似乎都指向同一個——

在快速迭代的AI世界裏,傳統的論文模式似乎已經落伍,

開放&社區共建&快速響應

也許才能讓人類跟上AI進化的速度。

微軟研究院的研究工程師Shital Shah在知曉Keller Jordan的經曆後感到非常興奮,因為他一直認為研究就該

「以這種方式進行」

。

即使在「開放」的研究實驗室中,你也會看到太多研究人員對「早期想法」

敝帚自珍、

斤斤計較。

研究分享通常隻在親密的朋友之間進行,很長一段時間,人們對此過於執著……

任何一個想法都需要花費數月時間才能通過發表的論文麵世。

而當它最終發表時,又常常淹沒於大量其他論文之中。

如果有人確實注意到了它,對其做出改進又需要經曆同樣漫長而艱難的另一個周期。

Keller則采取了不同的方法。

圖片

他將初步想法作為公開的GitHub倉庫發布,而不是以論文形式發表。

人們可以立即嚐試並改進這些內容。

所有人都可以在任何時間驗證所有內容。由於一切都是開放的,因此不存在作弊或誇大主張的空間。

這確實可以稱得上是

「分布式實時人工智能研究」

!短短幾天內,Keller和其他人就改進了想法。看到潛力的人們紛紛加入並協助進行並行化。

在傳統的人工智能研究領域,這個反饋周期本需要6個多月的時間,而不是僅僅6天。

關於在發論文和「速通技術」之間,Keller Jordan的看法依然和半年前一樣,今日他轉發了一則2月份的自己的推文,表示雖然Muon火了,也幫他進入了OpenAI,

但是他不會給Muon寫一篇論文。

圖片

Keller Jordan的意思很明顯,相比於arXiv上的一篇大概率被「淹沒」的論文,還不如老老實實的繼續研究自己的「優化器」。

甚至在今天還「特地」表達了自己關於目前AI優化其論文的看法——

「都是虛假的,都是水文」

。

圖片

圖片

影響力>聲望

說來,僅憑一個博客被OpenAI招入麾下,Keller Jordan本人有著怎樣的背景?

圖片

他於2020年獲得了加州大學聖地亞哥分校數學和計算機科學雙學士學位,也曾就讀於加州大學聖克魯斯分校和UC伯克利。

圖片

畢業後,他曾入職專注於生成式AI公司Hive任機器學習工程師。隨後,又在維也納複雜性科學中心擔任訪問研究員。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub項目中,最具影響力的便是——Modded-NanoGPT,星標超2.4k。

Keller和團隊僅用8塊H100在3分鍾內複現GPT模型,僅需處理0.73B token。

圖片

他本人還有一個個人博客,自入職OpenAI以來,一直沒有更新,

最後一篇文章正是Muon優化器。

圖片

Muon這篇文章究竟講的是什麽?

圖片

一個優化器,破訓練速度新紀錄

在深度學習領域,優化器是推動模型訓練效率和性能的核心工具。

直到2024年12月,一個名為Muon優化器橫空出世,憑借卓越性能刷新NanoGPT和CIFAR-10訓練速度世界紀錄。

Muon,是一種為神經網絡2D參數隱藏層設計的優化器。

其核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進行正交化處理,生成接近於半正交矩陣的更新,從而提升訓練效率。

它的實現簡單高效,支持在bf16精度下穩定運行,顯著降低了計算開銷。

圖片

比起AdamW優化器,Muon在多個任務中,表現非常驚豔。

在CIFAR-10中,它將達到94%準確率的訓練時間從3.3縮短至2.6 A100 秒,提升約21%。

針對NanoGPT訓練,Muon在FineWeb數據集上,將驗證損失達到3.28訓練速度提升了1.35倍。

圖片

此外,在774M和1.5B參數規模的模型上,Muon依舊保持訓練速度優勢。

訓練一個1.5B參數的Transformer模型達到GPT-2 XL水平,Muon僅需10個8xH100小時,而AdamW需要13.3小時,效率提升約25%。

那麽,在AI圈,Muon的影響力有多大?

微軟團隊1月份論文中,便使用了Muon優化器。

圖片

一些機器學習大佬專為此著分析,還有更多研究中擁抱Muon優化器。

圖片 圖片

圖片

Muon的潛力

人工智能發展速度飛快,模型訓練始終是其核心環節,而優化器則扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。

過去幾年裏,

AdamW一直

是訓練大語言模型的主力。

AdamW能讓GPT、LLaMA、Qwen這類龐然大物學得又穩又快。

然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。

進一步提升AI能力,需要更大的模型和更多的訓練資源。

但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。

因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。

然後Muon「悄然出現」,盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。

而這個事關重大的創新,並不是來自於著名論文或者知名團隊,而僅僅是Keller Jordan的一次「練手」。

圖片

AI研究員就業市場的「混亂現狀」

許多AI研究員博士似乎都陷入了一個誤區,認為在頂級會議上發表論文就是最終目標。

曾經有一段時間,發表論文就等於產生影響!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以論文的形式出現的。

真正的錯誤在於未能察覺這一情況早已不再適用。

發表文章≠影響力。

Muon隻是一篇博客文章。它讓Keller成功進入了OpenAI,他現在可能正用它來訓練GPT-5。

Keller並不是孤例!

即便是沒有獲得博士學位,也可以入職OpenAI。昨天,James Campbell官宣放棄博士學位,要為ChatGPT和AGI

引入記憶與人格。

圖片

傳統的同行評審周期根本無法跟上現代人工智能研究和開發的步伐。

當然基於人工智能的同行評審可能還是很有必要的。

開源

就像新的同行評審。現實世界的采用和可複現性更為重要。

但不幸的是,在學術界,激勵機製有些錯位。學者需要展示「證據」來推動自己的職業生涯(升職、資金支持、同行認可)。

而最有價值的證明形式就是在頂級會議上發表論文。

頂級AI企業的人才選拔是否已從單純看學術論文,轉向綜合考察論文、工程和社區等多維度表現還不能就此下定論。

但正如OpenAI官方所言,他們「並不唯學曆論,更看重實際潛力與技能」。

無論通過哪條路徑,關鍵在於

拿出過硬的成果

(無論是論文、代碼還是項目)並產生

實質影響力

。

  • 海外省錢快報,掌櫃推薦,實現買買買自由!
查看評論(2)
  • 文學城簡介
  • 廣告服務
  • 聯係我們
  • 招聘信息
  • 注冊筆名
  • 申請版主
  • 收藏文學城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小時熱點排行

日本最美公主出國坐經濟艙被偷拍 “睡顏照”全網瘋傳
希拉裏也發對比圖,嘲諷特朗普“低能量美式閱兵”
3.6億美元,泰勒·斯威夫特終於拿回屬於她的一切
紐約時報:前科莫競選顧問曾任中國國有企業高管
伊朗武裝部隊發出強烈警告:請以色列民眾盡快撤離




24小時討論排行

川普閱兵遭中國網民群嘲:還不如高中生的軍訓
特朗普集團推T1智能手機 售價499美元 月費47.45美元
馬英九參訪廈門鼓浪嶼 高唱《龍的傳人》獲滿堂彩
陳之漢"洗底"還是"洗腦"?館長大陸行引發輿論爭辯
馬英九稱直航“小弟有貢獻” 廈航董座:您幹久點就好
巴基斯坦籲所有穆斯林國家:立刻與以色列斷交
洛杉磯風暴的親曆者:討論“加州獨立” 這並非不可能
特朗普:俄羅斯應回到G8,中國也可加入
以媒:“規模空前,大量美國軍機正穿越大西洋”
波音787再出狀況,日本一客機著陸後“拋錨”
印航波音787客機疑技術故障了,緊急折返香港
日本製鐵為何要天價收購美國鋼鐵公司?
越南徹底取消計劃生育,釋放什麽信號
以色列"護國鐵穹"是什麽?每組造價破1億,最大弱點曝光
G7聯合聲明"伊朗永不得擁有核武",挺以色列自衛權
美國務院要求所有駐外使領館澄清:沒參與襲擊伊朗
文學城新聞
切換到網頁版

僅憑一篇博客,他成功入職OpenAI!

新智元 2025-06-16 11:52:16

僅憑一篇博客,他成功入職OpenAI!



  新智元報道  

編輯:定慧 桃子

【新智元導讀】未中頂會,沒有發表arXiv,一篇博客卻成為OpenAI速通票。天才科學家Keller Jordan僅憑Muon優化器博客加入OpenAI。甚至,它可能被用於訓練下一代超級模型GPT-5。



如果想成功應聘加入OpenAI需要什麽條件?

科班出身?頂會論文?師從像Hinton、LeCun這樣的AI大師?還是社交媒體上的技術紅人?

或者,

也許隻需要

寫一篇博客

就行。

Keller Jordan是一名機器學習領域的研究學者,2024年底他設計了一種神經網絡隱藏層的優化器Muon,並公開記錄了自己的研究進展。

圖片

很快,社區成員也開始並行實驗,報告結果,事情變得越來越有趣——OpenAI和xAI同時注意到了他,最終他選擇加入了OpenAI!

圖片

Muon第二作者Yuchen Jin直言,發表論文≠影響力。或許Muon已經被用於GPT-5的訓練中。

圖片

圖片

別再盲目追頂會

Keller Jordan的故事和DeepSeek

開源引發的轟動有些相似,雖然兩者的影響力遠不可比擬,但事情背後的底層邏輯似乎都指向同一個——

在快速迭代的AI世界裏,傳統的論文模式似乎已經落伍,

開放&社區共建&快速響應

也許才能讓人類跟上AI進化的速度。

微軟研究院的研究工程師Shital Shah在知曉Keller Jordan的經曆後感到非常興奮,因為他一直認為研究就該

「以這種方式進行」

。

即使在「開放」的研究實驗室中,你也會看到太多研究人員對「早期想法」

敝帚自珍、

斤斤計較。

研究分享通常隻在親密的朋友之間進行,很長一段時間,人們對此過於執著……

任何一個想法都需要花費數月時間才能通過發表的論文麵世。

而當它最終發表時,又常常淹沒於大量其他論文之中。

如果有人確實注意到了它,對其做出改進又需要經曆同樣漫長而艱難的另一個周期。

Keller則采取了不同的方法。

圖片

他將初步想法作為公開的GitHub倉庫發布,而不是以論文形式發表。

人們可以立即嚐試並改進這些內容。

所有人都可以在任何時間驗證所有內容。由於一切都是開放的,因此不存在作弊或誇大主張的空間。

這確實可以稱得上是

「分布式實時人工智能研究」

!短短幾天內,Keller和其他人就改進了想法。看到潛力的人們紛紛加入並協助進行並行化。

在傳統的人工智能研究領域,這個反饋周期本需要6個多月的時間,而不是僅僅6天。

關於在發論文和「速通技術」之間,Keller Jordan的看法依然和半年前一樣,今日他轉發了一則2月份的自己的推文,表示雖然Muon火了,也幫他進入了OpenAI,

但是他不會給Muon寫一篇論文。

圖片

Keller Jordan的意思很明顯,相比於arXiv上的一篇大概率被「淹沒」的論文,還不如老老實實的繼續研究自己的「優化器」。

甚至在今天還「特地」表達了自己關於目前AI優化其論文的看法——

「都是虛假的,都是水文」

。

圖片

圖片

影響力>聲望

說來,僅憑一個博客被OpenAI招入麾下,Keller Jordan本人有著怎樣的背景?

圖片

他於2020年獲得了加州大學聖地亞哥分校數學和計算機科學雙學士學位,也曾就讀於加州大學聖克魯斯分校和UC伯克利。

圖片

畢業後,他曾入職專注於生成式AI公司Hive任機器學習工程師。隨後,又在維也納複雜性科學中心擔任訪問研究員。

直到2024年12月,Keller正式加入OpenAI。

他所有GitHub項目中,最具影響力的便是——Modded-NanoGPT,星標超2.4k。

Keller和團隊僅用8塊H100在3分鍾內複現GPT模型,僅需處理0.73B token。

圖片

他本人還有一個個人博客,自入職OpenAI以來,一直沒有更新,

最後一篇文章正是Muon優化器。

圖片

Muon這篇文章究竟講的是什麽?

圖片

一個優化器,破訓練速度新紀錄

在深度學習領域,優化器是推動模型訓練效率和性能的核心工具。

直到2024年12月,一個名為Muon優化器橫空出世,憑借卓越性能刷新NanoGPT和CIFAR-10訓練速度世界紀錄。

Muon,是一種為神經網絡2D參數隱藏層設計的優化器。

其核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進行正交化處理,生成接近於半正交矩陣的更新,從而提升訓練效率。

它的實現簡單高效,支持在bf16精度下穩定運行,顯著降低了計算開銷。

圖片

比起AdamW優化器,Muon在多個任務中,表現非常驚豔。

在CIFAR-10中,它將達到94%準確率的訓練時間從3.3縮短至2.6 A100 秒,提升約21%。

針對NanoGPT訓練,Muon在FineWeb數據集上,將驗證損失達到3.28訓練速度提升了1.35倍。

圖片

此外,在774M和1.5B參數規模的模型上,Muon依舊保持訓練速度優勢。

訓練一個1.5B參數的Transformer模型達到GPT-2 XL水平,Muon僅需10個8xH100小時,而AdamW需要13.3小時,效率提升約25%。

那麽,在AI圈,Muon的影響力有多大?

微軟團隊1月份論文中,便使用了Muon優化器。

圖片

一些機器學習大佬專為此著分析,還有更多研究中擁抱Muon優化器。

圖片 圖片

圖片

Muon的潛力

人工智能發展速度飛快,模型訓練始終是其核心環節,而優化器則扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。

過去幾年裏,

AdamW一直

是訓練大語言模型的主力。

AdamW能讓GPT、LLaMA、Qwen這類龐然大物學得又穩又快。

然而,隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾周甚至幾個月,AdamW的局限性開始顯現——它在超大規模場景下的效率開始受到挑戰。

進一步提升AI能力,需要更大的模型和更多的訓練資源。

但計算資源的成本高昂,訓練時間過長也會拖慢研究和應用的進度。

因此,開發更高效的優化器,不僅是技術上的追求,更是經濟和實踐上的迫切需求。

然後Muon「悄然出現」,盡管它還未成為業界焦點,但其獨特的設計和卓越的性能表明,它可能是AI模型訓練領域的一次重大基礎創新。

而這個事關重大的創新,並不是來自於著名論文或者知名團隊,而僅僅是Keller Jordan的一次「練手」。

圖片

AI研究員就業市場的「混亂現狀」

許多AI研究員博士似乎都陷入了一個誤區,認為在頂級會議上發表論文就是最終目標。

曾經有一段時間,發表論文就等於產生影響!

ResNet、Seq2Seq、Adam、Attention、Transformers、MoE,都是以論文的形式出現的。

真正的錯誤在於未能察覺這一情況早已不再適用。

發表文章≠影響力。

Muon隻是一篇博客文章。它讓Keller成功進入了OpenAI,他現在可能正用它來訓練GPT-5。

Keller並不是孤例!

即便是沒有獲得博士學位,也可以入職OpenAI。昨天,James Campbell官宣放棄博士學位,要為ChatGPT和AGI

引入記憶與人格。

圖片

傳統的同行評審周期根本無法跟上現代人工智能研究和開發的步伐。

當然基於人工智能的同行評審可能還是很有必要的。

開源

就像新的同行評審。現實世界的采用和可複現性更為重要。

但不幸的是,在學術界,激勵機製有些錯位。學者需要展示「證據」來推動自己的職業生涯(升職、資金支持、同行認可)。

而最有價值的證明形式就是在頂級會議上發表論文。

頂級AI企業的人才選拔是否已從單純看學術論文,轉向綜合考察論文、工程和社區等多維度表現還不能就此下定論。

但正如OpenAI官方所言,他們「並不唯學曆論,更看重實際潛力與技能」。

無論通過哪條路徑,關鍵在於

拿出過硬的成果

(無論是論文、代碼還是項目)並產生

實質影響力

。