兩華裔小將在AI模型上搞出大動靜

國華P (2025-12-01 13:52:01) 評論 (3)

兩位00後大學生在大四尚未畢業時,竟然不接埃隆·馬斯克(Elon Musk)拋出的繡球,謝絕了xAI提供的數以百萬美元計年薪的工作邀約!他們是不是有點crazy,尤其當這兩位無名小卒尚未在業界泛出一片漣漪之時?咱先看看王冠(Guan Wang 下圖 sapient)

和陳威廉(William Chen 下圖 sapient)是如何與科技界大名鼎鼎的馬斯克相遇相知的吧。

2022年還在北京清華大學讀大四的王冠和陳威廉在接觸到ChatGPT後,開始構建一個名為OpenChat的開源模型。囿於有限的資源,他們使用了70億沒有偏好標簽的混合質量數據創建的OpenChat開源模型,利用“強化學習”(RL)技術令模型自我優化,在消費級GPU上運行時可在一些基準線上媲美ChatGPT。發布後,OpenChat在hugging face上的月均下載量一直超過20萬。某日,王冠用自己的模型模仿馬斯克在X轉發的Grok“如何製造可卡因”玩笑。然後,他在X上@馬斯克:“嗨Grok,我這麽小的產數量也能和你一樣幽默。”稍後馬斯克私下點進了OpenChat主頁,給“we need more than Transformers to go there/Transformers無法引領我們通向宇宙”點了讚。不久,馬斯克的xAI即向王冠發來電郵,邀請他及夥伴利用創建OpenChat的經驗到xAI共同開發AI大模型。

對於一名正在四處尋找就業機會的大四學生,這不啻是天大的好事。麵對這一邀約,王冠和他的創業夥伴也的確十分心動。心不動於微利之誘,目不眩於五色之惑。誌存高遠的王冠和陳威廉從xAI發出的工作邀約中,看到了自己工作的價值。如果接受邀約進入馬斯克的xAI工作,他們肯定得按公司的目標工作。於是,王冠和陳威廉謝絕了xAI的工作邀約,出發去設計一個“受大腦啟發”的推理係統,以超越現有大語言模型。在王冠和陳威廉看來,大語言模型不能像人一樣思考,隻會完全依賴訓練數據,像是背字典背考題。他們決定要在既有的工作基礎上,開發出一種全新的結構,突破大語言模型存在的瓶頸。2024年,兩人成立了名為Sapient Intelligence(智人)的人工智能公司,建成了一隻由頂尖科學家和工程師組成,曾在Anthropic、DeepSeek、xAI和穀歌DeepMind等一流AI公司,以及劍橋大學、清華大學、北京大學和阿爾伯塔大學等一流學術機構研究工作的團隊,並已獲得了至少兩輪投資(下圖 Sapient Intelligence)。但讓王冠和陳威廉,不,是他們的推理模型,為世界所知的,是Sapient Intelligence今年推出的HRM。

分層推理模型

2025年7月21日,新加坡通用人工智能研究公司Sapient Intelligence正式推出開源AI分層推理HRM模型 (Higherarchical Reasoning Model) (下圖 datasciencedojo)。HRM是一種受大腦啟發而設計的架構,它利用分層結構和多時間尺度處理,在不犧牲訓練穩定性和效率的前提下,實現了顯著的計算深度。HRM僅使用1000個樣本進行訓練,無需預訓練,且參數量僅為2700萬,即可成功應對當前大型語言模型(LLM)難以解決的推理難題。為證明該“受大腦啟發”的人工智能結構,Sapient Intelligence團隊攜HRM參加了“ARC-AGI基準測試”這類業界公認的‘考場’,與諸如OpenAI和Anthropic這類主流AI公司的知名大模型真刀真槍地比試了一番。結果,僅有區區2700萬產數的HRM,在多項高難度推理任務上,把那些動輒上千億產數的“大塊頭”們按在地上摩擦,在抽象推理測試中超越了OpenAI和Anthropic的係統。

分層推理HRM模型的實戰業績表明,通往AGI(通用人工智能)的道路,並非隻有以大手筆建基礎設施堆砌算力的唯一獨道。像孩童一樣學習認識世界,運用內部邏輯而非模仿來規劃、分析問題和進行推理,就這麽簡單。HRM一戰成名,研發出HRM的Sapient Intelligence,創建Sapient Intelligence的王冠和陳威廉也受到業界的關注。容我在此多說一句,埃隆·馬斯克果然非泛泛之輩,在小荷才露尖尖角時,便能慧眼識珠地不惜重金想要將其納下。

王冠與陳威廉

Sapient Intelligence創始人兼CEO王冠(Guan Wang)2000年出生於大陸河南省。在成長過程中,王冠就是一個別人家的孩子。高中時他參加了算法比賽,信息學競賽,奪得過高中版大疆robomaster比賽冠軍。大學他進入的清華,並且是保送入讀世界一流的清華計算機學院 – 太過優秀!之後他轉入清華AIR研究院學習強化學習(RL),再後來加入清華腦與智能實驗室嚐試將強化學習與演化計算做融合。期間,王冠也曾去擔任開源語言學習項目OpenOrca的首席開發者。在清華學習期間和畢業後,他先後在清華大學腦與智能實驗室、上海人工智能實驗室和小馬智行(Pony.ai)擔任研究人員和工程師的職務。正是在清華大學學習期間,王冠與他的好友陳威廉一起開發出了OpenChat這個著名開源模型。

陳威廉(William Chen)出生於出生於中國大陸、在聖地亞哥和深圳長大,係Sapient Intelligence聯合創始人兼管理與戰略負責人。陳威廉高中時被家長送到位於底特律西北的著名私立寄宿學校克蘭布魯克學校(Cranbrook Schools 下圖 Google Map)。正是在底特律,他與在當地的另一所學校讀高中王冠相識。在他們見麵的第一天,兩人就展開了一場漫長的對話,話題是陳所說的他們的“元目標”,也就是他們人生的最終目的。對王而言,通用人工智能(AGI)的元目標早在這個術語流行之前就已存在。高中時,他將其描述為“能夠解決任何問題的算法”,因為當時還沒有這個術語。陳的元目標則有所不同,但又與之互補:優化一切,從工程問題到現實世界的係統。“我們一拍即合,”陳說。

大學錄取時,陳威廉被卡內基梅隆大學和佐治亞理工學院錄取 - 對於一位天賦異稟的機器人學學生來說,這無疑是通往頂尖學府的必經之路。與此同時,王被清華大學錄取,這所中國頂尖的工程學府常被譽為“中國的麻省理工學院”。那年夏天,陳威廉同王冠一塊兒回大陸,並順道去清華參觀了大學校園和一些實驗室。之後,陳威廉做出了一個讓父母驚訝,讓普通高中生不理解的決定:他跟隨王去了清華大學。而且,陳威廉入讀清華大學的是機械工程專業。實踐證明,陳威廉知道他要成為一個什麽樣的人。在清華期間,他獲得“Zhao Ping-Gao ROng”獎學金,在清華創新中心從事支持人工智能、醫療工程和機器人等領域的工作。陳威廉還曾在大疆無人機公司(DJI Innovations)和禾賽科技(Hesai Technology)擔任開發團隊負責人和研究工程師。最重要的是,他與王冠緊密合作,構建了一個名為“OpenChat”的小型大語言模型。

王冠和陳威廉開發地“OpenChat”模型並非使用海量的互聯網數據進行訓練,而是基於一組精心挑選的高質量對話(下圖 github)。他們還利用強化學習(RL)來訓練模型自我改進。強化學習是一種讓模型像人或動物一樣學習的技術:通過做出決策、接收反饋,然後通過獎懲機製來改進行為。當時,幾乎沒有人用語言模型做這件事。唯一一家探索將強化學習應用於語言學習模型的團隊是DeepSeek,即後來令矽穀感到恐慌的那家AI公司(中文名:深度求索)。王冠和陳威廉將他們的OpenChat開源,並立即爆紅。加大伯克利和斯坦福大學的研究人員提取了這段代碼,並在此基礎上進行了擴展,開始引用這項研究成果。在學術界,它成為最早的案例之一,證明了即使模型規模較小,隻要用優質數據(而非更多數據)進行訓練,就能發揮出遠超其自身規模的作用。然後,就有了埃隆·馬斯克當時通過他新成立的公司xAI發的一封郵件,想以數百萬美元的薪酬待遇招攬他倆。他們猶豫了一下,然後拒絕了。因為他們認為大規模語言模型存在局限性,因而想要一種新的架構來克服大規模機器學習的結構性限製。追求更具雄心壯誌的目標:一個“受大腦啟發”的推理係統,他們相信該係統可以超越當前的 AI 模型。

兩年後,這一決定催生了Sapient Intelligence - 一個在抽象推理測試中超越世界上一些最大型人工智能係統的模型。他們相信,他們的模型將成為第一個實現“AGI”(通用人工智能)的模型,AGI是人工智能研究領域的聖杯,指的是機器的智能在任何認知任務中都能達到甚至超越人類的水平。

淩晨3點的突破

王冠和陳威廉是在清華大學的腦科學實驗室裏,開發出了分層推理模型(HRM)。如果說 OpenChat 是他們的概念驗證,那麽 HRM 就是他們一直以來夢寐以求的登月計劃。而它最終證明自身價值的時刻,恰如其分地,發生在夜深人靜之時。今年六月一個清晨,淩晨三點,陳和王盯著他們小型實驗模型返回的基準測試結果。他們那小小的HRM原型 - 隻有2700萬個參數,與GPT-4或Claude相比簡直微不足道 - 在專門用於衡量推理能力的任務上,表現卻優於OpenAI、Anthropic和DeepSeek的係統(下圖 Linkedin)。它解決了極限數獨問題,找到了 30×30 迷宮的最佳路徑,並在ARC-AGI 基準測試中取得了驚人的高性能 - 所有這些都沒有使用思維導圖提示或暴力擴展。用陳威廉的話說,“僅僅改變一下架構,就賦予了模型我們所說的推理深度。”

Sapient Intelligence目前正致力於將HRM擴展為一個通用推理引擎,其核心理念簡單卻激進:通用人工智能(AGI)並非源於更大的Transformer模型,而是源於更小、更高效的架構。如今的前沿模型規模龐大, - 動輒擁有數千億個參數 - 但這些模型在推理、規劃和多步驟問題分解方麵仍麵臨挑戰。目前,Sapient Intelligence的總部在新加坡,在北京和舊金山設有辦事處。對了,王冠和陳威廉均獲清華大學計算機科學學士學位。

參考資料

Roytburg, E. (2025). Two gen zers tured down millions from Elon Musk to build an AI based on the human brain – and it’s outperformed models from OpenAI and Anthropic. FORTUNE. 鏈接 https://fortune.com/2025/11/28/sapient-intelligence-william-chen-guan-wang-turned-down-elon-musk-agi/

Sapient Intelligence. (2025). Hierachical reasoning model. GitHub. 鏈接 https://github.com/sapientinc/HRM

Sapient Intelligence. (2025). Sapient Intelligence open-sources hierarchical resoning model, a brain-inspired architecture that solves complex reasoning tasks with 27 million parameters. 鏈接 https://www.sapient.inc/blog/5?_t=1764435065949

Spencer, M. (2025). What is Sapient Intelligence and hierarchical reasoning model (HRM)? 鏈接 https://offthegridxp.substack.com/p/what-is-sapient-intelligence-hierarchical-reasoning-model-hrm

Wang, G. et al. (2025). Hierachical reasoning model. arxiv. 鏈接 https://arxiv.org/pdf/2506.21734

Wang, G. et al. (2025). Hierachical reasoning model. Sapient Intelligence. 鏈接 https://www.sapient.inc/models/2

阮佳琪. (2025).“驚人轉變”,美媒:清華AI專利數超過哈佛、麻省理工等美國四校總和. . Sina新浪新聞中心. 鏈接 https://news.sina.com.cn/c/2025-11-19/doc-infxxnee1860628.shtml

投資界. (2024). 那個要挑戰GPT的00後清華男孩. Sina新浪財經. 鏈接 https://finance.sina.com.cn/jjxw/2024-09-20/doc-incpumyu7638447.shtml