兩位00後大學生在大四尚未畢業時,竟然不接埃隆·馬斯克(Elon Musk)拋出的繡球,謝絕了xAI提供的數以百萬美元計年薪的工作邀約!他們是不是有點crazy,尤其當這兩位無名小卒尚未在業界泛出一片漣漪之時?咱先看看王冠(Guan Wang 下圖 sapient)


對於一名正在四處尋找就業機會的大四學生,這不啻是天大的好事。麵對這一邀約,王冠和他的創業夥伴也的確十分心動。心不動於微利之誘,目不眩於五色之惑。誌存高遠的王冠和陳威廉從xAI發出的工作邀約中,看到了自己工作的價值。如果接受邀約進入馬斯克的xAI工作,他們肯定得按公司的目標工作。於是,王冠和陳威廉謝絕了xAI的工作邀約,出發去設計一個“受大腦啟發”的推理係統,以超越現有大語言模型。在王冠和陳威廉看來,大語言模型不能像人一樣思考,隻會完全依賴訓練數據,像是背字典背考題。他們決定要在既有的工作基礎上,開發出一種全新的結構,突破大語言模型存在的瓶頸。2024年,兩人成立了名為Sapient Intelligence(智人)的人工智能公司,建成了一隻由頂尖科學家和工程師組成,曾在Anthropic、DeepSeek、xAI和穀歌DeepMind等一流AI公司,以及劍橋大學、清華大學、北京大學和阿爾伯塔大學等一流學術機構研究工作的團隊,並已獲得了至少兩輪投資(下圖 Sapient Intelligence)。但讓王冠和陳威廉,不,是他們的推理模型,為世界所知的,是Sapient Intelligence今年推出的HRM。

2025年7月21日,新加坡通用人工智能研究公司Sapient Intelligence正式推出開源AI分層推理HRM模型 (Higherarchical Reasoning Model) (下圖 datasciencedojo)。HRM是一種受大腦啟發而設計的架構,它利用分層結構和多時間尺度處理,在不犧牲訓練穩定性和效率的前提下,實現了顯著的計算深度。HRM僅使用1000個樣本進行訓練,無需預訓練,且參數量僅為2700萬,即可成功應對當前大型語言模型(LLM)難以解決的推理難題。為證明該“受大腦啟發”的人工智能結構,Sapient Intelligence團隊攜HRM參加了“ARC-AGI基準測試”這類業界公認的‘考場’,與諸如OpenAI和Anthropic這類主流AI公司的知名大模型真刀真槍地比試了一番。結果,僅有區區2700萬產數的HRM,在多項高難度推理任務上,把那些動輒上千億產數的“大塊頭”們按在地上摩擦,在抽象推理測試中超越了OpenAI和Anthropic的係統。

王冠與陳威廉
Sapient Intelligence創始人兼CEO王冠(Guan Wang)2000年出生於大陸河南省。在成長過程中,王冠就是一個別人家的孩子。高中時他參加了算法比賽,信息學競賽,奪得過高中版大疆robomaster比賽冠軍。大學他進入的清華,並且是保送入讀世界一流的清華計算機學院 – 太過優秀!之後他轉入清華AIR研究院學習強化學習(RL),再後來加入清華腦與智能實驗室嚐試將強化學習與演化計算做融合。期間,王冠也曾去擔任開源語言學習項目OpenOrca的首席開發者。在清華學習期間和畢業後,他先後在清華大學腦與智能實驗室、上海人工智能實驗室和小馬智行(Pony.ai)擔任研究人員和工程師的職務。正是在清華大學學習期間,王冠與他的好友陳威廉一起開發出了OpenChat這個著名開源模型。
陳威廉(William Chen)出生於出生於中國大陸、在聖地亞哥和深圳長大,係Sapient Intelligence聯合創始人兼管理與戰略負責人。陳威廉高中時被家長送到位於底特律西北的著名私立寄宿學校克蘭布魯克學校(Cranbrook Schools 下圖 Google Map)。正是在底特律,他與在當地的另一所學校讀高中王冠相識。在他們見麵的第一天,兩人就展開了一場漫長的對話,話題是陳所說的他們的“元目標”,也就是他們人生的最終目的。對王而言,通用人工智能(AGI)的元目標早在這個術語流行之前就已存在。高中時,他將其描述為“能夠解決任何問題的算法”,因為當時還沒有這個術語。陳的元目標則有所不同,但又與之互補:優化一切,從工程問題到現實世界的係統。“我們一拍即合,”陳說。

王冠和陳威廉開發地“OpenChat”模型並非使用海量的互聯網數據進行訓練,而是基於一組精心挑選的高質量對話(下圖 github)。他們還利用強化學習(RL)來訓練模型自我改進。強化學習是一種讓模型像人或動物一樣學習的技術:通過做出決策、接收反饋,然後通過獎懲機製來改進行為。當時,幾乎沒有人用語言模型做這件事。唯一一家探索將強化學習應用於語言學習模型的團隊是DeepSeek,即後來令矽穀感到恐慌的那家AI公司(中文名:深度求索)。王冠和陳威廉將他們的OpenChat開源,並立即爆紅。加大伯克利和斯坦福大學的研究人員提取了這段代碼,並在此基礎上進行了擴展,開始引用這項研究成果。在學術界,它成為最早的案例之一,證明了即使模型規模較小,隻要用優質數據(而非更多數據)進行訓練,就能發揮出遠超其自身規模的作用。然後,就有了埃隆·馬斯克當時通過他新成立的公司xAI發的一封郵件,想以數百萬美元的薪酬待遇招攬他倆。他們猶豫了一下,然後拒絕了。因為他們認為大規模語言模型存在局限性,因而想要一種新的架構來克服大規模機器學習的結構性限製。追求更具雄心壯誌的目標:一個“受大腦啟發”的推理係統,他們相信該係統可以超越當前的 AI 模型。

淩晨3點的突破
王冠和陳威廉是在清華大學的腦科學實驗室裏,開發出了分層推理模型(HRM)。如果說 OpenChat 是他們的概念驗證,那麽 HRM 就是他們一直以來夢寐以求的登月計劃。而它最終證明自身價值的時刻,恰如其分地,發生在夜深人靜之時。今年六月一個清晨,淩晨三點,陳和王盯著他們小型實驗模型返回的基準測試結果。他們那小小的HRM原型 - 隻有2700萬個參數,與GPT-4或Claude相比簡直微不足道 - 在專門用於衡量推理能力的任務上,表現卻優於OpenAI、Anthropic和DeepSeek的係統(下圖 Linkedin)。它解決了極限數獨問題,找到了 30×30 迷宮的最佳路徑,並在ARC-AGI 基準測試中取得了驚人的高性能 - 所有這些都沒有使用思維導圖提示或暴力擴展。用陳威廉的話說,“僅僅改變一下架構,就賦予了模型我們所說的推理深度。”

參考資料
Roytburg, E. (2025). Two gen zers tured down millions from Elon Musk to build an AI based on the human brain – and it’s outperformed models from OpenAI and Anthropic. FORTUNE. 鏈接 https://fortune.com/2025/11/28/sapient-intelligence-william-chen-guan-wang-turned-down-elon-musk-agi/
Sapient Intelligence. (2025). Hierachical reasoning model. GitHub. 鏈接 https://github.com/sapientinc/HRM
Sapient Intelligence. (2025). Sapient Intelligence open-sources hierarchical resoning model, a brain-inspired architecture that solves complex reasoning tasks with 27 million parameters. 鏈接 https://www.sapient.inc/blog/5?_t=1764435065949
Spencer, M. (2025). What is Sapient Intelligence and hierarchical reasoning model (HRM)? 鏈接 https://offthegridxp.substack.com/p/what-is-sapient-intelligence-hierarchical-reasoning-model-hrm
Wang, G. et al. (2025). Hierachical reasoning model. arxiv. 鏈接 https://arxiv.org/pdf/2506.21734
Wang, G. et al. (2025). Hierachical reasoning model. Sapient Intelligence. 鏈接 https://www.sapient.inc/models/2
阮佳琪. (2025).“驚人轉變”,美媒:清華AI專利數超過哈佛、麻省理工等美國四校總和. . Sina新浪新聞中心. 鏈接 https://news.sina.com.cn/c/2025-11-19/doc-infxxnee1860628.shtml
投資界. (2024). 那個要挑戰GPT的00後清華男孩. Sina新浪財經. 鏈接 https://finance.sina.com.cn/jjxw/2024-09-20/doc-incpumyu7638447.shtml