
人類對知識的征途,或許才剛剛開始。
去年,AI 能解出博士級別的數學題,已是轟動一時的大新聞;而今年,能攻克「未解之謎」級別的數學難題的 AI 已經來了。
5 月 15 日,Google DeepMind 發布了全新編程智能體 AlphaEvolve。
不同於傳統的編程 Agent,它專注於通用算法的自動發現與持續優化。顧名思義,AlphaEvolve 擅長在「進化」中尋找更優解,它模擬自然選擇機製,能在代碼中不斷迭代、演化出創新算法。
隻要問題能用程序表達、結果能用函數評估,AlphaEvolve 就能迭代算法。Google 表示,在組合數學、幾何學、數論等超過 50 個未解問題中應用後,AlphaEvolve 在約 20% 的問題上超越了人類現有解法。
DeepMind 研究員 Matej Balog 表示:「AlphaEvolve 在十多個公開的數學問題上取得了突破。但最讓我激動的是:它找到了 56 年以來,4x4 複數矩陣乘法算法的首次改進。這個結果,來自它自創的一種複雜搜索算法。」
AlphaEvolve 的價值不僅在數學,它展現出的是一種通用的「算法發現能力」。Balog 表示:「我們對 AlphaEvolve 的應用,還隻是觸及表層。」
01
問題能用程序表達、結果能用函數評估,
AlphaEvolve 就能迭代算法
Google DeepMind 表示,AlphaEvolve 能夠在多個複雜問題中取得突破,關鍵在於其背後運作的是一整套自動進化機製,能持續優化算法並提升性能。
從本質上看,AlphaEvolve 解決的是一個通用的黑盒優化問題:maximize h(f)。其中,f 是由大型語言模型生成的程序,h 是衡量該程序質量的評估函數。
在實際流程中,AlphaEvolve 首先通過提示采樣器(prompt sampler)組裝提示詞,引導語言模型生成代碼。DeepMind 使用了兩個不同的 Gemini 模型協同工作:Gemini Flash 以更高速度生成大量候選方案,擴展思路的廣度;Gemini Pro 則提供更深入的結構性建議。二者結合,使模型能產出具備實際可行性和算法深度的程序。
生成的程序會被送入自動評估係統,經過驗證、運行和打分後,寫入程序數據庫。數據庫中運行著一套進化算法,會從已有程序中挑選表現最好的方案,為下一輪提示提供方向,不斷迭代出更優解。
AlphaEvolve 的一個核心點就是這套自動評估指標。它能對生成程序進行驗證、運行和評分。每一個程序都會被 h 函數衡量其準確性、運行效率、代碼質量等維度。這些評分標準是客觀、量化的,使 AlphaEvolve 能夠在無需人類直接幹預的前提下持續優化。

圖片來源:Google
不過,這裏的 h 函數依然由人類研究人員定義,可以是準確率、運行時間,甚至代碼可讀性等維度的組合。AlphaEvolve 負責的隻是在給定 h 的前提下去尋找最優的 f。對於一些數學問題或研究任務,Google 也可能預設 h。
這也說明了 AlphaEvolve 當前的邊界:它適用於那些「成果是否優秀」可以自動量化判斷的問題。但如何定義「優秀」,仍需人來給出。在需要人類實驗才能確定是否優秀的問題上,AlphaEvolve 就無法評估了。
以 DeepMind 研究員提到的 4×4 複數矩陣乘法為例,研究人員設置了一組任務目標,包括達到的最低乘法次數(即張量分解的秩)以及達到該結果的隨機種子比例。這些信號構成了 AlphaEvolve 的優化目標,引導它在複雜的搜索空間中穩步「爬山」。
AlphaEvolve 從問題定義出發,基於標準的梯度優化流程(包括初始化器、重建損失函數、Adam 優化器等),演化出了一係列高質量的張量分解算法。最終,它在 14 個矩陣乘法結構上超越了已知最優結果。其中最引人注目的,是它提出了曆史上第一個能用 48 次乘法完成 4×4 複數矩陣乘法的算法——打破了 56 年未被突破的記錄。

圖片來源:Google
AlphaEvolve 的技術路線可追溯到 DeepMind 早期提出的 FunSearch 係統。FunSearch 同樣利用語言模型引導程序進化,曾被用於發現數學結構或在線算法策略。但與之相比,AlphaEvolve 的擴展性顯著提升:它可以修改完整程序,處理多個函數、組件、甚至跨語言結構協同優化,而不僅限於 Python 中的單一函數。
這種更高的通用性,使 AlphaEvolve 不再隻是一個「智能改函數」的工具,而像是一個可以自主演化大型算法係統的「程序設計夥伴」。
據 DeepMind 披露,AlphaEvolve 已被應用於 50 多個數學難題,涵蓋數學分析、幾何學、組合數學與數論等領域。大多數實驗都能在數小時內完成部署。
在約 75% 的問題中,它成功重新發現了當前的最優解。更令人驚喜的是,在約 20% 的問題中,它給出了比已知方法更好的解法。比如在數學界研究了 300 多年的「接吻數問題」中,AlphaEvolve 構造出由 593 個球體組成的新結構,在 11 維空間中刷新了下界。
除了數學,AlphaEvolve 也已在 Google 內部實際落地應用,解決了計算棧中多個層麵的工程問題,包括:為 Borg 係統設計新的調度啟發式;優化大語言模型訓練時使用的矩陣乘法內核;改寫 TPU 芯片中的算術電路;加速 Transformer 注意力機製的執行速度。
這些任務之間跨度極大,但都具備一個共性:問題能用程序表達、結果能用函數評估。隻要這兩點成立,AlphaEvolve 就可以發揮作用。
02
更多的智能供給,帶來無限的遊戲
此次發布來自 Google DeepMind,這一團隊曾推出 AlphaGo、AlphaFold 等具有裏程碑意義的 AI 係統,在博弈智能與科學發現領域顯著擴展了人工智能的能力邊界。
AlphaEvolve,與依賴強化學習和自我博弈(如 AlphaGo)的係統不同,是通過語言模型生成大量程序候選,結合自動評估與進化機製,篩選出更優的算法方案。它更像是一種可編排、可擴展的算法構造與發現框架。
相比 AlphaGo 展示的是人工智能如何在規則明確定義的博弈中超越人類,AlphaEvolve 的意義可能更在於:它為研究者提供了一種持續、可擴展的算法生成與優化能力。
算法設計與調優曆來是一種高度稀缺的技術能力。算法工程師在就業市場上普遍享有更高的薪酬與職位門檻,足以反映其複雜性與稀缺性。
而現在,隻要設定明確的評估方式,AlphaEvolve 就有可能以接近無限的算力和耐心,自動探索並優化算法解法。這意味著,「發現並改進算法」這項曾依賴個體經驗的能力,開始從稀缺、手工、不可複製,變為可自動化、可規模化的智能供給。
尤瓦爾·赫拉利曾經有一個比喻,形容 AlphaGo 為人類帶來的衝擊。
人類一直在圍棋星球上探索如何下圍棋,不斷有人畫出路線圖,探索圍棋星球的樣貌。直到 AI 出現,人類才驚覺,自己不過是在圍棋星球的一座小島上原地打轉,而真正的星球遼闊無邊,未曾涉足的區域遠超想象。
而去年到今年,在科研領域,我們也不斷地看到 AI 正在做同樣的事情。2024 年,AI 相關成果首次同時獲得諾貝爾物理學獎與化學獎,而這很有可能成為未來的科研常態。
從某種程度上說,AlphaEvolve 所做的,是以前所未有的速度加快這張科研的「未知地圖」的展開。以無限的智能供給,讓每個領域都有可能被再探索一遍。
當「能被發現的算法」不再稀缺,人類對知識的征途,或許才剛剛開始。