獅山巡禮

投資雜談

首頁文章列表博文目錄

個人資料

lionhill

給我悄悄話

博客訪問：

上海交大全光AI芯片登Science！比A100快百倍

(2025-12-19 03:36:07) 下一個

全球首個大規模全光生成式AI芯片，來自中國！

芯東西12月19日報道，今天，國際頂級學術期刊《科學（Science）》刊登了一項來自上海交通大學的最新研究All-optical synthesis chip for large-scale intelligent semantic vision generation（大規模智能語義視覺生成全光芯片）。這項研究是新一代算力芯片領域的重大突破，首次實現了支持大規模語義媒體生成模型的全光計算芯片。這篇論文被Science官方選為高光論文重點報道。

LightGen突破了光子計算領域的三大難題。其團隊基於多模光學建立了光學潛空間（Optical Latent Space, OLS），實現了全光學條件下的維度變化，並提出了一種不依賴標簽的訓練算法。同時，該團隊設計了高度集成的超表麵結構，通過三維封裝，在單芯片上集成了超過210萬個光子神經元。

LightGen在實驗中實現了多種先進生成式AI任務，包括無需圖像分塊的512512分辨率語義圖像生成、三維生成、視頻語義操控、風格遷移以及去噪處理等。

當在特定任務中達到與Stable Diffusion、StyleGAN、NeRF和VGG-19相當的性能時，LightGen的端到端計算速度、能效和計算密度分別達到了3.5710? TOPS、6.6410 TOPS/W和 2.6210 TOPS/mm，這三項指標均比英偉達A100芯片高出兩個數量級。

上海交通大學集成電路學院（信息與電子工程學院）陳一彤助理教授為這篇論文的第一作者及通訊作者。她長期致力於光計算領域的研究，其團隊曾提出全模擬光電芯片ACCEL，國際首次實測驗證了複雜智能任務中光計算的係統級算力優越性。2023年，她提出的PED光計算架構，被Science子刊稱為首個全光生成網絡。

陳一彤2019年本科畢業於清華大學錢學森班，2024年獲清華大學自動化係博士學位。

三大挑戰困住光子計算

集成規模、維度變化與訓練算法

學界認為，光子計算是重塑傳統計算範式最有潛力的方向之一。然而，目前大多數端到端的光子計算成果仍局限於判決類任務，例如圖像分類和元音識別等等，未能擴展到生成式AI模型領域。

是什麽限製了光子計算在生成式AI中的應用？LightGen團隊總結了三大原因：

首先，先進的生成式AI模型通常需要數百萬個神經元，以學習並嵌入足夠的信息用於高維生成。而現有集成光子計算芯片通常僅能集成數千甚至數十個神經元。

如果通過數字電路對光子芯片進行互連和複用，則會引入顯著的延遲和能耗，功耗甚至可能提升數個數量級，從而削弱光計算的優勢。

另一個關鍵挑戰是模擬光學信號的維度變化。生成模型需要合適的維度變化才能學到有用特征，但在純光學係統中信息是以連續光斑的形式存在的，不像電子信號那樣有明確的維度。

即使改變光子神經元的尺寸，也隻是改了調製方式，光斑本身仍然是連續的、理論上無限維的信號，因此在全光學係統裏很難精確定義或改變維度。

第三個挑戰是訓練算法。現有的分類型光子芯片通常依賴人工定義的輸出作為真實標簽進行優化。然而，生成式AI的目標通常是輸出此前並不存在的數據，因此光子生成芯片亟需一種不依賴預定義真實標簽的新型訓練算法。

02.

光學潛空間實現維度轉換

提出新算法BOGT告別標簽依賴

為解決上述問題，陳一彤領銜的研究團隊提出了LightGen。LightGen由光子編碼器、光學潛空間和光子生成器組成。

LightGen的整體思路其實和電子生成模型很像，但成功把編碼潛空間生成這套流程完全搬到了光學域裏。

光子編碼器由一係列集成衍射超表麵構成，麵積小於35mm，用於從高維圖像域中提取低維特征。

編碼後的光場通過耦合進入單模光纖陣列進行特征子采樣，通過同時利用光的幅度和相位進行編碼，使得光纖陣列中的光學潛空間含有豐富的信息。

由於單模光纖隻允許基模傳播，除基模外的其他模式無法耦合進入光學潛空間，因此，光學潛空間在全光學條件下完成了模擬光斑維度的轉換，而不是像傳統光子係統那樣隻是在無限維光場上做調製卻無法控製維度。

LightGen利用光斑所攜帶的複數信息來表征高維潛變量。光纖陣列中每一個單模光纖對應一個光斑，形成具有不同幅度和相位的高斯光斑陣列。

由此，LightGen在圖像域與光學潛域之間建立了橋梁。下圖展示了在以狗臉數據訓練的光學潛空間中均勻采樣得到的輸出結果。相近的光學潛空間值生成語義相似的圖像，而相距較遠的光學潛空間值生成語義差異明顯的對象，表明光學潛空間滿足連續性和自洽性，這是數學意義上潛空間進行合理生成所必需的特性。

光子編碼器將原始圖像嵌入到100維光學潛空間中，並通過t-SNE進行降維可視化，其分布如下圖所示。不同毛色的狗被成功聚類，說明光學潛空間能有效嵌入圖像中的細粒度特征。除前景外，背景特征（如草地與白色背景）也能被嵌入並區分。實驗結果表明，光學潛空間的功能與電子變分自編碼器（VAE）及-VAE相當。

在訓練方麵，LightGen團隊提出了一種基於貝葉斯思想的無監督訓練方法（BOGT），通過引入對語義數據概率分布的建模來提升生成質量，告別了對標簽的依賴。

03.

集成超210萬個光子神經元

計算速度比A100高兩個數量級

論文稱，LightGen能在高分辨率彩色圖像上執行語義生成、去噪和風格遷移等多種任務。

下圖展示了針對動物類別的實驗生成結果。LightGen可生成512512分辨率的動物圖像，涵蓋不同類別、顏色、表情和背景。放大區域顯示了豐富細節，如毛發紋理和眼睛反射光。

研究團隊還對生成圖像的特征進行了定量分析，結果顯示其分類準確率與真實測試數據相當，表明LightGen生成的數據在整體和細節特征上均接近自然數據。

LightGen在語義去噪方麵同樣表現突出。自由空間模式與單模光纖基模之間的信息容量差異，使得LightGen在壞匹配像素比例（PBMP）較高的前提下，仍能有效去噪。

LightGen的另一大優勢是無需將高分辨率圖像切分為小塊進行處理。通過三維封裝，LightGen集成了超過210萬個光子神經元，可直接處理512512分辨率的圖像。

在風格遷移任務中，LightGen成功實現了印象派（梵高風格）、金屬風格（馬列維奇風格）和馬賽克風格等多種轉換，其定性與定量性能均可與VGG-19、StyleGAN和StyleID等相媲美。

與基於分塊的方法相比，LightGen在處理全局結構和連續曲線方麵具有顯著優勢，避免了塊間不連續和結構破壞的問題。

LightGen還可從二維擴展至三維生成與語義操控，用於生成高分辨率圖像和視頻。

在室內場景中，LightGen可生成包含多種家具的256256分辨率圖像。通過二維投影訓練，LightGen無監督地學習了物體的三維結構及其在光學潛空間中的表示，性能可與NeRF相當。通過操控光學潛空間，LightGen可生成不同風格和視角的三維家具，在定性和PSNR指標上均與NeRF相當。

此外，光學潛空間中的潛變量直接對應生成對象的物理特征，使得語義操控具有良好的可解釋性。實驗表明，LightGen能在不幹擾其他部分的情況下，精確操控目標特征。

研究團隊將LightGen與最先進的電子和光子芯片在生成任務中的性能進行了對比。在保守估計下，LightGen在實驗中實現了3.5710? TOPS的計算速度、6.6410 TOPS/W的能效和2.6210 TOPS/mm的計算密度，均比NVIDIA A100高出兩個數量級以上。若采用更高速的空間光調製器，其理論計算速度可達5.6910? TOPS。

04.

結語：解決光子生成芯片三大瓶頸

未來可擴展至更高分辨率

LightGen同時突破了光子生成芯片的三個關鍵瓶頸：集成規模、全光學維度變換和訓練算法。三維封裝方案解決了集成規模問題，光學潛空間實現了全光學維度變換，而BOGT解決了對標簽的依賴。

研究團隊認為，通過直接增加超表麵的像素數和層數、提高光學潛空間的維度或以分塊生成的方式，LightGen可以進一步擴展到更高的處理分辨率。增加超表麵規模通常會提升係統整體計算速度，因為總操作數增加，但這也需要更多的入射能量來維持足夠的計算精度。

[ 打印 ]

[ 加入書簽 ]

閱讀 () ┆ 評論

評論

目前還沒有任何評論

登錄後才可評論.