
全球首個大規模全光生成式AI芯片,來自中國!
芯東西12月19日報道,今天,國際頂級學術期刊《科學(Science)》刊登了一項來自上海交通大學的最新研究All-optical synthesis chip for large-scale intelligent semantic vision generation(大規模智能語義視覺生成全光芯片)。這項研究是新一代算力芯片領域的重大突破,首次實現了支持大規模語義媒體生成模型的全光計算芯片。這篇論文被Science官方選為高光論文重點報道。
LightGen在實驗中實現了多種先進生成式AI任務,包括無需圖像分塊的512512分辨率語義圖像生成、三維生成、視頻語義操控、風格遷移以及去噪處理等。
當在特定任務中達到與Stable Diffusion、StyleGAN、NeRF和VGG-19相當的性能時,LightGen的端到端計算速度、能效和計算密度分別達到了3.5710? TOPS、6.6410 TOPS/W和 2.6210 TOPS/mm,這三項指標均比英偉達A100芯片高出兩個數量級。
上海交通大學集成電路學院(信息與電子工程學院)陳一彤助理教授為這篇論文的第一作者及通訊作者。她長期致力於光計算領域的研究,其團隊曾提出全模擬光電芯片ACCEL,國際首次實測驗證了複雜智能任務中光計算的係統級算力優越性。2023年,她提出的PED光計算架構,被Science子刊稱為首個全光生成網絡。
陳一彤2019年本科畢業於清華大學錢學森班,2024年獲清華大學自動化係博士學位。
為解決上述問題,陳一彤領銜的研究團隊提出了LightGen。LightGen由光子編碼器、光學潛空間和光子生成器組成。
編碼後的光場通過耦合進入單模光纖陣列進行特征子采樣,通過同時利用光的幅度和相位進行編碼,使得光纖陣列中的光學潛空間含有豐富的信息。
由此,LightGen在圖像域與光學潛域之間建立了橋梁。下圖展示了在以狗臉數據訓練的光學潛空間中均勻采樣得到的輸出結果。相近的光學潛空間值生成語義相似的圖像,而相距較遠的光學潛空間值生成語義差異明顯的對象,表明光學潛空間滿足連續性和自洽性,這是數學意義上潛空間進行合理生成所必需的特性。
光子編碼器將原始圖像嵌入到100維光學潛空間中,並通過t-SNE進行降維可視化,其分布如下圖所示。不同毛色的狗被成功聚類,說明光學潛空間能有效嵌入圖像中的細粒度特征。除前景外,背景特征(如草地與白色背景)也能被嵌入並區分。實驗結果表明,光學潛空間的功能與電子變分自編碼器(VAE)及-VAE相當。
下圖展示了針對動物類別的實驗生成結果。LightGen可生成512512分辨率的動物圖像,涵蓋不同類別、顏色、表情和背景。放大區域顯示了豐富細節,如毛發紋理和眼睛反射光。
研究團隊還對生成圖像的特征進行了定量分析,結果顯示其分類準確率與真實測試數據相當,表明LightGen生成的數據在整體和細節特征上均接近自然數據。
LightGen在語義去噪方麵同樣表現突出。自由空間模式與單模光纖基模之間的信息容量差異,使得LightGen在壞匹配像素比例(PBMP)較高的前提下,仍能有效去噪。
在風格遷移任務中,LightGen成功實現了印象派(梵高風格)、金屬風格(馬列維奇風格)和馬賽克風格等多種轉換,其定性與定量性能均可與VGG-19、StyleGAN和StyleID等相媲美。
與基於分塊的方法相比,LightGen在處理全局結構和連續曲線方麵具有顯著優勢,避免了塊間不連續和結構破壞的問題。
在室內場景中,LightGen可生成包含多種家具的256256分辨率圖像。通過二維投影訓練,LightGen無監督地學習了物體的三維結構及其在光學潛空間中的表示,性能可與NeRF相當。通過操控光學潛空間,LightGen可生成不同風格和視角的三維家具,在定性和PSNR指標上均與NeRF相當。