ChatGPT 引發的革命性創新來自於Google 的 Transformer architecture large language model. 其革命性來源於 一個嶄新的attention model。現在所有人都轉向transformer 的 attention model. 在這之前,是 Recurrent neural networks (RNNs) 主導,那麽是誰第一個有了attention model的想法呢,是這位:
Jakob Uszkoreit :畢業於Technische Universität Berlin,柏林技術大學。沒有 PhD 學位。在Google做Intern,然後在Google工作時憑直覺覺得 attention 比RNNs 更快,更有效,更適合並行運算。第一篇 attention model的論文四位作者(按論文排名):
Ankur Parikh: 印度人,本科:Princeton CS;PhD:CMU Machine Learning
Oscar Täckström:瑞典人,本科:Stockholm大學 哲學;PhD: Uppsala大學,CS
Dipanjan Das:印度人,本科:CMU CS。PhD:CMU CS Language Technologies
Jakob Uszkoreit:德國人,本科:柏林技術大學 CS
他們把attention model 運用在 語言翻譯上,完勝 RNNs
Jakob Uszkoreit認為attention 不僅僅可以在語言上,更可以在AGI上,於是下麵8人合作發表了著名的“Attention is all you need" 一文,這篇文章被譽為 改變AI曆史的文章:
Jakob Uszkoreit:德國人,本科:柏林技術大學 CS
Noam Shazeer: 祖上德國猶太人,出生在費城,本科:Duke CS。此人重寫了整個 transformer 程序
Lukasz Kaiser 波蘭人,本科 Wroclaw大學 CS,PhD 亞琛工業大學 CS,OpenAI ChatGPT核心人物
Illia Polosukhin: 烏克蘭人,本科:烏克蘭國立技術大學 CS+應用數學
Ashish Vaswani 印度人,PhD USC CS
Llion Jones 威爾士人,本科 Birmingham 大學 CS
Niki Parmar 印度人,Master of Science USC CS (和Ashish Vaswani是一對)
Aidan Gomez 加拿大人/英國人,本科:多倫多大學 CS 是Kaiser的intern,後來讀的PhD:牛津大學 CS
我的幾點觀察:
1)幾乎沒有一個美國人,但工作是在美國做的。
2) 幾乎都是 CS 專業。 做ML的兩類人,一類學CS的,另一類學統計的。做transformer全是學CS的
3)靈魂人物Uszkoreit,Shazeer,Polosukhin,Kaiser都是歐洲人
4)沒多少名牌大學
5)印度人善於參與
6)一半PhD,一半沒有PhD,靈魂人物Uszkoreit,Polosukhin,Shazeer都是本科。八人中隻有2個PhD,Gomez當時是實習生,後來去牛津讀 PhD。
7)Internship 也能成大事,Aidan Gomez作為一個在Google的實習生,也因此世界聞名
當今最偉大的創新就是這些人製造的,Attention模型革命性超過ChatGPT,因為ChatGPT隻是利用Transformer的一個例子,transfomer還用在 Gemini 等等其他大語言模型,以及圖像視頻AGI(比Text文本更複雜)