國內的文章,但已經被404了
=============================
ChatGPT編年史
我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5係列模型,我們以最具代表性的論文、模型、API為主線,梳理到今天。
2020之前
-
2017年6月,Google發布Transformer論文。
-
2017年6月,7月,OpenAI發布人類喜好的強化學習算法、PPO算法,都是ChatGPT用到的算法。
-
2018年6月,OpenAI發布GPT-1.
-
2018年11月,Google發布BERT,此後NLP領域主要基於這個框架研究下遊任務。
-
2019年2月,OpenAI發布GPT-2,OpenAI獲得了自信,此後專注於GPT.
2020年
-
年初,Covid-19爆發。中國閉關。
-
1月,OpenAI發布語言模型的Scaling Law(概念:模型能力跟參數規模、數據規模強相關),OpenAI獲得了在數據和參數規模上Scaling-up的信心。
-
5月,GPT-3論文發布。
-
6月,GPT-3 API發布。
-
9月,ChatGPT的關鍵原型算法相關論文發布。
-
12月,歐洲機構發布用於GPT-3複現的開源數據集。
2021年
-
7月,OpenAI發布Copilot原型算法。
-
8月,Codex API發布。
-
11月,GPT-3 API Public Release,不對中國開放。
-
中國閉關。
2022年
-
1月,GPT-3.5 API (text-davinci-002)發布,該模型經過Github代碼的訓練加持,推理能力顯著提升(該假設的因果關係待學術界論證),經過Alignment技術的加持,Follow人類指令的能力顯著提升,輸出結果有用性和無害性顯著提升。
-
3月,GPT-3.5論文發布,公開Alignment算法。
-
5月,OpenAI Codex已經被70個應用使用,包括微軟收購的Github的Copilot.
-
8月,Stability AI開源StableDiffusion,文生圖的算法的效果可用、速度可行、代碼開源同時發生,引爆圖片生成。一時間,在中國,AIGC似乎就是圖片生成的代名詞。
-
9月,Sequoia Capital發布Generative AI: A Creative New World博客。
-
中國研究人員和開發者,沒有OpenAI的API權限。但圖片生成卻人人都可以嚐試,於是互聯網似乎隻注意到了圖片生成,對GPT大語言模型的關注度進一步下降。
-
經過接近一年的API接入和UI探索、近一年的思維鏈(Chain of Thought)等Prompt Engineering技術試錯、模型加速等技術(如Flash Attention、Fixed-Point)帶來的成本和延遲下降,GPT-3.5的模型潛力得到開發(變得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成類公司的產品逐漸成熟。
-
11月,OpenAI發布GPT3.5 API的新模型(text-davinci-003).
-
12月1日,ChatGPT發布。Musk等名流開始談論ChatGPT,引爆英文互聯網。
-
12月初,中國互聯網的自媒體逐漸開始討論ChatGPT,主要以翻譯twitter的方式。知乎上有學者開始反思。一周後,關注指數下降,兩個月來隻剩下AI自媒體把ChatGPT作為自己的主要關注內容。
-
中國閉關。
2023年
-
1月,微軟宣布投資OpenAI數十億美元,並將GPT加入全家桶。
-
2月,中國春節結束,微軟和Google你方唱罷我登場,納斯達克財報季,AI被反複提起。中國互聯網是認識微軟的,ChatGPT引爆中國互聯網,關注指數飆升。
-
中國開放。
值得注意的是,中國因為疫情閉關的三年,正是OpenAI的GPT發展、壯大、產品化的三年。
我們如何錯過GPT盛宴?
曆史回顧完了,那麽為什麽我們(中國,尤其是AI社區)沒有更早地意識到,OpenAI技術在應用層麵的突破性?
意識到問題需要同時具備哪些條件:
-
能夠看且懂OpenAI、DeepMind、Google等機構的論文(代表人群:研究員)
-
能夠使用OpenAI的API探索論文裏的模型 (代表人群:研究員裏的嚐鮮者)
-
對矽穀的敏感性,經常看大家在用OpenAI的API做什麽產品 (代表人群:VC)
這三類人在中國,我們粗估一下,第一類,大概有1/100,000,第二類大概是第一類裏的1/1,000,第三類大概是1/1,000,000. 三個條件,缺少一個,都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人,並且他們有充分的碰撞?有哪個人是具備了這三種屬性? 雪上加霜的是,研究人員三年來被封在國內,沒有出國參加過學術會議交流,甚至我猜很多人連線上會議都沒有參加,很多東西我們從論文上是看不到的。
我們繼續深挖。第一類人群中,又分成NLP(自然語言處理)研究人員,其他AI研究人員(比如計算機視覺、語音識別、機器學習)。
中國NLP的研究群體裏,基本上是把語言模型(尤其是BERT,而不是GPT)拿去應用在NLP的各種下遊任務上,在學術界就是刷榜發論文,在工業界,就是拿去做客服機器人、寫稿機器人、角色扮演機器人,研究方法也完全不同於GPT精髓——Scaling-up和Alignment。(幾乎)沒有人是把大語言模型(LLM)當做通用人工智能(AGI)的一種可能性來研究的。
其他AI研究人員,比如計算機視覺,大部分人還是專注在圖像上,即使是用Transformer,也是解決圖像的問題,比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭,以獨立研究員的身份,投身於大語言模型。
Karpathy曾經說他過去十年癡迷於AI中取得最快進展的方向,並且曾經對語言模型非常感興趣,但是卻忽視了scaling up的力量,那就是簡單的Objective(next word)+簡單的結構(Transformer)+ 足夠的參數+足夠的數據(web text),一個語言模型可以湧現出在小規模狀態下看不到的能力,他曾像其他人一樣(他應該指早期的OpenAI),一度以為強化學習是AGI的路徑,到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前,語言模型的研究人員,把精力過多地放在了具體任務上。
再說AI領域的另一個重要群體——計算機視覺(Computer Vision)群體。在2012年開始的深度學習浪潮裏,計算機視覺一直是應用最廣、商業化最成功的方向,吸引了太多AI研究員的精力,從圖像分類、檢測、分割到識別,從圖像到視頻,從高層視覺到底層視覺,我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架,被迭代到原作者都放棄了,還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛,它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持,從CNN時代到Transformer時代,不斷地拉更多的人下水,但直到今天,全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的,自動駕駛是一個real-world AI問題,但顯然特斯拉的方案並沒有為全自動駕駛準備好。
NLP圈的小家碧玉,CV圈的隔行隔山,疫情閉關三年,互聯網信息不通。這些因素疊加起來,整個中文世界,形成了一個信息繭房。10年來,我們以為自己積攢的AI算法、數據、應用的優勢,如今變成中美巨大的鴻溝。這個時候,我們甚至沒有一個新聞調查,把這件事的來龍去脈,挖它個底朝天。
另一個問題是,我們的中文互聯網不足以提供高質量的訓練數據。什麽是高質量的數據?比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。
我們看看GPT–3的訓練數據是什麽。權重最大的數據集是OpenWebText(開源版本),數據是從Reddit論壇上收集的URL,再把內容抓取下來。Common Crawl是一個開放的互聯網數據存檔(英文占一半,中文大概5%)。其他一些代表性的數據包括Wikipedia維基百科,Books開放圖書,Stack Exchange技術問答社區,Github 代碼,ArXiv論文,RealNew新聞存檔,PubMed醫療數據。可以看到,由中文互聯網產生的數據,比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題,但實際上,ChatGPT的用中文溝通的能力,已經遠超那些專門的中文大語言模型了,背後原因是GPT隱式學到的翻譯能力。
沒有好的中文數據,我們就隻能搭全球互聯網的數據順風車。上麵這些優質數據的產生,需要開放的社區,我們似乎無解。
GPT大語言模型能實現AGI嗎?
基於GPT的LLM,僅僅依賴語言,大概率無法實現AGI,而隻是”通往AGI的高速公路的一個出口(Yann Lecun)“。但LLM足以把互聯網基礎設施搞個天翻地覆,它同時具備了Logic和Memory。Logic是推理能力,Memory是對高頻知識的記憶,顯然Memory可以分為片上和片外,片上有限,片外無限。下一步,我們隻需要專注於把LLM的Logic推到極致,把大部分低頻Memory offload到模型以外,配以搜索等查詢技術,就可以實現對整個互聯網前後端的重構。我們遠遠沒有吃盡scaling-law的紅利,限製我們的,隻有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。
集成電路方麵,以Chiplet為代表的係統摩爾定律還不夠,人們需要能夠scaling-up的Foundry。
能源方麵,太陽能和風能 + 能源存儲能夠解決很多問題,更加激動人心的是以Helion為代表的核聚變技術,則有機會把能源價格降低一個量級,然後更多。
數據方麵,目前的GPT模型依賴互聯網文本數據,這會用盡,沒關係,現實世界的數據是無限的。
連載話題預告
今天先寫到這兒。
計劃中:
-
OpenAI的故事
-
AI Alignment
-
AI與資本主義
-
AI與教育
-
AGI時代的人
By 紅博士, 2023年2月8日
我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5係列模型,我們以最具代表性的論文、模型、API為主線,梳理到今天。
2020之前
-
2017年6月,Google發布Transformer論文。
-
2017年6月,7月,OpenAI發布人類喜好的強化學習算法、PPO算法,都是ChatGPT用到的算法。
-
2018年6月,OpenAI發布GPT-1.
-
2018年11月,Google發布BERT,此後NLP領域主要基於這個框架研究下遊任務。
-
2019年2月,OpenAI發布GPT-2,OpenAI獲得了自信,此後專注於GPT.
2020年
-
年初,Covid-19爆發。中國閉關。
-
1月,OpenAI發布語言模型的Scaling Law(概念:模型能力跟參數規模、數據規模強相關),OpenAI獲得了在數據和參數規模上Scaling-up的信心。
-
5月,GPT-3論文發布。
-
6月,GPT-3 API發布。
-
9月,ChatGPT的關鍵原型算法相關論文發布。
-
12月,歐洲機構發布用於GPT-3複現的開源數據集。
2021年
-
7月,OpenAI發布Copilot原型算法。
-
8月,Codex API發布。
-
11月,GPT-3 API Public Release,不對中國開放。
-
中國閉關。
2022年
-
1月,GPT-3.5 API (text-davinci-002)發布,該模型經過Github代碼的訓練加持,推理能力顯著提升(該假設的因果關係待學術界論證),經過Alignment技術的加持,Follow人類指令的能力顯著提升,輸出結果有用性和無害性顯著提升。
-
3月,GPT-3.5論文發布,公開Alignment算法。
-
5月,OpenAI Codex已經被70個應用使用,包括微軟收購的Github的Copilot.
-
8月,Stability AI開源StableDiffusion,文生圖的算法的效果可用、速度可行、代碼開源同時發生,引爆圖片生成。一時間,在中國,AIGC似乎就是圖片生成的代名詞。
-
9月,Sequoia Capital發布Generative AI: A Creative New World博客。
-
中國研究人員和開發者,沒有OpenAI的API權限。但圖片生成卻人人都可以嚐試,於是互聯網似乎隻注意到了圖片生成,對GPT大語言模型的關注度進一步下降。
-
經過接近一年的API接入和UI探索、近一年的思維鏈(Chain of Thought)等Prompt Engineering技術試錯、模型加速等技術(如Flash Attention、Fixed-Point)帶來的成本和延遲下降,GPT-3.5的模型潛力得到開發(變得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成類公司的產品逐漸成熟。
-
11月,OpenAI發布GPT3.5 API的新模型(text-davinci-003).
-
12月1日,ChatGPT發布。Musk等名流開始談論ChatGPT,引爆英文互聯網。
-
12月初,中國互聯網的自媒體逐漸開始討論ChatGPT,主要以翻譯twitter的方式。知乎上有學者開始反思。一周後,關注指數下降,兩個月來隻剩下AI自媒體把ChatGPT作為自己的主要關注內容。
-
中國閉關。
2023年
-
1月,微軟宣布投資OpenAI數十億美元,並將GPT加入全家桶。
-
2月,中國春節結束,微軟和Google你方唱罷我登場,納斯達克財報季,AI被反複提起。中國互聯網是認識微軟的,ChatGPT引爆中國互聯網,關注指數飆升。
-
中國開放。
值得注意的是,中國因為疫情閉關的三年,正是OpenAI的GPT發展、壯大、產品化的三年。
我們如何錯過GPT盛宴?
曆史回顧完了,那麽為什麽我們(中國,尤其是AI社區)沒有更早地意識到,OpenAI技術在應用層麵的突破性?
意識到問題需要同時具備哪些條件:
-
能夠看且懂OpenAI、DeepMind、Google等機構的論文(代表人群:研究員)
-
能夠使用OpenAI的API探索論文裏的模型 (代表人群:研究員裏的嚐鮮者)
-
對矽穀的敏感性,經常看大家在用OpenAI的API做什麽產品 (代表人群:VC)
這三類人在中國,我們粗估一下,第一類,大概有1/100,000,第二類大概是第一類裏的1/1,000,第三類大概是1/1,000,000. 三個條件,缺少一個,都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人,並且他們有充分的碰撞?有哪個人是具備了這三種屬性? 雪上加霜的是,研究人員三年來被封在國內,沒有出國參加過學術會議交流,甚至我猜很多人連線上會議都沒有參加,很多東西我們從論文上是看不到的。
我們繼續深挖。第一類人群中,又分成NLP(自然語言處理)研究人員,其他AI研究人員(比如計算機視覺、語音識別、機器學習)。
中國NLP的研究群體裏,基本上是把語言模型(尤其是BERT,而不是GPT)拿去應用在NLP的各種下遊任務上,在學術界就是刷榜發論文,在工業界,就是拿去做客服機器人、寫稿機器人、角色扮演機器人,研究方法也完全不同於GPT精髓——Scaling-up和Alignment。(幾乎)沒有人是把大語言模型(LLM)當做通用人工智能(AGI)的一種可能性來研究的。
其他AI研究人員,比如計算機視覺,大部分人還是專注在圖像上,即使是用Transformer,也是解決圖像的問題,比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭,以獨立研究員的身份,投身於大語言模型。
Karpathy曾經說他過去十年癡迷於AI中取得最快進展的方向,並且曾經對語言模型非常感興趣,但是卻忽視了scaling up的力量,那就是簡單的Objective(next word)+簡單的結構(Transformer)+ 足夠的參數+足夠的數據(web text),一個語言模型可以湧現出在小規模狀態下看不到的能力,他曾像其他人一樣(他應該指早期的OpenAI),一度以為強化學習是AGI的路徑,到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前,語言模型的研究人員,把精力過多地放在了具體任務上。
再說AI領域的另一個重要群體——計算機視覺(Computer Vision)群體。在2012年開始的深度學習浪潮裏,計算機視覺一直是應用最廣、商業化最成功的方向,吸引了太多AI研究員的精力,從圖像分類、檢測、分割到識別,從圖像到視頻,從高層視覺到底層視覺,我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架,被迭代到原作者都放棄了,還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛,它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持,從CNN時代到Transformer時代,不斷地拉更多的人下水,但直到今天,全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的,自動駕駛是一個real-world AI問題,但顯然特斯拉的方案並沒有為全自動駕駛準備好。
NLP圈的小家碧玉,CV圈的隔行隔山,疫情閉關三年,互聯網信息不通。這些因素疊加起來,整個中文世界,形成了一個信息繭房。10年來,我們以為自己積攢的AI算法、數據、應用的優勢,如今變成中美巨大的鴻溝。這個時候,我們甚至沒有一個新聞調查,把這件事的來龍去脈,挖它個底朝天。
另一個問題是,我們的中文互聯網不足以提供高質量的訓練數據。什麽是高質量的數據?比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。
我們看看GPT–3的訓練數據是什麽。權重最大的數據集是OpenWebText(開源版本),數據是從Reddit論壇上收集的URL,再把內容抓取下來。Common Crawl是一個開放的互聯網數據存檔(英文占一半,中文大概5%)。其他一些代表性的數據包括Wikipedia維基百科,Books開放圖書,Stack Exchange技術問答社區,Github 代碼,ArXiv論文,RealNew新聞存檔,PubMed醫療數據。可以看到,由中文互聯網產生的數據,比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題,但實際上,ChatGPT的用中文溝通的能力,已經遠超那些專門的中文大語言模型了,背後原因是GPT隱式學到的翻譯能力。
沒有好的中文數據,我們就隻能搭全球互聯網的數據順風車。上麵這些優質數據的產生,需要開放的社區,我們似乎無解。
GPT大語言模型能實現AGI嗎?
基於GPT的LLM,僅僅依賴語言,大概率無法實現AGI,而隻是”通往AGI的高速公路的一個出口(Yann Lecun)“。但LLM足以把互聯網基礎設施搞個天翻地覆,它同時具備了Logic和Memory。Logic是推理能力,Memory是對高頻知識的記憶,顯然Memory可以分為片上和片外,片上有限,片外無限。下一步,我們隻需要專注於把LLM的Logic推到極致,把大部分低頻Memory offload到模型以外,配以搜索等查詢技術,就可以實現對整個互聯網前後端的重構。我們遠遠沒有吃盡scaling-law的紅利,限製我們的,隻有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。
集成電路方麵,以Chiplet為代表的係統摩爾定律還不夠,人們需要能夠scaling-up的Foundry。
能源方麵,太陽能和風能 + 能源存儲能夠解決很多問題,更加激動人心的是以Helion為代表的核聚變技術,則有機會把能源價格降低一個量級,然後更多。
數據方麵,目前的GPT模型依賴互聯網文本數據,這會用盡,沒關係,現實世界的數據是無限的。
連載話題預告
今天先寫到這兒。
計劃中:
-
OpenAI的故事
-
AI Alignment
-
AI與資本主義
-
AI與教育
-
AGI時代的人
By 紅博士, 2023年2月8日