ChatGPT編年史

來源: 未完的歌 2023-02-10 04:37:52 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (22342 bytes)

國內的文章,但已經被404了

=============================

ChatGPT編年史

我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5係列模型,我們以最具代表性的論文、模型、API為主線,梳理到今天。

2020之前

  • 2017年6月,Google發布Transformer論文。

  • 2017年6月,7月,OpenAI發布人類喜好的強化學習算法、PPO算法,都是ChatGPT用到的算法。

  • 2018年6月,OpenAI發布GPT-1.

  • 2018年11月,Google發布BERT,此後NLP領域主要基於這個框架研究下遊任務。

  • 2019年2月,OpenAI發布GPT-2,OpenAI獲得了自信,此後專注於GPT.

2020年

  • 年初,Covid-19爆發。中國閉關

  • 1月,OpenAI發布語言模型的Scaling Law(概念:模型能力跟參數規模、數據規模強相關),OpenAI獲得了在數據和參數規模上Scaling-up的信心。

  • 5月,GPT-3論文發布。

  • 6月,GPT-3 API發布

  • 9月,ChatGPT的關鍵原型算法相關論文發布。

  • 12月,歐洲機構發布用於GPT-3複現的開源數據集。

2021年

  • 7月,OpenAI發布Copilot原型算法。

  • 8月,Codex API發布。

  • 11月,GPT-3 API Public Release,不對中國開放

  • 中國閉關

2022年

  • 1月,GPT-3.5 API (text-davinci-002)發布,該模型經過Github代碼的訓練加持,推理能力顯著提升(該假設的因果關係待學術界論證),經過Alignment技術的加持,Follow人類指令的能力顯著提升,輸出結果有用性和無害性顯著提升。

  • 3月,GPT-3.5論文發布,公開Alignment算法。

  • 5月,OpenAI Codex已經被70個應用使用,包括微軟收購的Github的Copilot.

  • 8月,Stability AI開源StableDiffusion,文生圖的算法的效果可用、速度可行、代碼開源同時發生,引爆圖片生成。一時間,在中國,AIGC似乎就是圖片生成的代名詞。

  • 9月,Sequoia Capital發布Generative AI: A Creative New World博客。

  • 中國研究人員和開發者,沒有OpenAI的API權限。但圖片生成卻人人都可以嚐試,於是互聯網似乎隻注意到了圖片生成,對GPT大語言模型的關注度進一步下降。

  • 經過接近一年的API接入和UI探索、近一年的思維鏈(Chain of Thought)等Prompt Engineering技術試錯、模型加速等技術(如Flash Attention、Fixed-Point)帶來的成本和延遲下降,GPT-3.5的模型潛力得到開發(變得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成類公司的產品逐漸成熟。

  • 11月,OpenAI發布GPT3.5 API的新模型(text-davinci-003).

  • 12月1日,ChatGPT發布。Musk等名流開始談論ChatGPT,引爆英文互聯網。

  • 12月初,中國互聯網的自媒體逐漸開始討論ChatGPT,主要以翻譯twitter的方式。知乎上有學者開始反思。一周後,關注指數下降,兩個月來隻剩下AI自媒體把ChatGPT作為自己的主要關注內容。

  • 中國閉關

2023年

  • 1月,微軟宣布投資OpenAI數十億美元,並將GPT加入全家桶。

  • 2月,中國春節結束,微軟和Google你方唱罷我登場,納斯達克財報季,AI被反複提起。中國互聯網是認識微軟的,ChatGPT引爆中國互聯網,關注指數飆升。

  • 中國開放

值得注意的是,中國因為疫情閉關的三年,正是OpenAI的GPT發展、壯大、產品化的三年。

我們如何錯過GPT盛宴?

曆史回顧完了,那麽為什麽我們(中國,尤其是AI社區)沒有更早地意識到,OpenAI技術在應用層麵的突破性?

意識到問題需要同時具備哪些條件:

  1. 能夠看且懂OpenAI、DeepMind、Google等機構的論文(代表人群:研究員)

  2. 能夠使用OpenAI的API探索論文裏的模型 (代表人群:研究員裏的嚐鮮者)

  3. 對矽穀的敏感性,經常看大家在用OpenAI的API做什麽產品 (代表人群:VC)

這三類人在中國,我們粗估一下,第一類,大概有1/100,000,第二類大概是第一類裏的1/1,000,第三類大概是1/1,000,000. 三個條件,缺少一個,都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人,並且他們有充分的碰撞?有哪個人是具備了這三種屬性? 雪上加霜的是,研究人員三年來被封在國內,沒有出國參加過學術會議交流,甚至我猜很多人連線上會議都沒有參加,很多東西我們從論文上是看不到的。

我們繼續深挖。第一類人群中,又分成NLP(自然語言處理)研究人員,其他AI研究人員(比如計算機視覺、語音識別、機器學習)。

中國NLP的研究群體裏,基本上是把語言模型(尤其是BERT,而不是GPT)拿去應用在NLP的各種下遊任務上,在學術界就是刷榜發論文,在工業界,就是拿去做客服機器人、寫稿機器人、角色扮演機器人,研究方法也完全不同於GPT精髓——Scaling-up和Alignment。(幾乎)沒有人是把大語言模型(LLM)當做通用人工智能(AGI)的一種可能性來研究的。

其他AI研究人員,比如計算機視覺,大部分人還是專注在圖像上,即使是用Transformer,也是解決圖像的問題,比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭,以獨立研究員的身份,投身於大語言模型。

Karpathy曾經說他過去十年癡迷於AI中取得最快進展的方向,並且曾經對語言模型非常感興趣,但是卻忽視了scaling up的力量,那就是簡單的Objective(next word)+簡單的結構(Transformer)+ 足夠的參數+足夠的數據(web text),一個語言模型可以湧現出在小規模狀態下看不到的能力,他曾像其他人一樣(他應該指早期的OpenAI),一度以為強化學習是AGI的路徑,到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前,語言模型的研究人員,把精力過多地放在了具體任務上。

再說AI領域的另一個重要群體——計算機視覺(Computer Vision)群體。在2012年開始的深度學習浪潮裏,計算機視覺一直是應用最廣、商業化最成功的方向,吸引了太多AI研究員的精力,從圖像分類、檢測、分割到識別,從圖像到視頻,從高層視覺到底層視覺,我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架,被迭代到原作者都放棄了,還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛,它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持,從CNN時代到Transformer時代,不斷地拉更多的人下水,但直到今天,全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的,自動駕駛是一個real-world AI問題,但顯然特斯拉的方案並沒有為全自動駕駛準備好。

NLP圈的小家碧玉,CV圈的隔行隔山,疫情閉關三年,互聯網信息不通。這些因素疊加起來,整個中文世界,形成了一個信息繭房。10年來,我們以為自己積攢的AI算法、數據、應用的優勢,如今變成中美巨大的鴻溝。這個時候,我們甚至沒有一個新聞調查,把這件事的來龍去脈,挖它個底朝天。

另一個問題是,我們的中文互聯網不足以提供高質量的訓練數據。什麽是高質量的數據?比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。

我們看看GPT–3的訓練數據是什麽。權重最大的數據集是OpenWebText(開源版本),數據是從Reddit論壇上收集的URL,再把內容抓取下來。Common Crawl是一個開放的互聯網數據存檔(英文占一半,中文大概5%)。其他一些代表性的數據包括Wikipedia維基百科,Books開放圖書,Stack Exchange技術問答社區,Github 代碼,ArXiv論文,RealNew新聞存檔,PubMed醫療數據。可以看到,由中文互聯網產生的數據,比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題,但實際上,ChatGPT的用中文溝通的能力,已經遠超那些專門的中文大語言模型了,背後原因是GPT隱式學到的翻譯能力。

沒有好的中文數據,我們就隻能搭全球互聯網的數據順風車。上麵這些優質數據的產生,需要開放的社區,我們似乎無解。

GPT大語言模型能實現AGI嗎?

基於GPT的LLM,僅僅依賴語言,大概率無法實現AGI,而隻是”通往AGI的高速公路的一個出口(Yann Lecun)“。但LLM足以把互聯網基礎設施搞個天翻地覆,它同時具備了Logic和Memory。Logic是推理能力,Memory是對高頻知識的記憶,顯然Memory可以分為片上和片外,片上有限,片外無限。下一步,我們隻需要專注於把LLM的Logic推到極致,把大部分低頻Memory offload到模型以外,配以搜索等查詢技術,就可以實現對整個互聯網前後端的重構。我們遠遠沒有吃盡scaling-law的紅利,限製我們的,隻有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。

集成電路方麵,以Chiplet為代表的係統摩爾定律還不夠,人們需要能夠scaling-up的Foundry。

能源方麵,太陽能和風能 + 能源存儲能夠解決很多問題,更加激動人心的是以Helion為代表的核聚變技術,則有機會把能源價格降低一個量級,然後更多。

數據方麵,目前的GPT模型依賴互聯網文本數據,這會用盡,沒關係,現實世界的數據是無限的。

連載話題預告

今天先寫到這兒。

計劃中:

  • OpenAI的故事

  • AI Alignment

  • AI與資本主義

  • AI與教育

  • AGI時代的人

By 紅博士, 2023年2月8日

我們來梳理一個時間軸。ChatGPT是對話式UI + GPT–3.5係列模型,我們以最具代表性的論文、模型、API為主線,梳理到今天。

2020之前

  • 2017年6月,Google發布Transformer論文。

  • 2017年6月,7月,OpenAI發布人類喜好的強化學習算法、PPO算法,都是ChatGPT用到的算法。

  • 2018年6月,OpenAI發布GPT-1.

  • 2018年11月,Google發布BERT,此後NLP領域主要基於這個框架研究下遊任務。

  • 2019年2月,OpenAI發布GPT-2,OpenAI獲得了自信,此後專注於GPT.

2020年

  • 年初,Covid-19爆發。中國閉關

  • 1月,OpenAI發布語言模型的Scaling Law(概念:模型能力跟參數規模、數據規模強相關),OpenAI獲得了在數據和參數規模上Scaling-up的信心。

  • 5月,GPT-3論文發布。

  • 6月,GPT-3 API發布

  • 9月,ChatGPT的關鍵原型算法相關論文發布。

  • 12月,歐洲機構發布用於GPT-3複現的開源數據集。

2021年

  • 7月,OpenAI發布Copilot原型算法。

  • 8月,Codex API發布。

  • 11月,GPT-3 API Public Release,不對中國開放

  • 中國閉關

2022年

  • 1月,GPT-3.5 API (text-davinci-002)發布,該模型經過Github代碼的訓練加持,推理能力顯著提升(該假設的因果關係待學術界論證),經過Alignment技術的加持,Follow人類指令的能力顯著提升,輸出結果有用性和無害性顯著提升。

  • 3月,GPT-3.5論文發布,公開Alignment算法。

  • 5月,OpenAI Codex已經被70個應用使用,包括微軟收購的Github的Copilot.

  • 8月,Stability AI開源StableDiffusion,文生圖的算法的效果可用、速度可行、代碼開源同時發生,引爆圖片生成。一時間,在中國,AIGC似乎就是圖片生成的代名詞。

  • 9月,Sequoia Capital發布Generative AI: A Creative New World博客。

  • 中國研究人員和開發者,沒有OpenAI的API權限。但圖片生成卻人人都可以嚐試,於是互聯網似乎隻注意到了圖片生成,對GPT大語言模型的關注度進一步下降。

  • 經過接近一年的API接入和UI探索、近一年的思維鏈(Chain of Thought)等Prompt Engineering技術試錯、模型加速等技術(如Flash Attention、Fixed-Point)帶來的成本和延遲下降,GPT-3.5的模型潛力得到開發(變得Better、Faster and Cheaper), Copy.ai, Jasper等文本生成類公司的產品逐漸成熟。

  • 11月,OpenAI發布GPT3.5 API的新模型(text-davinci-003).

  • 12月1日,ChatGPT發布。Musk等名流開始談論ChatGPT,引爆英文互聯網。

  • 12月初,中國互聯網的自媒體逐漸開始討論ChatGPT,主要以翻譯twitter的方式。知乎上有學者開始反思。一周後,關注指數下降,兩個月來隻剩下AI自媒體把ChatGPT作為自己的主要關注內容。

  • 中國閉關

2023年

  • 1月,微軟宣布投資OpenAI數十億美元,並將GPT加入全家桶。

  • 2月,中國春節結束,微軟和Google你方唱罷我登場,納斯達克財報季,AI被反複提起。中國互聯網是認識微軟的,ChatGPT引爆中國互聯網,關注指數飆升。

  • 中國開放

值得注意的是,中國因為疫情閉關的三年,正是OpenAI的GPT發展、壯大、產品化的三年。

我們如何錯過GPT盛宴?

曆史回顧完了,那麽為什麽我們(中國,尤其是AI社區)沒有更早地意識到,OpenAI技術在應用層麵的突破性?

意識到問題需要同時具備哪些條件:

  1. 能夠看且懂OpenAI、DeepMind、Google等機構的論文(代表人群:研究員)

  2. 能夠使用OpenAI的API探索論文裏的模型 (代表人群:研究員裏的嚐鮮者)

  3. 對矽穀的敏感性,經常看大家在用OpenAI的API做什麽產品 (代表人群:VC)

這三類人在中國,我們粗估一下,第一類,大概有1/100,000,第二類大概是第一類裏的1/1,000,第三類大概是1/1,000,000. 三個條件,缺少一個,都無法意識到OpenAI發展到哪一步了。有哪個團隊匯集了這三種人,並且他們有充分的碰撞?有哪個人是具備了這三種屬性? 雪上加霜的是,研究人員三年來被封在國內,沒有出國參加過學術會議交流,甚至我猜很多人連線上會議都沒有參加,很多東西我們從論文上是看不到的。

我們繼續深挖。第一類人群中,又分成NLP(自然語言處理)研究人員,其他AI研究人員(比如計算機視覺、語音識別、機器學習)。

中國NLP的研究群體裏,基本上是把語言模型(尤其是BERT,而不是GPT)拿去應用在NLP的各種下遊任務上,在學術界就是刷榜發論文,在工業界,就是拿去做客服機器人、寫稿機器人、角色扮演機器人,研究方法也完全不同於GPT精髓——Scaling-up和Alignment。(幾乎)沒有人是把大語言模型(LLM)當做通用人工智能(AGI)的一種可能性來研究的。

其他AI研究人員,比如計算機視覺,大部分人還是專注在圖像上,即使是用Transformer,也是解決圖像的問題,比如用Transformer來做自動駕駛、圖像生成等。即使是Tesla AutoPilot的AI主管Karpathy。Karpathy在2022年上半年從Tesla裸辭,以獨立研究員的身份,投身於大語言模型。

Karpathy曾經說他過去十年癡迷於AI中取得最快進展的方向,並且曾經對語言模型非常感興趣,但是卻忽視了scaling up的力量,那就是簡單的Objective(next word)+簡單的結構(Transformer)+ 足夠的參數+足夠的數據(web text),一個語言模型可以湧現出在小規模狀態下看不到的能力,他曾像其他人一樣(他應該指早期的OpenAI),一度以為強化學習是AGI的路徑,到頭來卻發現大語言模型是看起來最有希望的路徑。在此之前,語言模型的研究人員,把精力過多地放在了具體任務上。

再說AI領域的另一個重要群體——計算機視覺(Computer Vision)群體。在2012年開始的深度學習浪潮裏,計算機視覺一直是應用最廣、商業化最成功的方向,吸引了太多AI研究員的精力,從圖像分類、檢測、分割到識別,從圖像到視頻,從高層視覺到底層視覺,我們在卷積神經網絡上卷出了一個又一個新高度。一個YOLO目標檢測框架,被迭代到原作者都放棄了,還有人給推到了v7版本。最具代表性的是計算機視覺的登月工程——自動駕駛,它需要成像、識別、合成、建圖、規劃等幾乎所有的視覺AI技術加持,從CNN時代到Transformer時代,不斷地拉更多的人下水,但直到今天,全自動駕駛的方案仍未收斂。馬斯克定義的問題是對的,自動駕駛是一個real-world AI問題,但顯然特斯拉的方案並沒有為全自動駕駛準備好。

NLP圈的小家碧玉,CV圈的隔行隔山,疫情閉關三年,互聯網信息不通。這些因素疊加起來,整個中文世界,形成了一個信息繭房。10年來,我們以為自己積攢的AI算法、數據、應用的優勢,如今變成中美巨大的鴻溝。這個時候,我們甚至沒有一個新聞調查,把這件事的來龍去脈,挖它個底朝天。

另一個問題是,我們的中文互聯網不足以提供高質量的訓練數據。什麽是高質量的數據?比如維基百科、高質量的活躍論壇、專業新聞、學術論文、高質量代碼、圖書。

我們看看GPT–3的訓練數據是什麽。權重最大的數據集是OpenWebText(開源版本),數據是從Reddit論壇上收集的URL,再把內容抓取下來。Common Crawl是一個開放的互聯網數據存檔(英文占一半,中文大概5%)。其他一些代表性的數據包括Wikipedia維基百科,Books開放圖書,Stack Exchange技術問答社區,Github 代碼,ArXiv論文,RealNew新聞存檔,PubMed醫療數據。可以看到,由中文互聯網產生的數據,比例低到可以忽略。這也是困擾很多試圖訓練中文大模型的問題,但實際上,ChatGPT的用中文溝通的能力,已經遠超那些專門的中文大語言模型了,背後原因是GPT隱式學到的翻譯能力。

沒有好的中文數據,我們就隻能搭全球互聯網的數據順風車。上麵這些優質數據的產生,需要開放的社區,我們似乎無解。

GPT大語言模型能實現AGI嗎?

基於GPT的LLM,僅僅依賴語言,大概率無法實現AGI,而隻是”通往AGI的高速公路的一個出口(Yann Lecun)“。但LLM足以把互聯網基礎設施搞個天翻地覆,它同時具備了Logic和Memory。Logic是推理能力,Memory是對高頻知識的記憶,顯然Memory可以分為片上和片外,片上有限,片外無限。下一步,我們隻需要專注於把LLM的Logic推到極致,把大部分低頻Memory offload到模型以外,配以搜索等查詢技術,就可以實現對整個互聯網前後端的重構。我們遠遠沒有吃盡scaling-law的紅利,限製我們的,隻有集成電路的摩爾定律和製造能力、能源的價格、數據的獲取。

集成電路方麵,以Chiplet為代表的係統摩爾定律還不夠,人們需要能夠scaling-up的Foundry。

能源方麵,太陽能和風能 + 能源存儲能夠解決很多問題,更加激動人心的是以Helion為代表的核聚變技術,則有機會把能源價格降低一個量級,然後更多。

數據方麵,目前的GPT模型依賴互聯網文本數據,這會用盡,沒關係,現實世界的數據是無限的。

連載話題預告

今天先寫到這兒。

計劃中:

  • OpenAI的故事

  • AI Alignment

  • AI與資本主義

  • AI與教育

  • AGI時代的人

By 紅博士, 2023年2月8日

所有跟帖: 

Happy Friday! 早上好啊 -有個用戶名- 給 有個用戶名 發送悄悄話 (0 bytes) () 02/10/2023 postreply 05:25:40

早啊。這裏沒啥人聊這個,就到JT聊去了, LOL -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (22303 bytes) () 02/10/2023 postreply 06:06:33

我去逛早市看過了,你要珍惜古道啊 -有個用戶名- 給 有個用戶名 發送悄悄話 (0 bytes) () 02/10/2023 postreply 06:26:44

哇,你這個是史詩級的整理,嚴謹詳實,裏程碑,我們捧紅了GPT,以後會收費吧?簡直一定的:) -燕然山- 給 燕然山 發送悄悄話 (0 bytes) () 02/10/2023 postreply 05:30:42

GPT隻是通往AGI的一個入口,但迎接AGI的到來是不可避免的,也許會很快,一個大的技術革命通常是各種技術累計後, -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (42 bytes) () 02/10/2023 postreply 06:09:29

相當一段的時間不會。目前GPT需要廣域的大數據,眾人拾柴火焰高。使用者在支持GPT的進化/完善,直到它完成了質的飛躍。 -古樹羽音- 給 古樹羽音 發送悄悄話 古樹羽音 的博客首頁 (0 bytes) () 02/10/2023 postreply 23:47:47

將來在科技領域恐怕中國很多地方都會建立不同的體係,政治造成,沒有辦法的事情 -風過之無痕- 給 風過之無痕 發送悄悄話 風過之無痕 的博客首頁 (0 bytes) () 02/10/2023 postreply 08:15:49

“這些優質數據的產生,需要開放的社區,我們似乎無解” -未完的歌- 給 未完的歌 發送悄悄話 未完的歌 的博客首頁 (0 bytes) () 02/10/2023 postreply 08:20:16

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”