要點
- GPT-3模型是通過收集2021之前45TB文本數據訓練出來的。
- 這45TB文本數據不包括人類所有的知識,但以後會不斷地更新。
- 語言的生成是基於45TB文本數據,即便沒有答案,目前不會去互聯網上收索。
- GPT-3模型擁有巨大1750億模型參數和96個模型層數,1750億模型參數有點類似於人類大腦的神經元(?),人類大腦的神經元100億個。
- 模型參數決定了模型的複雜度和表示能力,而模型層數決定了模型的抽象能力和處理複雜任務的能力。
- GPT-3 使用了一個大型的自注意力神經網絡,模型結構有 96 層。每一層都用於學習語言的更複雜的模式,因此 96 層可以將語言的許多不同方麵整合在一起。生成語言的時候,模型會計算出語境下最可能的回答,並在多層的模型中進行處理,以找到最終的回答。
- GPT-3是已經被預先訓練好的模型,用戶使用GPT-3並不會直接對模型進行訓練(原以為自己在訓練它)。
- 用戶使用GPT-3產生的數據和反饋信息可以幫助開發者對模型進行改進和優化。
GPT-3 論文網址,有興趣的可以細讀。
https://arxiv.org/pdf/2005.14165v3.pdf