GPT能夠識別英語裏邊的每個詞。它采用空間詞義法。一個詞的意義,是由它在詞義空間裏的位置決定的。說的白一點,經常出現在一起的兩個詞,比如毛澤東與中國,紫檀與50萬等等,放在一起,他們詞義空間裏邊的距離近。不經常出現在一起的兩個詞,比如毛澤東與法國巴黎,牛頓與杜甫等等,他們在詞義空間的距離就非常遠。通過AI機器學習,英語的每一個詞都在英語的詞義空間裏占有一席之地。所以當GPT使用者輸入一個單詞,或者一個句子時,GPT可以接龍,依靠輸入這個詞的詞義空間,找到距離自己最近的那個詞,那個詞就是它的接龍的下一個詞。如此循環往複,直到一篇文章完成(具體的比較複雜,這裏嚴重簡化)。
從中可以看出,GPT 本身是完全不了解,不懂每一個詞的意思的。一篇文章的每個句子,每個段落裏的那些詞,之所以組合在一起,完全是依靠詞義空間來決定的。值得注意的是,GPT 也不清楚不了解不懂它寫出文章的每句話每個段落之間的語法。
一句話,現在GPT 生成出來的東西,看似非常精準,非常的人話,非常的語法,內容非常的可信服,但其實它完全不知道自己在說什麽。道理很簡單,因為它生成這些東西的唯一的依據是詞義空間。
這導致了GPT生成的答案,每次都可能不一樣。
很顯然,AGI 僅僅依靠詞義空間是不夠的。GPT生成的東西,必須要有邏輯,而且這種邏輯還必須是可控的。
一個很顯然的結論是,現在AI,比如GPT除了詞義空間的算法,必須也要“邏輯空間”的算法。兩者缺一不可。
"邏輯空間"算法如何搞,現在沒有定論。
山姆奧特曼這些蔑視數學,蔑視物理等等AI 紅脖子門(絕大部分的西洋人都屬於這類),他們推崇簡單粗暴的算力。他們想如法炮製”詞義空間“,通過機器學習,通過大量的文本訓練,找出每個民族,每個學科等等的“邏輯空間”。
華人喜歡數學,喜歡物理,喜歡硬核。他們覺得詞義空間走暴力運算行得通。但是,“邏輯空間”不太可能通過簡單的GPU 堆疊就能實現。他們更加傾向於,每一個學科,每一個專業,每一個行業,組織大量的專家學者研究生本科生,人工標誌高水平的本學科,本行業的”邏輯空間“。
詞義空間法不是新東西。50年代的語言學家其實就做過這些事。比如他們通過分析一個民族語言裏的,比如水稻的詞義空間數量的大小多寡,能得出一個民族是水稻民族,還事畜牧民族。語言學家,社會學家,民族學家等等一直這麽做,一直證明行得通。隻不過以前的GPU 算力不行,沒人敢想到窮盡一個語言的全部詞匯建立詞義空間的地步。
邏輯空間算法以前也有人做。最著名的就是喬姆斯基的生成語法。事實證明,喬姆斯基的萬能語法,生成語法等等是失敗的。邏輯空間算法的突破,不是那麽容易的。