我當時一半基於對decision tree方法論的局限性的認知,一半出於民族自尊心,不無自負地對學生們說,我們這輩子還看不到AI贏圍棋的。我7歲學會了圍棋的規則,喜歡玩,就為了攻擊的刺激,自然是臭棋了一輩子。唯一學到了的是,組合爆炸的厲害,如真想動腦子去下的話。
自不用說,20年後的阿爾法狗推翻了我的預言。我開始對深度學習的超大模型服氣。但我還是大大低估了大語言模型的威力和它研發的驚人速度。原因是我認為自然語言處理要比下圍棋又要複雜太多了,至少就決策優化目標而言。
自然語言的語義,常常要相鄰好幾個句子,幾十個單詞,才能決定。這裏對應的組合數比宇宙裏的原子數都多。GPT的大語言模型(LLM)的成功揭示了,人類語言除了句法和詞法,應該還有語義方麵的內在規則。這個規則還沒被人發掘出來,卻被GPT搶先發現和利用了。這個潛在語義規則應該是基於統計的,它讓LLM用的高階上下文空間極其稀疏,因而使得高階統計推斷在計算層麵上成為可能。
在漢語口語中,“眼睛進了沙子“和”沙子進了眼睛“是同一個意思。對rule-based 傳統AI,漢語語法的不嚴謹是一個頭疼的問題,但對LLM統計推斷模型不算困難。通過對大數據的觀察,GPT很容易學會漢語語法鬆弛的習俗,因為an eye dropping into the sand is an extremely improbable event。同理,GPT會輕鬆地filter out ”吃食堂“這種nonsense,得到正確的語義。