最近DS的事鬧得沸沸揚揚,很多人都是借用他人的詞匯和概念,以其昏昏,使人昭昭。以下我也來拋磚引玉,談談我的看法,飯後談資,以博大家一笑。
先用外行能聽懂的話來普及一下基本概念,大概的思路是這樣的: DS之前的模型在每一個節點上,先判斷出下一步有哪些可能性,然後再逐次對下一步的每一種可能性進行同樣的思考和處理,因為每個節點後的可能性都可能是天文數字,所以從深度和廣度上看,近乎於無窮無盡。如果按這種思路去探求,對計算機的算力的要求就成了一個天文數字,所以大家都在瘋狂的買更強大的芯片,蓋更大的數據中心,由此也對電耗產生極大的需求,這種approach實際上是在用 brutal force來解決問題。DS極大地改進了原來的model。DS的model是在許多節點上,不是盲目的把下一步的全部的可能性都羅列出來,逐一去seek,而是做一些邏輯推理和判斷,把那些完全不靠譜和不太靠譜的可能性排除,集中精力於那些成功率更大的可能性,這樣一來,巨量的下一步的可能性都被篩除了,於是就有了巨大的 performance improvement,成本也就下來了, 可以說DS的model是一個smart model。
這個解釋聽起來似乎很簡單,人人都會做,其實實際過程非常複雜。GPU是一個超級並聯處理器,通俗的講就是一個多管齊下的搶時間的機器。在運行過程中,它並不是在每一個節點上,先figure out 下一步的全部可能性,然後再去逐一處理。而是在figour out一種可能性之後,立即就開始處理,同時再figour out下一個可能性,等等,這就是並聯處理。這樣問題就來了,假定某一個節點後有一億種可能性,當你拿到第一個可能性時,相比其他的尚未發現的一億減一種可能性,你怎麽去判斷這個可能性應該放棄,或者還是值得去進一步deep seek呢?因為無法做出這種判斷,DS之前的各公司采取的都是一視同仁的思路,對每一種可能性都不加區別地同等處理。所以對DS的猜疑也就此而生,OpenAI認為要判斷一種可能性是否應該放棄,或者還是值得去進一步seek (相比其他的海量在同等節點上的可能性),必須要有數據和邏輯根據,DS必定是從他人那裏搞到了某些數據,借此來幫助他們做出判斷,filter out 那些無用和低質量的可能性。我個人認為退一萬步講,就算是DS的確是借鑒了某個公司的成果來幫他們做出判斷,這也是一個巨大的進步,科技的發展鮮有空穴來風,都是建立在前人已經做出的發明之上的。如果DS能動態的參考其他係統的某些公開的結果,幫他們做出更smart的判斷,而不是使用brutal force,每次都去reinvent wheels,這正是科技正常發展的無可非議的蒼黃之變。況且DS也不一定肯定是借鑒了其他公司的公開成果來幫助他們推理做出更合理的判斷,依據DS的現在網上的performance來判斷,DS動態的實時的借鑒他人公開的成果的可能性不大,依我的判斷,DS很有能是自我借鑒,前車之覆,後車之鑒,把以前失敗的seek的 cases 以某種方式記憶下來,借此來幫助和改進後續的決定,使後續的seek變得更聰明,如果DS的確是這樣做的,那DS就變成了一個不僅能夠幫你尋找答案,而具有了在這個過程中不斷自我糾錯,自我完善的能力的自我循環的係統,從理念上講,這無疑是AI技術上的一個裏程碑級的突破。
其實DS的這種思路在計算機技術發展史上並不是第一次,與當年Sun Microsystems 在SPARC Computer上的突破異曲同工。當時人們普遍認為,計算機是一個通用機器,因此應當麵麵俱到,樣樣都行,要提高性能就必須全麵提高所有的底層指令的性能,當時甚至還有標準的測試一台計算機的performance的程序,一條達不到就不算成功,但是計算機底層指令彼此之間千差萬別,要想同時提高到某個數量級,極其困難。在這之前,人們早就觀察到絕大部分計算機80%的時間都是在執行20%的指令。Sun的工程師不信邪,決定集中精力改進那20%的指令,其他的指令就保持原樣不動,因為不用頭尾兩顧,所以進展神速,結果就是他們的著名的 RISC SPARC architecture。SPARC workstation 一炮打紅,一時洛陽紙貴,賣瘋了,把當時的行業老大IBM和HP甩出幾條街,Sun也因此風光一時。
幾十年前有人就說過,站在IT的這條高速公路上,回頭一望,到處都是road kills,希望OpenIA趕快奮起直追,不要變成一個crying baby, 在IT這條高速公路上,you either lead, or follow or get run over。