檢索 和 GPT,一些粗淺體驗

所有app的對外接口基本上是兩個,輸入和輸出。兩個都很重要。

早期的search engine 非常多,多如牛毛。很多人的錢都砸裏麵了。幾乎所有的 都是按照 關鍵詞進行檢索的,通過在數據庫中 調用 Full Text Search 找到結果,輸出給用戶。包括後起之秀 Google。

Google勝出的幾個原因,、

一是輸出排序用了PageRank,這是Larry Page模仿科學文獻中的 Impact factor搞的,

二是Google對輸入關鍵詞的選擇,是Google成功的另一大關鍵,Google把英文詞分為三類,1)常用詞,比如 the, to, in, 等等;2)中度流行詞;3)偏僻詞 少用詞。Google檢索基本上忽略常用詞,而是以 中度流行詞為主進行檢索,偏僻詞稍作些許參考。哪些詞是檢索詞,是Google的秘密。

三是用了Nosql數據庫,發明了自己的document database, 極大的提高了速度。

我當時最喜歡的 search engine 是 AllTheWeb,它的獨特之處是給你很多的輸入欄,可以對 title 定 檢索詞,對 url 定檢索詞,對內容定 檢索詞,對 meta 定 檢索詞,等等,然後它在對應的數據庫的 Column 裏麵查詢,所以給出的結果 不僅快,而且非常準,原因是輸入非常準,直接針對每個 column。但是廣大的勞動人民不喜歡,大概嫌煩,勞動人民不愛勞動。

Google成功後,也最早希望能夠 通過人工智能進行 NLP natual language processing 來解讀 輸入。當然,可能WolframAlpha 更早就解讀 問句來回答問題。但是 WolframAlpha 沒有成功,盡管我很喜歡它。它在解讀輸入上相當成功,但是他的基本理念還是從數據庫從得到萬無一失的正確答案給用戶,所以沒有得到勞動人民的垂青。

Google放棄了 RNN (recurrent neural networks),終於在 2017年 靜悄悄的 完成了一項壯舉,那就是 language model Transformer. 這是 革命性的一步,現在所有的先進 language model 都是用 Transformer!比如

  • OpenAI 的 GPT-3, (chatGPT) 是 Generative Pretrained Transformer 的縮寫
  • Google 的 BERT,是 Bidirectional Encoder Representations from Transformer 的縮寫
  • 微軟的 CTRL,是  Conditional TRansformer Language 的縮寫
  • Facebook 的,RoBERTa ,是 Robustly Optimized BERT Transformer Approach的縮寫
  • 華為的 Hi-Transformer
  • 等等

遺憾的是,由於Google是個好麵子的大公司,不能輕易的推出不成熟的東西 以及不安全的東西。所以 Google的訓練數據搞的太大,好像是 OpenAI 的幾十倍,而且安全性也搞得過於複雜。要知道,模型訓練是非常昂貴的,所以 臃腫遲緩的Google BERT 被 GPT 捷足先登。

總結一下,檢索輸入,從 分類 Column 檢索 (All The web)到 關鍵詞 (Google),到 NLP Language model (Transformer)應該是趨勢,Google 是否還能保住檢索的市場,關鍵在於 BERT 能不能取勝

所有跟帖: 

想起以前我被大家抨擊的一個判斷:大學CS比工業界落後太多。這次又被印證了 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:27:20

這種heuristic based 技術可能工業界更有實力來開發吧 -tennisluv- 給 tennisluv 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:32:10

能進那幾個最好ai lab的人基本也能拿到大學教職,工業界數據和計算資源比學校更多 -風景線2- 給 風景線2 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:44:15

是的,訓練數據,起碼要 5 80GB GPU。大學沒這實力 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:56:26

Transformer 是處理語言的模型。句子比詞 表達的更完整。 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:34:21

哈哈,你是理工娃。要照顧廣大文科娃 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:38:40

還有,句子可以對話。僅僅關鍵詞如何對話呢? -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:46:17

在子壇,你是對話高手,集睿智和幽默於一身,常常畫龍點睛啊 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:52:16

Transformer之前是用RNN(recurrent structure). 而 T用自我attention -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:37:43

可以 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:46:40

是的。這就是區別所在! -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:50:49

Transformer的缺點是計算量和建模長度平方級增長,所以各家有很大空間提高改善,看來GPT找到秘籍,穀歌如果還停留 -dujyy262- 給 dujyy262 發送悄悄話 (86 bytes) () 02/10/2023 postreply 21:07:39

當然有很多,各家的秘籍,不外泄。例如差的隻能處理短句,好的一本書的長度都可以,空間也是各有各法,穀歌未必有 -dujyy262- 給 dujyy262 發送悄悄話 (24 bytes) () 02/10/2023 postreply 21:15:21

LOL,勞動人民不愛勞動 -zaocha2002- 給 zaocha2002 發送悄悄話 (0 bytes) () 02/10/2023 postreply 23:13:37

輸入檢索詞的是用戶,穀歌不能靠這個提高準確度,穀歌搜索也並不是技術問題,而是商業模式問題,準確度下降是因為廣告業務 -tibuko- 給 tibuko 發送悄悄話 tibuko 的博客首頁 (520 bytes) () 02/11/2023 postreply 07:07:22

msft said Bing/ChatGPT will give out the where source from? -michaelusa2- 給 michaelusa2 發送悄悄話 (343 bytes) () 02/11/2023 postreply 19:40:50

厲害!這個分析夠專業:+1: 壘碼的碼農吧? -民兵1472- 給 民兵1472 發送悄悄話 (1256 bytes) () 02/13/2023 postreply 22:57:03

厲害!這個分析夠專業:+1: 壘碼的碼農吧? -民兵1472- 給 民兵1472 發送悄悄話 (1256 bytes) () 02/13/2023 postreply 22:57:57

請您先登陸,再發跟帖!