檢索 和 GPT,一些粗淺體驗

來源: 兄貴 2023-02-10 20:17:15 [] [博客] [舊帖] [給我悄悄話] 本文已被閱讀: 次 (3576 bytes)

所有app的對外接口基本上是兩個,輸入和輸出。兩個都很重要。

早期的search engine 非常多,多如牛毛。很多人的錢都砸裏麵了。幾乎所有的 都是按照 關鍵詞進行檢索的,通過在數據庫中 調用 Full Text Search 找到結果,輸出給用戶。包括後起之秀 Google。

Google勝出的幾個原因,、

一是輸出排序用了PageRank,這是Larry Page模仿科學文獻中的 Impact factor搞的,

二是Google對輸入關鍵詞的選擇,是Google成功的另一大關鍵,Google把英文詞分為三類,1)常用詞,比如 the, to, in, 等等;2)中度流行詞;3)偏僻詞 少用詞。Google檢索基本上忽略常用詞,而是以 中度流行詞為主進行檢索,偏僻詞稍作些許參考。哪些詞是檢索詞,是Google的秘密。

三是用了Nosql數據庫,發明了自己的document database, 極大的提高了速度。

我當時最喜歡的 search engine 是 AllTheWeb,它的獨特之處是給你很多的輸入欄,可以對 title 定 檢索詞,對 url 定檢索詞,對內容定 檢索詞,對 meta 定 檢索詞,等等,然後它在對應的數據庫的 Column 裏麵查詢,所以給出的結果 不僅快,而且非常準,原因是輸入非常準,直接針對每個 column。但是廣大的勞動人民不喜歡,大概嫌煩,勞動人民不愛勞動。

Google成功後,也最早希望能夠 通過人工智能進行 NLP natual language processing 來解讀 輸入。當然,可能WolframAlpha 更早就解讀 問句來回答問題。但是 WolframAlpha 沒有成功,盡管我很喜歡它。它在解讀輸入上相當成功,但是他的基本理念還是從數據庫從得到萬無一失的正確答案給用戶,所以沒有得到勞動人民的垂青。

Google放棄了 RNN (recurrent neural networks),終於在 2017年 靜悄悄的 完成了一項壯舉,那就是 language model Transformer. 這是 革命性的一步,現在所有的先進 language model 都是用 Transformer!比如

  • OpenAI 的 GPT-3, (chatGPT) 是 Generative Pretrained Transformer 的縮寫
  • Google 的 BERT,是 Bidirectional Encoder Representations from Transformer 的縮寫
  • 微軟的 CTRL,是  Conditional TRansformer Language 的縮寫
  • Facebook 的,RoBERTa ,是 Robustly Optimized BERT Transformer Approach的縮寫
  • 華為的 Hi-Transformer
  • 等等

遺憾的是,由於Google是個好麵子的大公司,不能輕易的推出不成熟的東西 以及不安全的東西。所以 Google的訓練數據搞的太大,好像是 OpenAI 的幾十倍,而且安全性也搞得過於複雜。要知道,模型訓練是非常昂貴的,所以 臃腫遲緩的Google BERT 被 GPT 捷足先登。

總結一下,檢索輸入,從 分類 Column 檢索 (All The web)到 關鍵詞 (Google),到 NLP Language model (Transformer)應該是趨勢,Google 是否還能保住檢索的市場,關鍵在於 BERT 能不能取勝

所有跟帖: 

想起以前我被大家抨擊的一個判斷:大學CS比工業界落後太多。這次又被印證了 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:27:20

這種heuristic based 技術可能工業界更有實力來開發吧 -tennisluv- 給 tennisluv 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:32:10

能進那幾個最好ai lab的人基本也能拿到大學教職,工業界數據和計算資源比學校更多 -風景線2- 給 風景線2 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:44:15

是的,訓練數據,起碼要 5 80GB GPU。大學沒這實力 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:56:26

這個早就是這樣了。大學搞軟件的就是做做project,編程。真正搞研究的,都是moonshot,要有很強後台的 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:46:03

為啥要transformer?我就是打keyword only,從來不打句子的。我也不希望它回答我句子 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:31:11

Transformer 是處理語言的模型。句子比詞 表達的更完整。 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:34:21

沒這種事的。更何況,將來大家都是馬工,code比講話還流利 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:35:39

哈哈,你是理工娃。要照顧廣大文科娃 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:38:40

我不是。我隻是大學裏學了不少亂七八糟的東西。但是這玩意根本不難。比研究大學錄取容易多了 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:43:08

還有,句子可以對話。僅僅關鍵詞如何對話呢? -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:46:17

為啥要和它對話,我看見真人都不太願意多說一句 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:48:07

在子壇,你是對話高手,集睿智和幽默於一身,常常畫龍點睛啊 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:52:16

真人比較煩。說錯話,不好弄。你是紫檀導師 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:54:11

Transformer之前是用RNN(recurrent structure). 而 T用自我attention -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:37:43

輸入輸出對我來講,一點意義沒有。但是transformer能讀懂文章嗎? -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:42:07

可以 -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:46:40

這個算是價值。現在Google search好像就找關鍵詞,並不懂文章啊。search出點紕漏,不是丟麵子的事吧 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:49:11

是的。這就是區別所在! -兄貴- 給 兄貴 發送悄悄話 兄貴 的博客首頁 (0 bytes) () 02/10/2023 postreply 20:50:49

我懷疑啊。不是親眼所見,我不相信。搞搞前台那種胡說八道,對我來講,一點意義沒有 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:53:08

這白紙黑字的,有啥讀不懂 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 20:36:12

Transformer的缺點是計算量和建模長度平方級增長,所以各家有很大空間提高改善,看來GPT找到秘籍,穀歌如果還停留 -dujyy262- 給 dujyy262 發送悄悄話 (86 bytes) () 02/10/2023 postreply 21:07:39

Mechanical 的東西,能有啥秘籍?所有的algorithm就是重新編排優化下,沒有化學反應啊 -avw- 給 avw 發送悄悄話 (0 bytes) () 02/10/2023 postreply 21:10:46

當然有很多,各家的秘籍,不外泄。例如差的隻能處理短句,好的一本書的長度都可以,空間也是各有各法,穀歌未必有 -dujyy262- 給 dujyy262 發送悄悄話 (24 bytes) () 02/10/2023 postreply 21:15:21

LOL,勞動人民不愛勞動 -zaocha2002- 給 zaocha2002 發送悄悄話 (0 bytes) () 02/10/2023 postreply 23:13:37

輸入檢索詞的是用戶,穀歌不能靠這個提高準確度,穀歌搜索也並不是技術問題,而是商業模式問題,準確度下降是因為廣告業務 -tibuko- 給 tibuko 發送悄悄話 tibuko 的博客首頁 (520 bytes) () 02/11/2023 postreply 07:07:22

msft said Bing/ChatGPT will give out the where source from? -michaelusa2- 給 michaelusa2 發送悄悄話 (343 bytes) () 02/11/2023 postreply 19:40:50

厲害!這個分析夠專業:+1: 壘碼的碼農吧? -民兵1472- 給 民兵1472 發送悄悄話 (1256 bytes) () 02/13/2023 postreply 22:57:03

厲害!這個分析夠專業:+1: 壘碼的碼農吧? -民兵1472- 給 民兵1472 發送悄悄話 (1256 bytes) () 02/13/2023 postreply 22:57:57

請您先登陸,再發跟帖!

發現Adblock插件

如要繼續瀏覽
請支持本站 請務必在本站關閉/移除任何Adblock

關閉Adblock後 請點擊

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”