檢索和 GPT，一些粗淺體驗

來源: 兄貴於 2023-02-10 20:17:15 [檔案] [博客] [舊帖] [給我悄悄話] 本文已被閱讀：次 (3576 bytes)

所有app的對外接口基本上是兩個，輸入和輸出。兩個都很重要。

早期的search engine 非常多，多如牛毛。很多人的錢都砸裏麵了。幾乎所有的都是按照關鍵詞進行檢索的，通過在數據庫中調用 Full Text Search 找到結果，輸出給用戶。包括後起之秀 Google。

Google勝出的幾個原因，、

一是輸出排序用了PageRank，這是Larry Page模仿科學文獻中的 Impact factor搞的，

二是Google對輸入關鍵詞的選擇，是Google成功的另一大關鍵，Google把英文詞分為三類，1）常用詞，比如 the, to, in, 等等；2）中度流行詞；3）偏僻詞少用詞。Google檢索基本上忽略常用詞，而是以中度流行詞為主進行檢索，偏僻詞稍作些許參考。哪些詞是檢索詞，是Google的秘密。

三是用了Nosql數據庫，發明了自己的document database, 極大的提高了速度。

我當時最喜歡的 search engine 是 AllTheWeb，它的獨特之處是給你很多的輸入欄，可以對 title 定檢索詞，對 url 定檢索詞，對內容定檢索詞，對 meta 定檢索詞，等等，然後它在對應的數據庫的 Column 裏麵查詢，所以給出的結果不僅快，而且非常準，原因是輸入非常準，直接針對每個 column。但是廣大的勞動人民不喜歡，大概嫌煩，勞動人民不愛勞動。

Google成功後，也最早希望能夠通過人工智能進行 NLP natual language processing 來解讀輸入。當然，可能WolframAlpha 更早就解讀問句來回答問題。但是 WolframAlpha 沒有成功，盡管我很喜歡它。它在解讀輸入上相當成功，但是他的基本理念還是從數據庫從得到萬無一失的正確答案給用戶，所以沒有得到勞動人民的垂青。

Google放棄了 RNN （recurrent neural networks），終於在 2017年靜悄悄的完成了一項壯舉，那就是 language model Transformer. 這是革命性的一步，現在所有的先進 language model 都是用 Transformer！比如

OpenAI 的 GPT-3，（chatGPT) 是 Generative Pretrained Transformer 的縮寫
Google 的 BERT，是 Bidirectional Encoder Representations from Transformer 的縮寫
微軟的 CTRL，是 Conditional TRansformer Language 的縮寫
Facebook 的，RoBERTa ，是 Robustly Optimized BERT Transformer Approach的縮寫
華為的 Hi-Transformer
等等

遺憾的是，由於Google是個好麵子的大公司，不能輕易的推出不成熟的東西以及不安全的東西。所以 Google的訓練數據搞的太大，好像是 OpenAI 的幾十倍，而且安全性也搞得過於複雜。要知道，模型訓練是非常昂貴的，所以臃腫遲緩的Google BERT 被 GPT 捷足先登。

總結一下，檢索輸入，從分類 Column 檢索（All The web）到關鍵詞（Google），到 NLP Language model （Transformer）應該是趨勢，Google 是否還能保住檢索的市場，關鍵在於 BERT 能不能取勝

您的位置：文學城 » 論壇 » 子女教育 » 檢索和 GPT，一些粗淺體驗

所有跟帖：

• 想起以前我被大家抨擊的一個判斷：大學CS比工業界落後太多。這次又被印證了 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:27:20

• 這種heuristic based 技術可能工業界更有實力來開發吧 -tennisluv- ♂ (0 bytes) () 02/10/2023 postreply 20:32:10

• 能進那幾個最好ai lab的人基本也能拿到大學教職，工業界數據和計算資源比學校更多 -風景線2- ♀ (0 bytes) () 02/10/2023 postreply 20:44:15

• 是的，訓練數據，起碼要 5 80GB GPU。大學沒這實力 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:56:26

• 這個早就是這樣了。大學搞軟件的就是做做project，編程。真正搞研究的，都是moonshot，要有很強後台的 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:46:03

• 為啥要transformer？我就是打keyword only，從來不打句子的。我也不希望它回答我句子 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:31:11

• Transformer 是處理語言的模型。句子比詞表達的更完整。 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:34:21

• 沒這種事的。更何況，將來大家都是馬工，code比講話還流利 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:35:39

• 哈哈，你是理工娃。要照顧廣大文科娃 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:38:40

• 我不是。我隻是大學裏學了不少亂七八糟的東西。但是這玩意根本不難。比研究大學錄取容易多了 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:43:08

• 還有，句子可以對話。僅僅關鍵詞如何對話呢？ -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:46:17

• 為啥要和它對話，我看見真人都不太願意多說一句 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:48:07

• 在子壇，你是對話高手，集睿智和幽默於一身，常常畫龍點睛啊 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:52:16

• 真人比較煩。說錯話，不好弄。你是紫檀導師 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:54:11

• Transformer之前是用RNN(recurrent structure). 而 T用自我attention -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:37:43

• 輸入輸出對我來講，一點意義沒有。但是transformer能讀懂文章嗎？ -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:42:07

• 可以 -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:46:40

• 這個算是價值。現在Google search好像就找關鍵詞，並不懂文章啊。search出點紕漏，不是丟麵子的事吧 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:49:11

• 是的。這就是區別所在！ -兄貴- ♂ (0 bytes) () 02/10/2023 postreply 20:50:49

• 我懷疑啊。不是親眼所見，我不相信。搞搞前台那種胡說八道，對我來講，一點意義沒有 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:53:08

• 這白紙黑字的，有啥讀不懂 -avw- ♀ (0 bytes) () 02/10/2023 postreply 20:36:12

• Transformer的缺點是計算量和建模長度平方級增長，所以各家有很大空間提高改善，看來GPT找到秘籍，穀歌如果還停留 -dujyy262- ♂ (86 bytes) () 02/10/2023 postreply 21:07:39

• Mechanical 的東西，能有啥秘籍？所有的algorithm就是重新編排優化下，沒有化學反應啊 -avw- ♀ (0 bytes) () 02/10/2023 postreply 21:10:46

• 當然有很多，各家的秘籍，不外泄。例如差的隻能處理短句，好的一本書的長度都可以，空間也是各有各法，穀歌未必有 -dujyy262- ♂ (24 bytes) () 02/10/2023 postreply 21:15:21

• LOL，勞動人民不愛勞動 -zaocha2002- ♀ (0 bytes) () 02/10/2023 postreply 23:13:37

• 輸入檢索詞的是用戶，穀歌不能靠這個提高準確度，穀歌搜索也並不是技術問題，而是商業模式問題，準確度下降是因為廣告業務 -tibuko- ♂ (520 bytes) () 02/11/2023 postreply 07:07:22

• msft said Bing/ChatGPT will give out the where source from? -michaelusa2- ♂ (343 bytes) () 02/11/2023 postreply 19:40:50

• 厲害！這個分析夠專業:+1: 壘碼的碼農吧？ -民兵1472- ♂ (1256 bytes) () 02/13/2023 postreply 22:57:03

• 厲害！這個分析夠專業:+1: 壘碼的碼農吧？ -民兵1472- ♂ (1256 bytes) () 02/13/2023 postreply 22:57:57

請您先登陸，再發跟帖！

檢索和 GPT，一些粗淺體驗

所有跟帖：

發現Adblock插件

如要繼續瀏覽
請支持本站請務必在本站關閉/移除任何Adblock

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”

檢索 和 GPT，一些粗淺體驗

所有跟帖：

發現Adblock插件

如要繼續瀏覽 請支持本站 請務必在本站關閉/移除任何Adblock

請參考如何關閉Adblock/Adblock plus

安裝Adblock plus用戶請點擊瀏覽器圖標選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標 選擇“don't run on pages on this domain”

檢索和 GPT，一些粗淺體驗

如要繼續瀏覽
請支持本站請務必在本站關閉/移除任何Adblock

安裝Adblock plus用戶請點擊瀏覽器圖標
選擇“Disable on www.wenxuecity.com”

安裝Adblock用戶請點擊圖標
選擇“don't run on pages on this domain”