你是對的,被忽悠了。Markov chain根本不work

本文內容已被 [ 風景線2 ] 在 2024-01-16 14:25:20 編輯過。如有問題,請報告版主或論壇管理刪除.

LLM的關鍵是長期記憶. Markov chain 隻有非常短期記憶。

簡單說一下:

早期deep learning 裏用RNN解決sequence to sequence 的問題,比如翻譯。 RNN 有點像Markov chain,但是增加了記憶部分. 但是RNN 還是記憶太短,說了後麵就忘記前麵。後來有lstm,記憶長了一點,但是還不夠。再後來搞出來transformers ,這個能有比較長的記憶,能考慮上下文。這是技術突破點。LLM 又在此提高。

所有跟帖: 

詳細解釋一下?俺去反駁小朋友 -pct- 給 pct 發送悄悄話 (0 bytes) () 01/16/2024 postreply 14:15:59

看我上麵寫的 -風景線2- 給 風景線2 發送悄悄話 (0 bytes) () 01/16/2024 postreply 14:26:01

可能這就是LLM需要海量參數的原因 -pct- 給 pct 發送悄悄話 (0 bytes) () 01/16/2024 postreply 14:28:17

大道至簡。正是因為需要海量參數,LLM不算真正的AI,隻是深度學習、記憶model而已。 -小豬的黃香蕉- 給 小豬的黃香蕉 發送悄悄話 (0 bytes) () 01/16/2024 postreply 14:40:08

真敢瞎說。我說的記憶不是你說的意思,是指上下文。 -風景線2- 給 風景線2 發送悄悄話 (155 bytes) () 01/16/2024 postreply 16:16:48

請您先登陸,再發跟帖!