LLM的關鍵是長期記憶. Markov chain 隻有非常短期記憶。
簡單說一下:
早期deep learning 裏用RNN解決sequence to sequence 的問題,比如翻譯。 RNN 有點像Markov chain,但是增加了記憶部分. 但是RNN 還是記憶太短,說了後麵就忘記前麵。後來有lstm,記憶長了一點,但是還不夠。再後來搞出來transformers ,這個能有比較長的記憶,能考慮上下文。這是技術突破點。LLM 又在此提高。
LLM的關鍵是長期記憶. Markov chain 隻有非常短期記憶。
簡單說一下:
早期deep learning 裏用RNN解決sequence to sequence 的問題,比如翻譯。 RNN 有點像Markov chain,但是增加了記憶部分. 但是RNN 還是記憶太短,說了後麵就忘記前麵。後來有lstm,記憶長了一點,但是還不夠。再後來搞出來transformers ,這個能有比較長的記憶,能考慮上下文。這是技術突破點。LLM 又在此提高。
• 詳細解釋一下?俺去反駁小朋友 -pct- ♂ (0 bytes) () 01/16/2024 postreply 14:15:59
• 看我上麵寫的 -風景線2- ♀ (0 bytes) () 01/16/2024 postreply 14:26:01
• 可能這就是LLM需要海量參數的原因 -pct- ♂ (0 bytes) () 01/16/2024 postreply 14:28:17
• 大道至簡。正是因為需要海量參數,LLM不算真正的AI,隻是深度學習、記憶model而已。 -小豬的黃香蕉- ♂ (0 bytes) () 01/16/2024 postreply 14:40:08
• 真敢瞎說。我說的記憶不是你說的意思,是指上下文。 -風景線2- ♀ (155 bytes) () 01/16/2024 postreply 16:16:48
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2024 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy