大語言模型和強化學習結合起來就不一樣了

來源: bagel_bites 於 2025-11-07 21:07:32 [舊帖] [給我悄悄話] 本文已被閱讀：次

最後人工智能的研發還會回到強化學習為核心，Ｄｅｅｐｓｅｅｋ模型就是蒸餾加強化學習，現在主流的人工智能語言模型都在走這個路線。但這個路線也是有不少難題的，基礎還得是樸素的大參數模型，否則沒法蒸餾提煉。如果強化學習那麽順，穀歌也不會被ＯｐｅｎＡＩ搶了人工智能的風頭。總之商業投入是要追求短期回報的，否則隻有家庭富有的人才能整天琢磨藝術（打個比方）。人類在人工智能方向的發展不可阻擋，但不見得是日新月異，天天有驚人的展示。相反，會有很長的嚴冬才有下一次的春夏