DS V1.5鳥瞰:最大貢獻是引入RL,GRPO,一次性生成整個認證過程,再用truncate-&-resume校正。

 

大大提高了學習效率和生成效率。

 

 

所有跟帖: 

truncate-&-resume像極了DFS。兩篇短的讀完了,後麵的都巨長,五十多頁一篇,intimating... -成功的飛過- 給 成功的飛過 發送悄悄話 (0 bytes) () 01/28/2025 postreply 11:42:00

相關文章貼一下,我也要閱讀 -青裁- 給 青裁 發送悄悄話 (0 bytes) () 01/28/2025 postreply 11:43:00

arxiv.org/abs/2408.08152 -成功的飛過- 給 成功的飛過 發送悄悄話 (249 bytes) () 01/28/2025 postreply 11:45:38

飛哥 -心想事成好事成雙- 給 心想事成好事成雙 發送悄悄話 (119 bytes) () 01/28/2025 postreply 11:48:22

今晚除夕? -Pilsung- 給 Pilsung 發送悄悄話 (0 bytes) () 01/28/2025 postreply 11:49:55

今年沒有年三十兒,大年二十九蹦初一,趕緊訂幾個年菜 -phobos- 給 phobos 發送悄悄話 phobos 的博客首頁 (0 bytes) () 01/28/2025 postreply 12:01:00

飛哥脾氣大。你居然這樣發指示 -oryzivore- 給 oryzivore 發送悄悄話 (0 bytes) () 01/28/2025 postreply 12:09:24

繼續update:) 我肯定看不懂這方麵的論文了,所以樓主願意讀然後深入淺出的解讀一下,對我非常有價值 -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 01/28/2025 postreply 12:21:02

meta家正在組織工程師分組學習,全世界的工程師們卷起來,很棒 -快樂的小鳥- 給 快樂的小鳥 發送悄悄話 (0 bytes) () 01/28/2025 postreply 12:21:11

+1000。。。科技是沒有國界的:) -兩女寶媽- 給 兩女寶媽 發送悄悄話 兩女寶媽 的博客首頁 (0 bytes) () 01/28/2025 postreply 12:23:13

meta家的估計沒安什麽好心,在找有什麽可以告DS的。 -baydad- 給 baydad 發送悄悄話 (0 bytes) () 01/28/2025 postreply 12:41:03

GRPO聽起來是很關鍵的貢獻,這裏有個通俗易懂點的介紹,評論區第一個人的問題怎麽解? -專業潛水媽- 給 專業潛水媽 發送悄悄話 (276 bytes) () 01/28/2025 postreply 12:40:31

DeepSeek does seem to be a game changer -gezhu- 給 gezhu 發送悄悄話 (81 bytes) () 01/28/2025 postreply 13:38:47

這裏很多奇怪的人在deny reality -我是誰的誰- 給 我是誰的誰 發送悄悄話 (0 bytes) () 01/28/2025 postreply 13:59:24

GRPO 的確節約了顯存和計算資源。 但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析 -zaocha2002- 給 zaocha2002 發送悄悄話 zaocha2002 的博客首頁 (266 bytes) () 01/28/2025 postreply 14:35:49

請您先登陸,再發跟帖!