GRPO 的確節約了顯存和計算資源。 但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析

來源: 2025-01-28 14:35:49 [博客] [舊帖] [給我悄悄話] 本文已被閱讀:

GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定