GRPO 的確節約了顯存和計算資源。 但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析
GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定
GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定