GRPO 的確節約了顯存和計算資源。 但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析

回答: 這裏很多奇怪的人在deny reality我是誰的誰2025-01-28 13:59:24

GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定

請您先登陸,再發跟帖!