GRPO 的確節約了顯存和計算資源。但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析

來源: zaocha2002 於 2025-01-28 14:35:49 [博客] [舊帖] [給我悄悄話] 本文已被閱讀：次

GRPO丟棄PPO裏的value model 隻在幾個答案裏優化，而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈，很多年前做工藝模擬優化就是采用跳步，後來發現降躁避免不了歐拉公式數字解裏的一些因子確定

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

GRPO 的確節約了顯存和計算資源。 但是是否真的提升複雜任務能力保留疑問。這是國內內行的分析