GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定
GRPO丟棄PPO裏的value model 隻在幾個答案裏優化,而VALUE MODEL 是afterwards的learning 會減少噪音。哈哈,很多年前做工藝模擬優化就是采用跳步,後來發現降躁避免不了歐拉公式數字解裏的一些因子確定
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy