預測是需要reward反饋的,原始數據需要標記才能參與訓練。

來源: 2025-01-29 19:24:19 [舊帖] [給我悄悄話] 本文已被閱讀: