預測是需要reward反饋的,原始數據需要標記才能參與訓練。
來源:
BeyondWind
於
2025-01-29 19:24:19
[
舊帖
] [
給我悄悄話
] 本文已被閱讀:次