用“蒸餾”過的數據,直接上RL,省了pre-taining ,是大膽,也算是“二次開發”。當然省時省錢。
來源:
kl3527
於
2025-01-26 21:43:00
[
博客
] [
舊帖
] [
給我悄悄話
] 本文已被閱讀:次