用“蒸餾”過的數據,直接上RL,省了pre-taining ,是大膽,也算是“二次開發”。當然省時省錢。

來源: 2025-01-26 21:43:00 [博客] [舊帖] [給我悄悄話] 本文已被閱讀: