用“蒸餾”過的數據,直接上RL,省了pre-taining ,是大膽,也算是“二次開發”。當然省時省錢。

請您先登陸,再發跟帖!