用“蒸餾”過的數據,直接上RL,省了pre-taining ,是大膽,也算是“二次開發”。當然省時省錢。
所有跟帖:
•
蒸餾?那就更沒有原汁原味了。謝謝補充。沒有花時間研究它,隻是覺得DeepSeek不會靠譜而已。。。!
-金筆-
♂
(0 bytes)
()
01/26/2025 postreply
21:57:51
•
蒸餾是指從用大模型比如DeepSeek R1去訓練參數少的小模型,從而得到8B,14B,32B等等對資源要求較少的版本。
-監考老師-
♂
(0 bytes)
()
01/26/2025 postreply
22:55:17