蒸餾是指從用大模型比如DeepSeek R1去訓練參數少的小模型,從而得到8B,14B,32B等等對資源要求較少的版本。

來源: 2025-01-26 22:55:17 [博客] [舊帖] [給我悄悄話] 本文已被閱讀: