蒸餾是指從用大模型比如DeepSeek R1去訓練參數少的小模型,從而得到8B,14B,32B等等對資源要求較少的版本。
來源:
監考老師
於
2025-01-26 22:55:17
[
博客
] [
舊帖
] [
給我悄悄話
] 本文已被閱讀:次