V3是從DeepSeek自己的671b參數的大模型上蒸餾的
來源:
maniac63
於
2025-01-28 19:05:18
[
舊帖
] [
給我悄悄話
] 本文已被閱讀:次
蒸餾完的小模型是在手機和PC上跑的,它technical paper上的結果又不是蒸餾模型跑出來的。671b參數已經屬於相當大的模型了。