V3是從DeepSeek自己的671b參數的大模型上蒸餾的

來源: 2025-01-28 19:05:18 [舊帖] [給我悄悄話] 本文已被閱讀:

蒸餾完的小模型是在手機和PC上跑的,它technical paper上的結果又不是蒸餾模型跑出來的。671b參數已經屬於相當大的模型了。