V3是從DeepSeek自己的671b參數的大模型上蒸餾的

蒸餾完的小模型是在手機和PC上跑的,它technical paper上的結果又不是蒸餾模型跑出來的。671b參數已經屬於相當大的模型了。

請您先登陸,再發跟帖!