蒸餾技術是條捷徑,但是這條路走得越深,離核心科技其實也就越遠

本帖於 2025-01-28 10:04:40 時間, 由普通用戶 niwolf 編輯

新美國安全中心(CNAS)助理研究員盧比?斯坎倫(Ruby Scanlon)對美國之音說,DeepSeek之所以可以用較低端的硬件和成本打造出這一產品,涉及模型蒸餾(Modell Distillation)。她解釋說,假設一個模型中有5%是在從事整個模型裏最重要的工作,“如果你將所有計算能力和訓練資源集中在模型中最有用的那5%上──這就是模型蒸餾的原理──那麽你可以真正專注於最關鍵的部分,從而得到更好的答案。”

請您先登陸,再發跟帖!