英偉達也出鋼鐵做的鏟,問題是想要GPU有好的效率,GPU的內存必須至少要大於訓練參數的18倍,訓練1GB的參數要18GB

的GPU內存,這就是為什麽聽上去GPU利用率很低的原因。就像你的電腦cpu100%後,你的電腦會變得很慢一樣。人腦也隻用人腦的10-25%。大模型訓練的參數是特別大的,需要很多很大的鏟子。

請您先登陸,再發跟帖!