英偉達也出鋼鐵做的鏟,問題是想要GPU有好的效率,GPU的內存必須至少要大於訓練參數的18倍,訓練1GB的參數要18GB
來源:
Meowpa
於
2025-03-18 15:55:30
[
舊帖
] [
給我悄悄話
] 本文已被閱讀:次
的GPU內存,這就是為什麽聽上去GPU利用率很低的原因。就像你的電腦cpu100%後,你的電腦會變得很慢一樣。人腦也隻用人腦的10-25%。大模型訓練的參數是特別大的,需要很多很大的鏟子。