下載地址網上查，文學城不讓發

來源: pichawxc 於 2026-05-17 17:40:36 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (396 bytes)

回答: RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s？由 jasonshane 於 2026-05-16 00:02:02

現在有很多加速和增加 ctx-size的法子，支持MTP的llama.cpp，我的速度可以到60-65左右，支持MTP 的 vLLM的windows版本可以到75，但是需要多占2-3G的圖形卡內存，就用不了大的ctx-size。我試了最大也就到130K 左右。所以我用llama.cpp 和 Q4_K_XL，180K的ctx-size 時間多一些，Q5_K_M的ctx-size上限估計為145K。

您的位置：文學城 » 論壇 » 實用電腦 » 下載地址網上查，文學城不讓發

請您先登陸，再發跟帖！

下載地址網上查， 文學城不讓發

下載地址網上查，文學城不讓發