我4090 都跑不到10 t/s? 用Q4的勉強到15 t/s, 有什麽訣竅嗎?我是用ollama + claude code
RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s?
所有跟帖:
•
我現在用3090 和 llama.cpp跑Q5_K_M速度能到35, 文本超過130K時下降為20 T/S 下麵是參數設
-pichawxc-
♂
(1211 bytes)
()
05/17/2026 postreply
17:35:05
•
不知道為啥有禁詞:llama.cpp 穩定性和速度都是較好的
-pichawxc-
♂
(454 bytes)
()
05/17/2026 postreply
17:38:37
•
下載地址網上查, 文學城不讓發
-pichawxc-
♂
(396 bytes)
()
05/17/2026 postreply
17:40:36