RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s?

回答: 本地 AI 部署心得pichawxc2026-05-05 12:20:26

我4090 都跑不到10 t/s? 用Q4的勉強到15 t/s, 有什麽訣竅嗎?我是用ollama + claude code

所有跟帖: 

我現在用3090 和 llama.cpp跑Q5_K_M速度能到35, 文本超過130K時下降為20 T/S 下麵是參數設 -pichawxc- 給 pichawxc 發送悄悄話 pichawxc 的博客首頁 (1211 bytes) () 05/17/2026 postreply 17:35:05

不知道為啥有禁詞:llama.cpp 穩定性和速度都是較好的 -pichawxc- 給 pichawxc 發送悄悄話 pichawxc 的博客首頁 (454 bytes) () 05/17/2026 postreply 17:38:37

下載地址網上查, 文學城不讓發 -pichawxc- 給 pichawxc 發送悄悄話 pichawxc 的博客首頁 (396 bytes) () 05/17/2026 postreply 17:40:36

請您先登陸,再發跟帖!