我現在用3090 和 llama.cpp跑Q5_K_M速度能到35，文本超過130K時下降為20 T/S 下麵是參數設

來源: pichawxc 於 2026-05-17 17:35:05 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (1211 bytes)

回答: RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s？由 jasonshane 於 2026-05-16 00:02:02

llama-server.exe ^
--model d:\models\Qwen3.6-27B-Q5_K_M.gguf ^
--alias "Qwen3.6-27B" ^
--n-gpu-layers 99 ^
--mmap ^
--jinja ^
--spec-type ngram-mod ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 12 ^
--spec-ngram-mod-n-max 48 ^
--ctx-size 135000 ^
--ctx-checkpoints 32 ^
--checkpoint-every-n-tokens 8192 ^
--cache-ram 32768 ^
--flash-attn on ^
--threads 6 ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.6 ^
--top-p 0.95 ^
--top-k 20 ^
--min_p 0.0 ^
--presence_penalty 0.0 ^
--chat-template-kwargs "{\"preserve_thinking\":true}" ^
--repeat_penalty 1.0 ^
-np 1 ^
--host 0.0.0.0 ^
--port 8080

您的位置：文學城 » 論壇 » 實用電腦 » 我現在用3090 和 llama.cpp跑Q5_K_M速度能到35，文本超過130K時下降為20 T/S 下麵是參數設

請您先登陸，再發跟帖！

我現在用3090 和 llama.cpp跑Q5_K_M速度能到35， 文本超過130K時下降為20 T/S 下麵是參數設

我現在用3090 和 llama.cpp跑Q5_K_M速度能到35，文本超過130K時下降為20 T/S 下麵是參數設