我現在用3090 和 llama.cpp跑Q5_K_M速度能到35, 文本超過130K時下降為20 T/S 下麵是參數設

llama-server.exe ^
    --model d:\models\Qwen3.6-27B-Q5_K_M.gguf ^
    --alias "Qwen3.6-27B" ^
    --n-gpu-layers 99 ^
    --mmap ^
    --jinja ^
    --spec-type ngram-mod ^
    --spec-ngram-mod-n-match 24 ^
    --spec-ngram-mod-n-min 12 ^
    --spec-ngram-mod-n-max 48 ^
    --ctx-size 135000 ^
    --ctx-checkpoints 32 ^
    --checkpoint-every-n-tokens 8192 ^
    --cache-ram 32768 ^
    --flash-attn on ^
    --threads 6 ^
    --cache-type-k q8_0 ^
    --cache-type-v q8_0 ^
    --temp 0.6 ^
    --top-p 0.95 ^
    --top-k 20 ^
    --min_p 0.0 ^
    --presence_penalty 0.0 ^
    --chat-template-kwargs "{\"preserve_thinking\":true}" ^
    --repeat_penalty 1.0 ^
    -np 1 ^
    --host 0.0.0.0 ^
    --port 8080

請您先登陸,再發跟帖!