llama-server.exe ^
--model d:\models\Qwen3.6-27B-Q5_K_M.gguf ^
--alias "Qwen3.6-27B" ^
--n-gpu-layers 99 ^
--mmap ^
--jinja ^
--spec-type ngram-mod ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 12 ^
--spec-ngram-mod-n-max 48 ^
--ctx-size 135000 ^
--ctx-checkpoints 32 ^
--checkpoint-every-n-tokens 8192 ^
--cache-ram 32768 ^
--flash-attn on ^
--threads 6 ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.6 ^
--top-p 0.95 ^
--top-k 20 ^
--min_p 0.0 ^
--presence_penalty 0.0 ^
--chat-template-kwargs "{\"preserve_thinking\":true}" ^
--repeat_penalty 1.0 ^
-np 1 ^
--host 0.0.0.0 ^
--port 8080