雖然下層ollama也是用llama.cpp.
Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你應該可以到40。 你速度慢的一個主要原因,是沒有用CUDA編譯的ollama。llama.cpp 也可以自己編譯或者下載有CUDA支持的llama.cpp。我用的參數如下:模型各種表現都不錯。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以減少。
雖然下層ollama也是用llama.cpp.
Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你應該可以到40。 你速度慢的一個主要原因,是沒有用CUDA編譯的ollama。llama.cpp 也可以自己編譯或者下載有CUDA支持的llama.cpp。我用的參數如下:模型各種表現都不錯。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以減少。
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy