不知道為啥有禁詞:llama.cpp 穩定性和速度都是較好的

雖然下層ollama也是用llama.cpp. 

Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35,你應該可以到40。 你速度慢的一個主要原因,是沒有用CUDA編譯的ollama。llama.cpp 也可以自己編譯或者下載有CUDA支持的llama.cpp。我用的參數如下:模型各種表現都不錯。    --cache-ram 32768 ^  可以不要  --threads 6 ^  可以減少。

 

請您先登陸,再發跟帖!