不知道為啥有禁詞：llama.cpp 穩定性和速度都是較好的

來源: pichawxc 於 2026-05-17 17:38:37 [檔案] [博客] [舊帖] [給我悄悄話] 閱讀數 : (454 bytes)

回答: RTX 3090 跑Qwen3.6-27B-Q5_K_M居然能到20 token/s？由 jasonshane 於 2026-05-16 00:02:02

雖然下層ollama也是用llama.cpp.

Qwen3.6-27B-Q5_K_M.gguf3090的初始速度可以到35，你應該可以到40。你速度慢的一個主要原因，是沒有用CUDA編譯的ollama。llama.cpp 也可以自己編譯或者下載有CUDA支持的llama.cpp。我用的參數如下：模型各種表現都不錯。 --cache-ram 32768 ^ 可以不要 --threads 6 ^ 可以減少。

您的位置：文學城 » 論壇 » 實用電腦 » 不知道為啥有禁詞：llama.cpp 穩定性和速度都是較好的

請您先登陸，再發跟帖！