現在有很多加速和增加 ctx-size的法子,支持MTP的llama.cpp,我的速度可以到60-65左右,支持MTP 的 vLLM的windows版本可以到75, 但是需要多占2-3G的圖形卡內存, 就用不了大的ctx-size。我試了最大也就到130K 左右。 所以我用llama.cpp 和 Q4_K_XL,180K的ctx-size 時間多一些 ,Q5_K_M的ctx-size上限估計為145K。
現在有很多加速和增加 ctx-size的法子,支持MTP的llama.cpp,我的速度可以到60-65左右,支持MTP 的 vLLM的windows版本可以到75, 但是需要多占2-3G的圖形卡內存, 就用不了大的ctx-size。我試了最大也就到130K 左右。 所以我用llama.cpp 和 Q4_K_XL,180K的ctx-size 時間多一些 ,Q5_K_M的ctx-size上限估計為145K。
WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.
Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy