-
Notifications
You must be signed in to change notification settings - Fork 50
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
codellama34b ttft延迟问题 #19
Comments
不太正常,您测试的机器有 NVLINK 吗? |
有的,目前除了这个模型之外,测试的其他尺寸包括(1b、7b、13b)的TTFT都是要优于vllm的,这个是否与codellama-34b使用了GQA有关 |
GQA应该不会影响 TTFT 的时间,可能是新版本的 vllm 针对长 conext 的 prefill kernel 有了新的优化,你可以做一下单 request 的 profiling 看看。 |
|
能提供下你测试用的 vllm 版本号吗 |
0.5.0post1, 可以直接从docker hub上拉最新的镜像 |
我这边测试llama3 70b,速度也是没vllm快的,不管是ttft还是throughput,应该是vllm自己做了一波优化 |
你好,在最近的测试中,我在A100上测试Llama-13b、7b等模型,对比vllm和distserve, 在满足slo的情况下, distserve性能要优于vllm,但是在测试codellama-34b过程中,当我的输入长度为8192,发现TTFT要高出vllm约3倍左右,请问这个情况是正常的吗?vllm使用tp2, distserve使用prefill tp2, decode tp2。
The text was updated successfully, but these errors were encountered: