针对 Paper中 Long数据集的评测配置 #93

MaiziXiao · 2025-01-02T08:06:48Z

vllm serve THUDM/glm-4-9b-chat --api-key token-abc123 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max_model_len 131072 --trust-remote-code

README中启动服务时最长长度 128k，在 paper 中, Long 的数据集都大于 128k，麻烦给一下具体启动服务的命令和 rope的配置，我这里没法复现出 paper 里的 long 的指标

The text was updated successfully, but these errors were encountered:

bys0318 · 2025-01-02T08:30:36Z

你好，Long (>128k) 只是评测数据的一个subset，代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072，对于超过 128k token 的序列作截断。

MaiziXiao · 2025-01-02T08:46:46Z

你好，Long (>128k) 只是评测数据的一个subset，代表所有测试数据中长度大于 128k token 的数据集合。在所有数据上的评测我们都是用的--max_model_len 131072，对于超过 128k token 的序列作截断。

数据集的介绍中数据集长度最长会到 2m，请问下

请问你们的截断方法，如果整体 prompt 被 vllm 的服务截断的话，如何确保指令和答案信息能够被保留？如果要截断至 128k，在提供数据时为什么不直接截断
针对不同模型的长文评测，分别用的什么配置？是否是用的 vllm 默认读取的模型config

MaiziXiao · 2025-01-03T02:24:14Z

看了下 Paper，是从中间截断，请问这种方式如何确保 context 中的答案信息能够被保留？另外对于 Expert来说，看的是全文，对模型来说是截断的128k context，这里的比较是否会有diff

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

针对 Paper中 Long数据集的评测配置 #93

针对 Paper中 Long数据集的评测配置 #93

MaiziXiao commented Jan 2, 2025

bys0318 commented Jan 2, 2025

MaiziXiao commented Jan 2, 2025

MaiziXiao commented Jan 3, 2025

针对 Paper中 Long数据集的评测配置 #93

针对 Paper中 Long数据集的评测配置 #93

Comments

MaiziXiao commented Jan 2, 2025

bys0318 commented Jan 2, 2025

MaiziXiao commented Jan 2, 2025

MaiziXiao commented Jan 3, 2025