支持不同显存显卡的推理加速框架

36次阅读

共计 290 个字符,预计需要花费 1 分钟才能阅读完成。

搞到了 4 张 a100 显卡,两张 80GB 显存的,两张 40GB 显存的,准备跑 Qwen1.5-110B-Chat 非量化版本的。
可是 vllm 等推理加速框架没办法手动配置各张卡的显存占用,只能平均分配,导致受限于显存容量最低的显卡,ollama 可以按比例分配显存, 但是其依赖的 llama.cpp 貌似多张卡是串行推理的,也没有实现 paged attention,速度相比 vllm 慢很多。
现在有什么推理加速库可以像原始 transformers 库一样,通过配置 max_memory={0: “75GIB”, 1: “75GIB”,2:”38GIB”,3:”38GIB”} 等方式, 充分利用不同大小显存的卡吗。

正文完
 0