共计 258 个字符,预计需要花费 1 分钟才能阅读完成。
假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod,但目前一个 Pod 独占整数张 4090.
想要的效果是:2 个 (or 多个) Pod 可以同时共享一张显卡。
看了一下 NVIDIA 官方的方案:
- MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例,且只有例如 blackwell 等架构显卡才能用。
- vGPU(有分时方案和 MIG 方案),缺点是不免费,且一样挑显卡。
需求是:
- 支持同一张显卡在同一时间被多个容器使用
- 在消费级显卡上可用
- 免费
- 有在比较大规模集群上稳定跑过
请问站内有无大佬有相关的实践 / 思路 / 方案?
正文完