一个 k8s 设备插件,用于调度和分配 vGPU 设备
VGPU 管理器用于管理和分配 vGPU 设备的 k8s 设备插件。 支持多容器和多 GPU 虚拟化分配和丰富的调度策略。 项目目标:- 高效的调度性能
- 保证容器资源隔离的安全性
- 简化容器内的 GRPC
- 支持 CUDA 12.x 驱动程序版本
- 支持 CGroupV1 和 CGroupV2
- 节点和设备双重调度策略
- 提供 GPU 监控指标
- 动平衡设备的闲置算力
- GPU 设备在超出内存限制后使用虚拟内存
- 重新调度设备分配失败的 Pod
- Webhook 动态准入,修复部分不规范的 Pod 配置
- 为 NUMA 和 NVLink 提供最佳拓扑分配
- 兼容热插拔设备和扩展功能
- 与 Volcano Batch Scheduler 兼容
- 支持动态资源分配 (DRA)
注: 勾选表示函数已完成,取消勾选表示函数尚未完成或计划实现。 先决条件- Kubernetes v1.17+(使用 helm chart 方法安装)
- Docker / Containerd (其他运行时未测试)
- Nvidia Container Toolkit(配置 NVIDIA 容器运行时)

链接:https://pan.quark.cn/s/517093a9dac0
提取码下载:
|