GPU Manager 提供一个 All-in-One 的 GPU 管理器,基于 Kubernetes DevicePlugin 插件系统实现,该管理器提供了分配并共享 GPU、GPU 指标查询、容器运行前的 GPU 相关设备准备等功能,支持用户在 Kubernetes 集群中使用 GPU 设备。
/metric
路径,可以为 Prometheus 提供 GPU 指标的收集功能,访问 /usage
路径可以进行可读性的容器状况查询。Kubernetes 对象名称 | 类型 | 建议预留资源 | 所属 Namespaces |
---|---|---|---|
gpu-manager-daemonset | DaemonSet | 每节点1核 CPU, 1Gi内存 | kube-system |
gpu-quota-admission | Deployment | 每节点1核 CPU, 1Gi内存 | kube-system |
在 Kubernetes 集群中运行 GPU 应用时,可以解决 AI 训练等场景中申请独立卡造成资源浪费的情况,让计算资源得到充分利用。
当 GpuManager 组件成功安装后,您可通过以下两种方式创建细粒度的 GPU 工作负载。
说明:在提交时通过 yaml 为容器设置 GPU 的使用资源,核资源需要在 resource 上填写
tencent.com/vcuda-core
,显存资源需要在 resource 上填写tencent.com/vcuda-memory
。
下面给出 yaml 示例:
使用1张卡的 P4 设备:
apiVersion: v1
kind: Pod
...
spec:
containers:
- name: gpu
resources:
tencent.com/vcuda-core: 100
使用0.3张卡,5GiB 显存的应用:
apiVersion: v1
kind: Pod
...
spec:
containers:
- name: gpu
resources:
tencent.com/vcuda-core: 30
tencent.com/vcuda-memory: 20
本页内容是否解决了您的问题?