版本:v2.7.0
启用 Hygon DCU 共享
简介
本组件支持复用海光 DCU 设备,并为此提供以下几种与 vGPU 类似的复用功能,包括:
DCU 共享: 每个任务可以只占用一部分显卡,多个任务可以共享一张显卡
可限制分配的显存大小: 你现在可以用显存值(例如 3000M)来分配 DCU,本组件会确保任务使用的显存不会超过分配数值
可限制计算单元数量: 你现在可以指定任务使用的算力比例(例如 60 即代表使用 60% 算力)来分配 DCU,本组件会确保任务使用的算力不会超过分配数值
指定 DCU 型号:当前任务可以通过设置 annotation("hygon.com/use-dcutype","hygon.com/nouse-dcutype") 的方式,来选择使用或者不使用某些具体型号的 DCU
节点需求
- dtk driver >= 24.04
- hy-smi v1.6.0
开启 DCU 复用
运行 DCU 任务
apiVersion: v1
kind: Pod
metadata:
name: alexnet-tf-gpu-pod-mem
labels:
purpose: demo-tf-amdgpu
spec:
containers:
- name: alexnet-tf-gpu-container
image: pytorch:resnet50
workingDir: /root
command: ["sleep","infinity"]
resources:
limits:
hygon.com/dcunum: 1 # 请求一个 DCU
hygon.com/dcumem: 2000 # 每个 DCU 包含 2000M 设备显存
hygon.com/dcucores: 60 # 每个 DCU 分配 15% 的设备核心