ผมทำตามนี้ กวดวิชาอย่างเป็นทางการ เพื่ออนุญาตให้คลัสเตอร์ k8s แบบเปลือยมีการเข้าถึง GPU อย่างไรก็ตาม ฉันได้รับข้อผิดพลาดขณะทำเช่นนั้น
Kubernetes 1.21 บรรจุ 1.4.11 และ Ubuntu 20.04.3 LTS (GNU/Linux 5.4.0-91-generic x86_64)
ไดรเวอร์ Nvidia ได้รับการติดตั้งไว้ล่วงหน้าบนระบบปฏิบัติการที่มีเวอร์ชัน 495 Headless
หลังจากวางการกำหนดค่าต่อไปนี้ภายใน /etc/containerd/config.toml
และทำการรีสตาร์ทบริการ containerd จะล้มเหลวในการเริ่มต้น ทางออก 1
.
คอนเทนเนอร์ Config.toml
บันทึกระบบ ที่นี่.
# ตำแหน่งข้อมูลถาวร
รูท = "/var/lib/containerd"
# ข้อมูลสถานะรันไทม์
state = "/รัน/คอนเทนเนอร์"
# Kubernetes ไม่ได้ใช้ตัวจัดการรีสตาร์ทคอนเทนเนอร์
disabled_plugins = ["รีสตาร์ท"]
# การกำหนดค่า NVIDIA เริ่มต้นที่นี่
รุ่น = 2
[ปลั๊กอิน]
[ปลั๊กอิน"io.containerd.grpc.v1.cri"]
[ปลั๊กอิน".io.containerd.grpc.v1.cri".containerd]
default_runtime_name = "nvidia"
[ปลั๊กอิน".io.containerd.grpc.v1.cri".containerd.runtimes]
[ปลั๊กอิน"io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
สิทธิพิเศษ_ไม่มีโฮสต์_อุปกรณ์=เท็จ
runtime_engine = ""
runtime_root = ""
runtime_type = "io.containerd.runc.v2"
[ปลั๊กอิน"io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
BinaryName = "/usr/bin/nvidia-container-runtime"
# การกำหนดค่า NVIDIA สิ้นสุดที่นี่
[แก้ปัญหา]
ระดับ = ""
[จีอาร์พีซี]
max_recv_message_size=16777216
max_send_message_size = 16777216
[plugins.linux]
ชิม = "/usr/bin/containerd-shim"
รันไทม์ = "/usr/bin/runc"
ฉันสามารถยืนยันได้ว่าไดรเวอร์ Nvidia ตรวจพบ GPU (Nvidia GTX 750Ti) โดยเรียกใช้ nvidia-smi
และได้ผลลัพธ์ดังต่อไปนี้
+--------------------------------------------- ----------------------------+
| เวอร์ชันไดรเวอร์ NVIDIA-SMI 495.44: 495.44 เวอร์ชัน CUDA: 11.5 |
|---------------------------------------++---------------- ----------------------------+
| ชื่อ GPU ความคงทน-M| Bus-Id Disp.A | ผันผวน Uncorr ECC |
| Fan Temp Perf Pwr:การใช้งาน/ความจุ| การใช้งานหน่วยความจำ | GPU-Util Compute M. |
| | | MIG M. |
|==============================+================== =====+======================|
| 0 NVIDIA GeForce ... ปิด | 00000000:02:00.0 ปิด | ไม่มี |
| 34% 34C P8 1W / 38W | 0MiB / 2000MiB | ค่าเริ่มต้น 0% |
| | | ไม่มี |
+--------------------------------------+-------- ----------------------------+
+--------------------------------------------- ----------------------------+
| กระบวนการ: |
| GPU GI CI ประเภท PID ชื่อกระบวนการ หน่วยความจำ GPU |
| รหัส ID การใช้ |
|================================================= ============================|
| ไม่พบกระบวนการทำงาน |
+--------------------------------------------- ----------------------------+
แก้ไข config.toml ที่ทำให้มันทำงานได้