เรามี Supermicro Server ใหม่ AS-4124GS-TNR ที่ติดตั้ง NVIDIA RTX A6000 แปดตัว ระบบปฏิบัติการคือ Ubuntu 20.04.2 เวอร์ชันไดรเวอร์ NVIDIA คือ 460.73.01 (ไม่ใช้ไดรเวอร์ Nouveau) เวอร์ชัน CUDA คือ 11.2
เราทำการทดสอบ GPU เป็นระยะเวลานานสองสามครั้งและระบบก็เสถียร อย่างไรก็ตาม หลังจากที่ GPU บางตัวไม่ได้ใช้งาน ระบบก็ล้มเหลวซ้ำแล้วซ้ำเล่า
เราสันนิษฐานว่า โหมด GpuPowerMizer
ต้องตั้งค่าเป็น 1 เพื่อป้องกันการหยุดทำงานระหว่าง GPU ไม่ทำงาน (ข้อสันนิษฐานที่สนับสนุนโดยรายงานผู้ใช้รายอื่นที่พบในอินเทอร์เน็ต)
วิธีเดียวที่จะทำสิ่งนี้ที่เรารู้คือเริ่ม X (เช่น โดยเริ่ม gdm) แล้วตั้งค่าตามนั้นผ่าน การตั้งค่า nvidia
(วิ่ง การตั้งค่า nvidia
ไม่มี X/gdm นำไปสู่ "ไม่สามารถเริ่มต้นเซิร์ฟเวอร์: ไม่สามารถเชื่อมต่อได้: การเชื่อมต่อถูกปฏิเสธ"). แต่เมื่อหยุด X/gdm, โหมด GpuPowerMizer
ค่าจะถูกรีเซ็ตเป็น 2 โดยอัตโนมัติ น่าเสียดายที่การคง X/gdm ไว้ทำงานไม่ใช่ตัวเลือก เพราะสิ่งนี้ยังทำให้ระบบไม่เสถียรอีกด้วย
ดังนั้นปัญหาของเราน่าจะเป็นดังนี้:
- GPU ไม่ทำงาน +
โหมด GpuPowerMizer
!= 1 อาจส่งผลให้ระบบหยุดทำงาน โหมด GpuPowerMizer
ตั้งค่าได้ทาง การตั้งค่า nvidia
เชื่อมต่อกับ X/dm (?) ที่กำลังทำงานอยู่ ในการตั้งค่าอย่างต่อเนื่องเป็น 1 X/dm(?) จะต้องทำงานต่อไป
- X/gdm ที่ทำงานอยู่อาจทำให้ระบบล่มได้
สมมติฐานของเราถูกต้องหรือไม่? / คนอื่น ๆ ประสบปัญหาเหล่านี้หรือไม่?
เราจะแก้ปัญหาการค้างระหว่าง GPU ไม่ทำงานได้อย่างไร?