Score:1

เซิร์ฟเวอร์ GPU หยุดทำงานในระหว่างที่ไม่ได้ใช้งาน GPU

ธง ar

เรามี Supermicro Server ใหม่ AS-4124GS-TNR ที่ติดตั้ง NVIDIA RTX A6000 แปดตัว ระบบปฏิบัติการคือ Ubuntu 20.04.2 เวอร์ชันไดรเวอร์ NVIDIA คือ 460.73.01 (ไม่ใช้ไดรเวอร์ Nouveau) เวอร์ชัน CUDA คือ 11.2

เราทำการทดสอบ GPU เป็นระยะเวลานานสองสามครั้งและระบบก็เสถียร อย่างไรก็ตาม หลังจากที่ GPU บางตัวไม่ได้ใช้งาน ระบบก็ล้มเหลวซ้ำแล้วซ้ำเล่า

เราสันนิษฐานว่า โหมด GpuPowerMizer ต้องตั้งค่าเป็น 1 เพื่อป้องกันการหยุดทำงานระหว่าง GPU ไม่ทำงาน (ข้อสันนิษฐานที่สนับสนุนโดยรายงานผู้ใช้รายอื่นที่พบในอินเทอร์เน็ต)

วิธีเดียวที่จะทำสิ่งนี้ที่เรารู้คือเริ่ม X (เช่น โดยเริ่ม gdm) แล้วตั้งค่าตามนั้นผ่าน การตั้งค่า nvidia (วิ่ง การตั้งค่า nvidia ไม่มี X/gdm นำไปสู่ ​​"ไม่สามารถเริ่มต้นเซิร์ฟเวอร์: ไม่สามารถเชื่อมต่อได้: การเชื่อมต่อถูกปฏิเสธ"). แต่เมื่อหยุด X/gdm, โหมด GpuPowerMizer ค่าจะถูกรีเซ็ตเป็น 2 โดยอัตโนมัติ น่าเสียดายที่การคง X/gdm ไว้ทำงานไม่ใช่ตัวเลือก เพราะสิ่งนี้ยังทำให้ระบบไม่เสถียรอีกด้วย

ดังนั้นปัญหาของเราน่าจะเป็นดังนี้:

  1. GPU ไม่ทำงาน + โหมด GpuPowerMizer != 1 อาจส่งผลให้ระบบหยุดทำงาน โหมด GpuPowerMizer ตั้งค่าได้ทาง การตั้งค่า nvidia เชื่อมต่อกับ X/dm (?) ที่กำลังทำงานอยู่ ในการตั้งค่าอย่างต่อเนื่องเป็น 1 X/dm(?) จะต้องทำงานต่อไป
  2. X/gdm ที่ทำงานอยู่อาจทำให้ระบบล่มได้

สมมติฐานของเราถูกต้องหรือไม่? / คนอื่น ๆ ประสบปัญหาเหล่านี้หรือไม่?

เราจะแก้ปัญหาการค้างระหว่าง GPU ไม่ทำงานได้อย่างไร?

Score:1
ธง cz

ไม่จำเป็นต้องเริ่มเซสชัน GUI (หรือแม้แต่ติดตั้งไว้!) เพื่อเปลี่ยนการตั้งค่าเช่นนี้ การตั้งค่า nvidia ควรทำงานได้ดีจากคอนโซล framebuffer หรือแม้แต่ในสคริปต์ที่คุณเขียนซึ่งทำงานเมื่อเริ่มต้น

ตรวจสอบเพื่อให้แน่ใจว่า:

# การตั้งค่า nvidia -q GpuPowerMizerMode

  แอตทริบิวต์ 'GPUPowerMizerMode' (blacktemple:1[gpu:0]): 1.
    ค่าที่ถูกต้องสำหรับ 'GPUPowerMizerMode' คือ: 0, 1 และ 2
    'GPUPowerMizerMode' สามารถใช้ประเภทเป้าหมายต่อไปนี้: GPU

สำหรับ GPU แปดตัว เพียงแค่เขียนสคริปต์อย่างง่าย เช่น:

สำหรับ n ใน $(seq 0 7); ทำ
    การตั้งค่า nvidia -a "[gpu:$n]/GpuPowerMizerMode=1"
เสร็จแล้ว

และเรียกใช้เมื่อเริ่มต้นในลักษณะใดก็ได้ที่คุณสะดวก


ฉันไม่สามารถพูดได้ว่าข้อขัดข้องของคุณเกิดจากการรันด้วย GpuPowerMizerMode!=1 หากเป็นกรณีนี้ แสดงว่าคุณอาจมีฮาร์ดแวร์ที่ชำรุดซึ่งคุณควรติดตามและเปลี่ยนใหม่

user776206 avatar
ar flag
การเรียกใช้การตั้งค่า nvidia โดยไม่เรียกใช้และใช้ X/gdm นำไปสู่ ​​'ไม่สามารถเริ่มต้นเซิร์ฟเวอร์: ไม่สามารถเชื่อมต่อได้: การเชื่อมต่อถูกปฏิเสธ'
Michael Hampton avatar
cz flag
@user776206 หืม ไม่คาดคิดเลย ฉันจะไปเล่นกับมันในภายหลัง

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา