เหตุใด GPU จึงไม่สามารถสื่อสารในเซิร์ฟเวอร์หลาย GPU ได้

isarandi

10/3/23 00:35

นี่คือเซิร์ฟเวอร์ Dell PowerEdge r750xa ที่มี GPU Nvidia A40 4 ตัว ซึ่งมีไว้สำหรับแอปพลิเคชัน AI แม้ว่า GPU จะทำงานได้ดีแยกกัน แต่งานฝึกอบรมแบบหลาย GPU หรือปริมาณงานการคำนวณแบบ Multi-GPU ใดๆ จะล้มเหลว โดยที่ GPU อย่างน้อย 2 ตัวต้องแลกเปลี่ยนข้อมูล รวมถึง IPC แบบง่าย และ conjugateGradientMultiDeviceCG ตัวอย่าง CUDA (ตัวอย่างแรกแสดงผลลัพธ์ที่ไม่ตรงกัน ส่วนตัวอย่างที่สองค้าง)

ฉันได้เห็นการสนทนาออนไลน์ (1, 2, 3) โดยอ้างว่าต้องปิดบางอย่างที่เรียกว่า IOMMU ฉันลองตั้งค่า iommu=ปิด และ intel_iommu=ปิด เคอร์เนล Linux ตั้งค่าสถานะ แต่ก็ไม่ได้ช่วยอะไร ฉันตรวจสอบการตั้งค่า BIOS แล้ว แต่ไม่มีตัวเลือกให้ปิด IOMMU ใน BIOS

0 + 0

ลินุกซ์

ประวัติ

dell-poweredge

เอชพีซี

จีพียู

Score:1

Server

isarandi

10/3/23 00:35

แม้ว่าจะไม่มีการตั้งค่า "IOMMU off" อย่างชัดเจนใน BIOS นี้ แต่ปัญหายังคงอยู่กับการกำหนดค่า BIOS

ใน BIOS ไปที่ "อุปกรณ์รวม" และเปลี่ยน "ฐาน I/O ที่แมปหน่วยความจำ" การตั้งค่าจากค่าเริ่มต้น "56TB" เป็น "12TB". สิ่งนี้จะช่วยแก้ปัญหาได้ ไม่จำเป็นต้องเพิ่มพารามิเตอร์เคอร์เนลเพิ่มเติม

0 + 0

Kulap

คำถามนี้เป็นภาษาอื่นๆ:

EN: Why can't the GPUs communicate in a multi-GPU server?

TH: เหตุใด GPU จึงไม่สามารถสื่อสารในเซิร์ฟเวอร์หลาย GPU ได้

RO: De ce nu pot comunica GPU-urile pe un server multi-GPU?

RU: Почему графические процессоры не могут обмениваться данными на сервере с несколькими графическими процессорами?

VI: Tại sao GPU không thể giao tiếp trong máy chủ đa GPU?

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา