Score:1

เหตุใด GPU จึงไม่สามารถสื่อสารในเซิร์ฟเวอร์หลาย GPU ได้

ธง us

นี่คือเซิร์ฟเวอร์ Dell PowerEdge r750xa ที่มี GPU Nvidia A40 4 ตัว ซึ่งมีไว้สำหรับแอปพลิเคชัน AI แม้ว่า GPU จะทำงานได้ดีแยกกัน แต่งานฝึกอบรมแบบหลาย GPU หรือปริมาณงานการคำนวณแบบ Multi-GPU ใดๆ จะล้มเหลว โดยที่ GPU อย่างน้อย 2 ตัวต้องแลกเปลี่ยนข้อมูล รวมถึง IPC แบบง่าย และ conjugateGradientMultiDeviceCG ตัวอย่าง CUDA (ตัวอย่างแรกแสดงผลลัพธ์ที่ไม่ตรงกัน ส่วนตัวอย่างที่สองค้าง)

ฉันได้เห็นการสนทนาออนไลน์ (1, 2, 3) โดยอ้างว่าต้องปิดบางอย่างที่เรียกว่า IOMMU ฉันลองตั้งค่า iommu=ปิด และ intel_iommu=ปิด เคอร์เนล Linux ตั้งค่าสถานะ แต่ก็ไม่ได้ช่วยอะไร ฉันตรวจสอบการตั้งค่า BIOS แล้ว แต่ไม่มีตัวเลือกให้ปิด IOMMU ใน BIOS

Score:1
ธง us

แม้ว่าจะไม่มีการตั้งค่า "IOMMU off" อย่างชัดเจนใน BIOS นี้ แต่ปัญหายังคงอยู่กับการกำหนดค่า BIOS

ใน BIOS ไปที่ "อุปกรณ์รวม" และเปลี่ยน "ฐาน I/O ที่แมปหน่วยความจำ" การตั้งค่าจากค่าเริ่มต้น "56TB" เป็น "12TB". สิ่งนี้จะช่วยแก้ปัญหาได้ ไม่จำเป็นต้องเพิ่มพารามิเตอร์เคอร์เนลเพิ่มเติม

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา