Score:0

จะระบุสล็อตสำหรับการ์ด GPU ที่ผิดพลาดในเซิร์ฟเวอร์โดยใช้คำสั่ง UBUNTU OS ได้อย่างไร

ธง fr

ฉันมีคำถาม. เป็นไปได้หรือไม่ที่จะระบุสล็อตที่มีการ์ด GPU เสียโดยใช้ระบบปฏิบัติการ UBUNTU? เรามีเซิร์ฟเวอร์ SuperMicro GPU ซึ่งมีการ์ด GPU ประมาณ 8 ใบสำหรับการประมวลผล AI บางครั้งเราไปที่ห้องเซิร์ฟเวอร์หลังจากที่เราได้รับข้อมูลจากผู้ใช้/แผนกว่าการ์ดไม่สามารถมองเห็นได้ในคำสั่ง 'nvidia-smi' สิ่งเหล่านี้มักเป็นความล้มเหลวของฮาร์ดแวร์จากนั้นเราพบกับสถานการณ์ที่การ์ด 7 ใบทำงานได้อย่างถูกต้อง และน่าเสียดายที่เราต้องระบุการ์ดที่ผิดพลาดโดยการลองผิดลองถูกโดยการดึงการ์ดจากเซิร์ฟเวอร์ การดำเนินการนี้น่าเบื่อและใช้เวลานานมาก ดังนั้นฉันจึงสงสัยว่าเป็นไปได้หรือไม่ที่จะระบุช่องเสียบที่การ์ดเสียอยู่อย่างชัดเจน

ขอบคุณล่วงหน้า.

Nikita Kipriyanov avatar
za flag
คุณสามารถระบุที่อยู่ PCI ของการ์ดที่ผิดพลาดได้หรือไม่?
Score:0
ธง za

โดยทั่วไป หากคุณสามารถทราบได้ว่าการ์ดนี้มีที่อยู่บัส PCI ใด คุณจะสามารถระบุตำแหน่งสล็อตที่ถูกต้องได้ สำรวจ ดีไมโค้ด เอาต์พุตและค้นหาว่าที่อยู่ PCI นี้ปรากฏในช่องใด

อย่างไรก็ตาม สิ่งนี้จะช่วยได้ก็ต่อเมื่อคุณมั่นใจว่าการกำหนดหมายเลขสล็อต PCI ใน DMI นั้นคาดเดาได้และสอดคล้องกับสล็อตจริงบนเมนบอร์ด ในคอมพิวเตอร์ยี่ห้อต่างๆ (HPE, Dell ฯลฯ) มักจะเป็นเช่นนี้ หากเมนบอร์ดผลิตโดยแบรนด์ที่มีชื่อเสียงน้อยกว่า ข้อมูล DMI อาจไม่ซิงค์กัน อย่างไรก็ตาม มันก็คุ้มค่าที่จะลอง

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา