แก้ไข: บน CentOS 8.5 ลองกับไดรเวอร์ Mellanox 4.9-4.1.7.0 (ดั้งเดิม) และ 5.5-1.0.3.2:
ฉันไม่สามารถทำให้อแด็ปเตอร์ Infiniband ทำงานได้
ผลลัพธ์ของ อิบสแตท
ระบุว่าลง:
แคลิฟอร์เนีย 'mlx5_0'
ประเภท CA: MT4123
จำนวนพอร์ต: 1
เวอร์ชันเฟิร์มแวร์: 20.31.1014
รุ่นฮาร์ดแวร์: 0
โหนด GUID: 0xb8cef60300a7fbbc
GUID อิมเมจระบบ: 0xb8cef60300a7fbbc
พอร์ต 1:
รัฐ: ลง
สถานะทางกายภาพ: ปิดใช้งาน
อัตรา: 10
ฝาฐาน: 65535
แอลเอ็มซี: 0
ฝาปิด SM: 0
มาสก์ความสามารถ: 0x2651e848
พอร์ต GUID: 0xb8cef60300a7fbbc
ลิงค์เลเยอร์: InfiniBand
และ mlxlink -d mlx5_0
ผลลัพธ์:
ข้อมูลการดำเนินงาน
----------------
สถานะ: ปิดใช้งาน
สถานะทางกายภาพ : ETH_AN_FSM_ENABLE
ความเร็ว : N/A
ความกว้าง : N/A
FEC : N/A
โหมดวนกลับ : N/A
การเจรจาอัตโนมัติ : เปิด
ข้อมูลที่รองรับ
--------------
ความเร็วลิงก์ที่เปิดใช้งาน : 0x00000075 (HDR,EDR,FDR,QDR,SDR)
ความเร็วของสายเคเบิลที่รองรับ : 0x00000007 (QDR,DDR,SDR)
ข้อมูลการแก้ไขปัญหา
--------------------
รหัสสถานะ : 1036
รหัสลับของกลุ่ม : MNG FW
คำแนะนำ : เชื่อมต่อโมดูลผิดประเภท เปลี่ยนเป็นประเภทโมดูลอื่น
ดังนั้นฉันจึงมีข้อมูลการแก้ปัญหา ฉันแค่ไม่เข้าใจ ฉันค่อนข้างแน่ใจว่าสายเคเบิลเชื่อมต่ออยู่ อาจเป็นเพราะความไม่เข้ากันระหว่าง Connect-X 3 (ที่บริการ opensm ทำงาน) และอะแดปเตอร์ Connect-X 6
แก้ไข:
อะแดปเตอร์เชื่อมต่อด้วยสวิตช์ Mellanox SX6012
ผลลัพธ์ของ ibcheckstate -v
กำหนดไว้ดังต่อไปนี้ พอร์ต 1 เป็นโหนดที่มี opensm ทำงานอยู่ พอร์ตของโหนดใหม่ที่มีอะแดปเตอร์ ConnectX-6 หายไป
# การตรวจสอบสวิตช์: nodeguid 0x248a070300ccc140
ฝาตรวจสอบโหนด 2: ตกลง
ฝาตรวจสอบพอร์ต 2 พอร์ต 1: ตกลง
ฝาตรวจสอบพอร์ต 2 พอร์ต 2: ตกลง
ฝาตรวจสอบพอร์ต 2 พอร์ต 3: ตกลง
ฝาตรวจสอบพอร์ต 2 พอร์ต 4: ตกลง
ฝาตรวจสอบพอร์ต 2 พอร์ต 5: ตกลง
# ตรวจสอบ Ca: nodeguid 0x0cc47affff5fb364
ฝาตรวจสอบโหนด 4: ตกลง
ฝาตรวจสอบพอร์ต 4 พอร์ต 1: ตกลง
# ตรวจสอบ Ca: nodeguid 0x0cc47affff5fb8e4
ฝาตรวจสอบโหนด 6: ตกลง
ฝาตรวจสอบพอร์ต 6 พอร์ต 1: ตกลง
# ตรวจสอบ Ca: nodeguid 0x0cc47affff5fb4c4
ฝาตรวจสอบโหนด 5: ตกลง
ฝาตรวจสอบพอร์ต 5 พอร์ต 1: ตกลง
# ตรวจสอบ Ca: nodeguid 0x0cc47affff5fb89c
ฝาตรวจสอบโหนด 3: ตกลง
ฝาตรวจสอบพอร์ต 3 พอร์ต 1: ตกลง
# ตรวจสอบ Ca: nodeguid 0x248a070300f97f50
ฝาตรวจสอบโหนด 1: ตกลง
ฝาตรวจสอบพอร์ต 1 พอร์ต 1: ตกลง
*** คำเตือน ***: คำสั่งนี้เลิกใช้แล้ว
## สรุป: ตรวจสอบ 6 โหนด พบ 0 โหนดเสีย
## ตรวจสอบ 10 พอร์ต พบ 0 พอร์ตที่มีสถานะไม่ถูกต้อง
สายเคเบิลใช้งานได้กับอะแดปเตอร์ ConnectX-4 เป็นอย่างน้อย