ฉันมีชุดเครื่องที่เหมือนกันในฮาร์ดแวร์ และเกือบจะเหมือนกันในการติดตั้งซอฟต์แวร์ แต่หนึ่งในนั้นกำลังเติมเต็ม /var/log/messages
กับ:
16 มิ.ย. 09:41:37 น. h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 msec ที่แล้ว)
16 มิ.ย. 09:41:37 น. h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 msec ที่แล้ว)
16 มิ.ย. 09:41:47 น. เคอร์เนล h0stname: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10080 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:41:47 น. h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10080 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:41:57 น. เคอร์เนล h0stname: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10076 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:41:57 น. h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10076 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:07 น. h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:07 น. h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:17 น. h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10081 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:17 น. เคอร์เนล h0stname: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10081 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:28 เคอร์เนล h0stname: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10074 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:28 น. เคอร์เนล h0stname: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10074 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:38 h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10083 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:38 h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10083 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:48 h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:48 h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10082 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:58 h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10081 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:42:58 h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10081 msec ที่แล้ว)
16 มิ.ย. 09:43:08 h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10069 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:43:08 h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10069 มิลลิวินาทีที่แล้ว)
16 มิ.ย. 09:43:18 h0stname เคอร์เนล: pciehp 10000:00:00.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10079 msec ที่แล้ว)
16 มิ.ย. 09:43:18 h0stname เคอร์เนล: pciehp 10000:00:01.0:pcie04: หมดเวลาในคำสั่ง hotplug 0x13f8 (ออกเมื่อ 10079 msec ที่แล้ว)
ชิ้นส่วนของฮาร์ดแวร์น่าจะไม่มีความสุขเกินไปฉันจะดำเนินการค้นหาว่าฮาร์ดแวร์ชิ้นใดที่เป็นสาเหตุของข้อร้องเรียนได้อย่างไร ดูเหมือนว่าทุกอย่างจะทำงานได้ตามปกติ ยกเว้นจากดิสก์ที่รู้จักใน RAID โดยปกติฉันจะเริ่มตัดการเชื่อมต่อสิ่งต่างๆ เพื่อจำกัดให้แคบลง แต่ตอนนี้ฉันมีเพียง SSH เท่านั้น และตารางฮาร์ดแวร์ก็ใหญ่มาก
ทั้งหมดที่ฉันรู้ก็คือมันเกี่ยวข้องกับสะพาน PCI เช่น lspci
แสดงรายการที่อยู่ที่เกี่ยวข้อง:
10,000:00:00.0 บริดจ์ PCI: Intel Corporation Sky Lake-E PCI Express Root Port A (rev 04)
10000:00:01.0 บริดจ์ PCI: Intel Corporation Sky Lake-E PCI Express Root Port B (rev 04)
ใช้ Centos 7, เคอร์เนล 3.10.0-693.21.1.el7.x86_64