ฉันมีระบบที่ไม่เสถียร (รีบูตแบบสุ่ม) และกำลังพยายามหาสาเหตุของการรีบูต คำถามของฉันคือ MCE เหล่านี้เป็นข้อผิดพลาดร้ายแรงที่อาจนำไปสู่การรีบูตหรือไม่ ถ้าเป็นเช่นนั้น พวกเขาควรแจ้งให้ฉันเปลี่ยน CPU หรือ RAM หรือไม่
หลังจากรีบูตทุกครั้ง (ไม่ว่าจะสุ่มหรือเริ่มต้นโดย sudo รีบูต
) มีการผลิต MCE ต่อไปนี้:
เคอร์เนล 14:50:45: [ 0.778792] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: บันทึกเหตุการณ์การตรวจสอบเครื่อง
เคอร์เนล 14:50:45: [ 0.778793] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: CPU 0: การตรวจสอบเครื่อง: 0 ธนาคาร 17: ee2000000004017a
เคอร์เนล 14:50:45: [ 0.778795] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: TSC 0 ADDR 5f000000 MISC 8cf00031e0000086
เคอร์เนล 14:50:45: [ 0.778797] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: โปรเซสเซอร์ 0:306f2 TIME 1639083036 SOCKET 0 APIC 0 ไมโครโค้ด 46
เคอร์เนล 14:50:45: [ 0.778798] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: บันทึกเหตุการณ์การตรวจสอบเครื่อง
เคอร์เนล 14:50:45: [ 0.778799] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: CPU 0: การตรวจสอบเครื่อง: 0 ธนาคาร 18: ee2000000004017a
เคอร์เนล 14:50:45: [ 0.778799] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: TSC 0 ADDR 5f100040 MISC 1cf00031e0000086
เคอร์เนล 14:50:45: [ 0.778801] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: โปรเซสเซอร์ 0:306f2 เวลา 1639083036 ซ็อกเก็ต 0 APIC 0 ไมโครโค้ด 46
เคอร์เนล 14:50:45: [ 0.778802] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: CPU 0: การตรวจสอบเครื่อง: 0 ธนาคาร 19: ee2000000004017a
เคอร์เนล 14:50:45: [ 0.778802] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: TSC 0 ADDR 5f100000 MISC 54f00031e0000086
เคอร์เนล 14:50:45: [ 0.778804] mce: [ข้อผิดพลาดของฮาร์ดแวร์]: โปรเซสเซอร์ 0:306f2 TIME 1639083036 SOCKET 0 APIC 0 ไมโครโค้ด 46
น่าเสียดายที่ข้อความเหล่านี้พูดพล่อยๆ แรสเดมอน
หรือ แมคล็อก
เพื่อตีความพวกเขา น่าเสียดายที่มันไม่เหมือน แรสเดมอน
เริ่มทำงานจนกระทั่งหลังจากบันทึกข้อความแล้ว (ข้อผิดพลาดไม่ปรากฏใน ras-mc-ctl -- สรุป
). สังเกตการประทับเวลา:
14:50:50 rasdaemon[1023]: rasdaemon: เปิดใช้งานเหตุการณ์ ras:mc_event
14:50:50 rasdaemon[1023]: rasdaemon: เหตุการณ์ที่เปิดใช้งาน ras:mc_event
14:50:50 rasdaemon[1023]: rasdaemon: เปิดใช้งานเหตุการณ์ ras:aer_event
14:50:50 rasdaemon[1023]: rasdaemon: เหตุการณ์ที่เปิดใช้งาน ras:aer_event
14:50:50 rasdaemon[1023]: rasdaemon: คำเตือน: cpu 0 ออฟไลน์หรือไม่ ไม่ได้ตั้งค่า imc_log
14:50:50 rasdaemon[1023]: rasdaemon: เปิดใช้งานเหตุการณ์ mce:mce_record
14:50:50 rasdaemon[1023]: rasdaemon: เหตุการณ์ที่เปิดใช้งาน mce:mce_record
14:50:50 rasdaemon[1023]: rasdaemon: ras:extlog_mem_event เปิดใช้งานเหตุการณ์
14:50:50 rasdaemon[1023]: rasdaemon: เหตุการณ์ที่เปิดใช้งาน ras:extlog_mem_event
14:50:50 rasdaemon[1023]: rasdaemon: กำลังฟังเหตุการณ์สำหรับซีพียู 0 ถึง 15
14:50:50 rasdaemon[1025]: rasdaemon: เปิดใช้งานเหตุการณ์ ras:mc_event
14:50:50 rasdaemon[1025]: rasdaemon: เปิดใช้งานเหตุการณ์ ras:aer_event
14:50:50 rasdaemon[1025]: rasdaemon: เปิดใช้งานเหตุการณ์ mce:mce_record
14:50:50 rasdaemon[1025]: rasdaemon: เปิดใช้งานเหตุการณ์ ras:extlog_mem_event
มีวิธีที่ดีกว่าในการแก้ปัญหานี้หรือไม่? การอัปเดตเป็น 20.04 จะช่วยได้จริงตามที่แนะนำใน คำตอบนี้?