Score:0

ข้อผิดพลาด ECC ที่แก้ไขไม่ได้หลายรายการใน DIMM หลายตัว

ธง cn

ฉันมีระบบ Supermicro X8DT6 ที่จู่ๆ ก็เกิดข้อผิดพลาด ECC ที่แก้ไขไม่ได้ในอัตราสูง ระบบทำงานโดยปราศจากข้อผิดพลาดจนกระทั่งเมื่อสองสามวันก่อน และขณะนี้พบข้อผิดพลาด ECC ที่แก้ไขไม่ได้ (และการรีบูตที่เกิดขึ้นเองที่เกี่ยวข้อง) หลายครั้งต่อวัน ข้อผิดพลาดไม่ได้ถูกแยกไปยัง DIMM เดียว

รายละเอียดระบบ: Single X5650 CPU, 48G DDR3 ram @1333Mhz in 6 DIMM ใช้ Debian Linux

เท่าที่ฉันสามารถบอกได้ ไม่พบข้อผิดพลาด ECC ที่แก้ไขได้ (rasdaemon ไม่แสดงอะไรเลย และบันทึกเหตุการณ์ ipmi แสดงเฉพาะสิ่งที่แก้ไขไม่ได้)

ปัญหาเกิดขึ้นครั้งแรกเมื่อสองสามวันก่อน และคุณสามารถดูได้จากบันทึกนี้ว่าในตอนแรกดูเหมือนว่าจะจำกัดอยู่ที่ DIMM เดียว:

  3f | 09/13/2021 | 18:13:02 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  40 | 09/14/2021 | 03:30:49 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  41 | 09/14/2021 | 04:10:28 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  42 | 09/14/2021 | 04:11:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  43 | 09/14/2021 | 04:19:31 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  44 | 09/14/2021 | 04:27:06 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  45 | 09/14/2021 | 04:28:39 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  46 | 09/14/2021 | 04:32:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  47 | 09/14/2021 | 04:35:48 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  48 | 09/14/2021 | 04:39:51 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  49 | 09/14/2021 | 04:41:29 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4a | 09/14/2021 | 04:48:16 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4b | 09/14/2021 | 04:53:43 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4c | 09/14/2021 | 04:54:52 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4d | 09/14/2021 | 05:09:41 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4e | 09/14/2021 | 05:12:04 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  4f | 09/14/2021 | 05:20:51 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  50 | 09/14/2021 | 05:23:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  51 | 09/14/2021 | 05:34:12 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  52 | 09/14/2021 | 05:39:44 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  53 | 09/14/2021 | 05:41:24 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  54 | 09/14/2021 | 05:47:19 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  55 | 09/14/2021 | 05:55:46 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  56 | 09/14/2021 | 12:05:32 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  57 | 09/14/2021 | 16:18:36 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  58 | 09/14/2021 | 17:31:57 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  59 | 09/14/2021 | 17:59:21 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5a | 09/14/2021 | 18:09:04 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5b | 09/14/2021 | 18:10:59 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5c | 09/14/2021 | 18:41:11 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5d | 09/14/2021 | 18:43:32 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5e | 09/14/2021 | 18:49:21 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  5f | 09/14/2021 | 21:39:45 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  60 | 09/14/2021 | 21:43:26 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  61 | 09/14/2021 | 21:47:11 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
  62 | 09/14/2021 | 22:35:41 | ความปลอดภัยทางกายภาพ #0xaa | การบุกรุกแชสซีทั่วไป () | ถูกกล่าวหา

จากนั้นฉันถอด DIMM 1B ออกและจ่ายไฟให้กับระบบสำรองโดยติดตั้ง DIMM เพียง 5 ตัว ฉันเชื่อว่านี่เป็นการกำหนดค่าที่ถูกต้อง -- มีช่องหน่วยความจำสามช่อง และแต่ละช่องสามารถทำงานได้ด้วย 1 หรือ 2 DIMM

ในขั้นต้นสิ่งนี้ดูเหมือนจะแก้ปัญหาได้ แต่อย่างที่คุณเห็นมันทำให้สับสนมากขึ้น:

  63 | 09/15/2021 | 12:21:05 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
  64 | 09/15/2021 | 14:15:46 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
  65 | 09/15/2021 | 14:22:07 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา
  66 | 09/15/2021 | 14:31:22 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2B(CPU1)) | ถูกกล่าวหา
  67 | 09/16/2021 | 05:02:38 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา
  68 | 09/16/2021 | 10:58:01 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
  69 | 09/16/2021 | 11:17:37 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา

คำตอบหรือบทความอื่นๆ ทั้งหมดที่ฉันสามารถค้นหาได้มุ่งเน้นไปที่ข้อผิดพลาดที่เกิดขึ้นไม่บ่อย หรือสถานการณ์ที่ DIMM หรือช่องเสียบเดียวล้มเหลวอย่างชัดเจน มีใครบ้างที่มีความคิดว่าอะไรเป็นสาเหตุของความล้มเหลวที่แพร่หลายเช่นนี้ในเครื่องที่ทำงานก่อนหน้านี้? ฉันตั้งใจที่จะจัดที่นั่งใหม่ทั้งหมด แต่เนื่องจากความล้มเหลวหลายจุด ฉันจึงไม่มีความหวังสูงสำหรับสิ่งนั้น

Zac67 avatar
ru flag
ต้นตอของปัญหาอื่นๆ ที่เป็นไปได้คือ CPU, PSU, เมนบอร์ด ทดสอบแต่ละอันในระบบอื่นเพื่อตรวจสอบการทำงานที่เหมาะสม

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา