ฉันมีระบบ Supermicro X8DT6 ที่จู่ๆ ก็เกิดข้อผิดพลาด ECC ที่แก้ไขไม่ได้ในอัตราสูง ระบบทำงานโดยปราศจากข้อผิดพลาดจนกระทั่งเมื่อสองสามวันก่อน และขณะนี้พบข้อผิดพลาด ECC ที่แก้ไขไม่ได้ (และการรีบูตที่เกิดขึ้นเองที่เกี่ยวข้อง) หลายครั้งต่อวัน ข้อผิดพลาดไม่ได้ถูกแยกไปยัง DIMM เดียว
รายละเอียดระบบ: Single X5650 CPU, 48G DDR3 ram @1333Mhz in 6 DIMM ใช้ Debian Linux
เท่าที่ฉันสามารถบอกได้ ไม่พบข้อผิดพลาด ECC ที่แก้ไขได้ (rasdaemon ไม่แสดงอะไรเลย และบันทึกเหตุการณ์ ipmi แสดงเฉพาะสิ่งที่แก้ไขไม่ได้)
ปัญหาเกิดขึ้นครั้งแรกเมื่อสองสามวันก่อน และคุณสามารถดูได้จากบันทึกนี้ว่าในตอนแรกดูเหมือนว่าจะจำกัดอยู่ที่ DIMM เดียว:
3f | 09/13/2021 | 18:13:02 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
40 | 09/14/2021 | 03:30:49 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
41 | 09/14/2021 | 04:10:28 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
42 | 09/14/2021 | 04:11:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
43 | 09/14/2021 | 04:19:31 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
44 | 09/14/2021 | 04:27:06 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
45 | 09/14/2021 | 04:28:39 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
46 | 09/14/2021 | 04:32:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
47 | 09/14/2021 | 04:35:48 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
48 | 09/14/2021 | 04:39:51 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
49 | 09/14/2021 | 04:41:29 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4a | 09/14/2021 | 04:48:16 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4b | 09/14/2021 | 04:53:43 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4c | 09/14/2021 | 04:54:52 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4d | 09/14/2021 | 05:09:41 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4e | 09/14/2021 | 05:12:04 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
4f | 09/14/2021 | 05:20:51 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
50 | 09/14/2021 | 05:23:42 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
51 | 09/14/2021 | 05:34:12 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
52 | 09/14/2021 | 05:39:44 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
53 | 09/14/2021 | 05:41:24 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
54 | 09/14/2021 | 05:47:19 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
55 | 09/14/2021 | 05:55:46 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
56 | 09/14/2021 | 12:05:32 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
57 | 09/14/2021 | 16:18:36 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
58 | 09/14/2021 | 17:31:57 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
59 | 09/14/2021 | 17:59:21 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5a | 09/14/2021 | 18:09:04 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5b | 09/14/2021 | 18:10:59 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5c | 09/14/2021 | 18:41:11 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5d | 09/14/2021 | 18:43:32 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5e | 09/14/2021 | 18:49:21 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
5f | 09/14/2021 | 21:39:45 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
60 | 09/14/2021 | 21:43:26 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
61 | 09/14/2021 | 21:47:11 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1B(CPU1)) | ถูกกล่าวหา
62 | 09/14/2021 | 22:35:41 | ความปลอดภัยทางกายภาพ #0xaa | การบุกรุกแชสซีทั่วไป () | ถูกกล่าวหา
จากนั้นฉันถอด DIMM 1B ออกและจ่ายไฟให้กับระบบสำรองโดยติดตั้ง DIMM เพียง 5 ตัว ฉันเชื่อว่านี่เป็นการกำหนดค่าที่ถูกต้อง -- มีช่องหน่วยความจำสามช่อง และแต่ละช่องสามารถทำงานได้ด้วย 1 หรือ 2 DIMM
ในขั้นต้นสิ่งนี้ดูเหมือนจะแก้ปัญหาได้ แต่อย่างที่คุณเห็นมันทำให้สับสนมากขึ้น:
63 | 09/15/2021 | 12:21:05 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
64 | 09/15/2021 | 14:15:46 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
65 | 09/15/2021 | 14:22:07 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา
66 | 09/15/2021 | 14:31:22 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2B(CPU1)) | ถูกกล่าวหา
67 | 09/16/2021 | 05:02:38 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา
68 | 09/16/2021 | 10:58:01 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM1A(CPU1)) | ถูกกล่าวหา
69 | 09/16/2021 | 11:17:37 | หน่วยความจำ | ECC ที่แก้ไขไม่ได้ (@DIMM2A(CPU1)) | ถูกกล่าวหา
คำตอบหรือบทความอื่นๆ ทั้งหมดที่ฉันสามารถค้นหาได้มุ่งเน้นไปที่ข้อผิดพลาดที่เกิดขึ้นไม่บ่อย หรือสถานการณ์ที่ DIMM หรือช่องเสียบเดียวล้มเหลวอย่างชัดเจน มีใครบ้างที่มีความคิดว่าอะไรเป็นสาเหตุของความล้มเหลวที่แพร่หลายเช่นนี้ในเครื่องที่ทำงานก่อนหน้านี้? ฉันตั้งใจที่จะจัดที่นั่งใหม่ทั้งหมด แต่เนื่องจากความล้มเหลวหลายจุด ฉันจึงไม่มีความหวังสูงสำหรับสิ่งนั้น