Score:0

Ubuntu 20.04 ขัดข้อง: ตรวจพบข้อผิดพลาด ECC หรือพิษ L2

ธง kz

Ubuntu 20.04 หยุดทำงานแบบสุ่มในเวลาที่ต่างกัน ไม่สามารถชี้ไปที่เหตุการณ์เฉพาะ

ชื่อ -a 
Linux อูบุนตู 5.11.0-051100-generic #202102142330 
SMP อา. 14 ก.พ. 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

ขัดข้องด้วยสัญญาณต่อไปนี้:

 เคอร์เนล:[19849.215258] [ข้อผิดพลาดของฮาร์ดแวร์]: ไม่ถูกต้อง ข้อผิดพลาดที่รีสตาร์ทซอฟต์แวร์ได้

 เคอร์เนล:[19849.215259] [ข้อผิดพลาดของฮาร์ดแวร์]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 เคอร์เนล:[19849.215263] [ข้อผิดพลาดของฮาร์ดแวร์]: ข้อผิดพลาด Addr: 0x000000076bed1c00

 เคอร์เนล:[19849.215264] [ข้อผิดพลาดของฮาร์ดแวร์]: IPID: 0x001000b000000000

 เคอร์เนล:[19849.215266] [ข้อผิดพลาดของฮาร์ดแวร์]: Load Store Unit Ext. รหัสข้อผิดพลาด: 1 ตรวจพบข้อผิดพลาด ECC หรือพิษ L2 ในแคชข้อมูลที่โหลดอ่าน

 เคอร์เนล:[19849.215269] [ข้อผิดพลาดของฮาร์ดแวร์]: ระดับแคช: L1, tx: DATA, mem-tx: DRD

ข้อมูลฮาร์ดแวร์:

### ซีพียู
  สถาปัตยกรรม: x86_64
  โหมดการทำงานของ CPU: 32 บิต 64 บิต
  ลำดับไบต์: Little Endian
  ขนาดแอดเดรส: 48 บิตจริง 48 บิตเสมือน
  ซีพียู: 24
  รายการ CPU ออนไลน์: 0-23
  เธรดต่อคอร์: 2
  แกนต่อซ็อกเก็ต: 12
  ซ็อกเก็ต: 1
  โหนด NUMA: 1
  รหัสผู้ขาย: AuthenticAMD
  ซีพียูตระกูล: 25
  รุ่น: 33
  ชื่อรุ่น: โปรเซสเซอร์ AMD Ryzen 9 5900X 12-Core
  ก้าว: 0
  เพิ่มความถี่: เปิดใช้งาน
  ซีพียู เมกะเฮิรตซ์: 2200.000
  CPU สูงสุด MHz: 6442.4800
  CPU ขั้นต่ำ MHz: 2200.0000

### ข้อมูลกระดานฐาน
  ผู้ผลิต: ASRock
  ชื่อสินค้า: X570 ไทจิ

### หน่วยความจำ:
G ทักษะ ตรีศูล Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

มีวิธีใดบ้างที่แนะนำในการค้นหาสาเหตุที่แท้จริง ฉันจะเปิดใช้งานการบันทึกเพิ่มเติมได้อย่างไร หรือหากมีบันทึกอยู่แล้ว ฉันจะค้นหาได้จากที่ใด ฯลฯ คำแนะนำใด ๆ จะได้รับการชื่นชม ขอบคุณ!

Score:2
ธง in

นี่ไม่ใช่ ในทางเทคนิค คำตอบ แต่...

เดอะ ตรวจพบข้อผิดพลาด ECC หรือพิษ L2 บนแคชข้อมูลที่อ่านโดยโหลด ข้อความชี้ไปที่ปัญหาหน่วยความจำ ไม่ว่าจะเป็นตัว RAM หรือแคชบน CPU ไม่ดี แต่คุณสามารถทดสอบ RAM ของระบบด้วยกระบวนการต่อไปนี้:

  1. รีสตาร์ทระบบของคุณ
  2. กด กะ ปุ่มเพื่อเปิดเมนู GRUB
  3. เลือก "Ubuntu, memtest86+" แล้วกด เข้า
    การทดสอบหน่วยความจำจะทำงานจนกว่าจะสิ้นสุดเวลาหรือจนกว่าคุณจะกดปุ่ม เอสซี กุญแจ. ปล่อยให้เครื่องทดสอบอย่างน้อยหนึ่งครั้งก่อนที่จะหลบหนี

ขึ้นอยู่กับ รายงาน รอบๆ เว็บ ปัญหานี้ดูเหมือนจะเห็นเฉพาะกับโปรเซสเซอร์ AMD Ryzen ระดับไฮเอนด์เท่านั้น อ่านผ่าน กระทู้ยาวนี้ ในเว็บไซต์ชุมชนของ AMD เปิดเผยข้อมูลที่น่าสนใจนี้:

ฉันเปลี่ยนหน่วยความจำและคอมพิวเตอร์ก็แข็งเป็นหินมาสองสามวันแล้ว หวังว่านี่จะช่วยคุณได้เหมือนที่ช่วยฉันได้ หน่วยความจำเดิมคือหน่วยความจำ Gskill 3600mhz... หน่วยความจำใหม่คือ 3200 หน่วยความจำจาก Corsair

คำถามของคุณไม่ได้ระบุว่าคุณติดตั้งหน่วยความจำประเภทใด แต่ถ้าเป็นชุดโมดูลที่มีความถี่สูงกว่า อาจมีบางอย่างระหว่าง RAM และ CPU ที่ทำให้เกิดความไม่เสถียร หากการทดสอบหน่วยความจำล้มเหลว และคุณมี RAM 3200MHz ที่ใช้งานร่วมกันได้ (แม้ว่าจะเป็นเพียง DIMM เพียงตัวเดียวก็ตาม) ให้พิจารณาเปลี่ยนและทำการทดสอบหน่วยความจำอีกครั้ง

dina avatar
kz flag
ขอบคุณมากสำหรับคำตอบ RAM ของฉันคือ G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2x16) ฉันรัน memtest86 ใช้เวลาประมาณสี่ชั่วโมงครึ่งและผ่านการทดสอบ
dina avatar
kz flag
น่าเสียดายที่ฉันไม่มีหน่วยความจำสำรอง นี่เป็นรุ่นใหม่ล่าสุด ฉันหวังว่าโซลูชันบางอย่างจะมาพร้อมกับ BIOS หรือเลเยอร์ OS แทนฮาร์ดแวร์
heynnema avatar
ru flag
@dnafication ด้วย memtest คุณทำการทดสอบเพียง 1 ครั้งหรือทั้งหมด 4/4 โปรเซสเซอร์ AMD นั้นจุกจิกมากเกี่ยวกับ RAM RAM ของคุณอยู่ในรายการความเข้ากันได้หรือไม่? ไปที่ไซต์สนับสนุนสำหรับเมนบอร์ดของคุณแล้วลองดู นอกจากนี้ CPU หรือ RAM ของคุณโอเวอร์คล็อกหรือไม่
heynnema avatar
ru flag
@dnafication แสดง `sudo dmidecode -s bios-version` ด้วย คุณเปิดใช้งาน ECC สำหรับ RAM ของคุณแล้วหรือยัง... อาจจะอยู่ใน BIOS?
dina avatar
kz flag
ขอบคุณ @heynnema ฉันทำการทดสอบทั้งหมดแล้ว (ฉันคิดว่ามีการทดสอบประมาณ 10 ครั้งและใช้เวลามากกว่า 4 ชั่วโมง) ควรตั้งค่า CPU หรือ RAM ตามที่เป็นอยู่ ฉันจำไม่ได้ว่าทำการเปลี่ยนแปลงหรือโอเวอร์คล็อกใด ๆ เวอร์ชัน BIOS คือ 'P4.30' ฉันจะดูเกี่ยวกับ ECC ระหว่างการบู๊ต
dina avatar
kz flag
@heynnema ฉันรัน memtester ด้วย: `sudo memtester 4000M 1` ไม่มีรายงานข้อผิดพลาด
dina avatar
kz flag
เวอร์ชั่น BIOS น่าจะเป็นเวอร์ชั่นล่าสุด นี่คือเมนบอร์ด: https://www.asrock.com/mb/AMD/X570%20Taichi/#Specification
heynnema avatar
ru flag
@dnafication ไปที่ https://www.asrock.com/MB/AMD/X570%20Taichi/index.asp#ดาวน์โหลด และดูรายการ CPU Support เพื่อกำหนดชื่อ CPU ของคุณ จากนั้นดูรายการ Memory QVL ที่เหมาะสมเพื่อพิจารณา หากหน่วยความจำของคุณรองรับ รับโมเดลของ DIMM ของคุณด้วย `sudo lshw -C memory`
dina avatar
kz flag
ให้เรา [ดำเนินการสนทนาต่อในการแชท](https://chat.stackexchange.com/rooms/126576/discussion-between-dnafication-and-heynnema)
cn flag
ฉันมี ECC RAM และ Ryzen 5900X ฉันตรวจสอบผ่าน `edac-util` และ `dmesg` ว่า ECC ใช้งานได้ ฉันไม่เคยเห็นข้อผิดพลาดใด ๆ ในหลายเดือน อย่างไรก็ตาม ทุกๆ 2-3 วัน เครื่องของฉันจะค้างและรีบูต `/var/log/kern.log` แสดง MCE เดียวกันนี้ (พิษแคช L2) ฉันจะเรียกใช้ `memtest86+` แต่สงสัยว่าจะไม่พบปัญหาใดๆ ฉันเคยเห็นคนอื่นบ่นเกี่ยวกับเรื่องนี้กับ 5900X ดังนั้นฉันจึงสงสัยว่าไมโครโค้ดของ CPU พยายามรวบรวมข้อมูลให้มากขึ้น
Score:1
ธง ru

ไบออส

ASRock X570 Taichi

BIOS เป็นเวอร์ชันปัจจุบันที่ P4.30

หน่วยความจำ

G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), ผลิตภัณฑ์: F4-3600C16-16GTZNC

โปรเซสเซอร์ AMD Ryzen 9 5900X 12-Core

โปรเซสเซอร์ Ryzen นั้นจุกจิกมากเกี่ยวกับ RAM

DIMM เหล่านี้ไม่ปรากฏในรายการหน่วยความจำที่รองรับ ดังที่เห็น ที่นี่.

ทดสอบความจำ ผ่านการทดสอบทั้งหมด

เมื่อเรามองดู หน่วยความจำ sudo lshw -C เราเห็นว่า DIMM อาจ ติดตั้งในตำแหน่งช่องเสียบที่ไม่ถูกต้อง เมื่อใช้ DIMM ขนาดเท่ากัน 2 ตัว ควรติดตั้งลงในช่อง A2 และ B2 นี่คือภาพเลย์เอาต์บอร์ดและสล็อตหน่วยความจำ... นำมาจากคู่มือผู้ใช้ที่ ที่นี่...ดังนั้นเพียงแค่ตรวจสอบสิ่งนี้...

ป้อนคำอธิบายรูปภาพที่นี่

dina avatar
kz flag
ฉันจะลองดูวันนี้ ขอบคุณมาก! :D
dina avatar
kz flag
ฉันย้าย RAM จาก A1 --> A2 และ B1 --> B2 ดูเหมือนว่ามันยังคงล้มเหลวหลังจากบางครั้ง :( คุณช่วยแนะนำอย่างอื่นได้ไหม มีการทดสอบใดๆ ที่ฉันสามารถเรียกใช้ การวินิจฉัยใดๆ เพื่อดูว่าข้อผิดพลาดของฮาร์ดแวร์แน่นอนหรือไม่ ฉันบูทระบบใน Windows และปล่อยให้มันทำงานได้นานพอโดยไม่มีข้อขัดข้องใดๆ
heynnema avatar
ru flag
@dnafication ฉันเพิ่งสังเกตเห็นว่าคุณกำลังเรียกใช้เคอร์เนล 5.11.0-051100-generic ในวันที่ 20.04 ฉันไม่เชื่อว่านั่นคือเคอร์เนลหุ้นสำหรับ 20.04 คุณติดตั้งด้วยตนเองหรือวางการอัปเดตซอฟต์แวร์ไว้ที่นั่นหรือไม่ แก้ไขคำถามของคุณและแสดง `ls -al /boot`
heynnema avatar
ru flag
@dnafication บูตเป็น Ubuntu Live 21.04 USB/DVD และรันระบบนานพอที่จะดูว่ามีปัญหาหรือไม่
dina avatar
kz flag
ใช่ ฉันติดตั้งเคอร์เนลด้วยตนเอง ฉันจะลอง 21.04 และแจ้งให้คุณทราบ
cn flag
ฉันมีบอร์ดและ CPU แบบเดียวกับคุณ แต่ฉันมี ECC RAM ไม่มีปัญหา ECC ที่ระบุด้วย `edac-utils` และดูเหมือนว่าจะทำงานได้ดีตามนั้นและ `dmesg` ฉันมีปัญหานี้เช่นกัน ฉันกำลังพยายามตรวจสอบว่าปัญหาเป็นที่บอร์ดหรือ 5900X ฉันอาจแลก 3600 ที่นี่สักหน่อย เนื่องจากดูเหมือนว่าจะส่งผลกระทบต่อผู้คนจำนวนมาก ฉันต้องการทราบต้นตอของปัญหานี้
heynnema avatar
ru flag
@dnafication สถานะโปรด...
dina avatar
kz flag
ฉันลองใช้ Ubuntu live 21.04 ในช่วงสั้น ๆ แต่ก็ยอมแพ้อย่างรวดเร็วเนื่องจากปัญหาไดรเวอร์กราฟิกและการติดตั้งซ้ำแล้วซ้ำอีก ฉันย้ายกลับไปที่ Windows ยังไม่เห็นข้อขัดข้องใด ๆ เลย ผิดหวังเล็กน้อยที่ฉันยอมแพ้ แต่ทำให้ฉันเสียเวลามากกับการตั้งค่าเหล่านี้
heynnema avatar
ru flag
@dnafication การทดสอบ 21.04 ควรจะดูว่าคุณยังมีข้อผิดพลาดเกี่ยวกับหน่วยความจำอยู่หรือไม่ ฉันไม่แปลกใจเลยจริงๆ ที่ปัญหากราฟิกอาจเกิดขึ้น แม้ว่าคุณจะติดตั้งไดรเวอร์วิดีโอในระหว่างการทดสอบก็ตาม ขออภัยที่เห็นคุณไปที่ด้าน "อื่น ๆ "
Score:0
ธง kz

ตามคำแนะนำจาก @heynnema ฉันพบว่ารุ่นของ DIMM ที่ติดตั้งบนคอมพิวเตอร์ของฉันไม่อยู่ในรายการความเข้ากันได้ นี่คือขั้นตอนต่อไปนี้:

  1. เยี่ยมชมรายการ CPU ที่รองรับของ เว็บไซต์ ASRock x570 Taichi. ค้นหาประเภทแกน ในกรณีของฉันมันเป็น เวอร์เมียร์
  2. ค้นหารุ่นของ DIMM ที่ติดตั้งบนระบบโดยเรียกใช้ หน่วยความจำ sudo lshw -C (มันเป็น F4-3600C16-16GTZNC)
  3. นำทางไปยัง รายการหน่วยความจำที่รองรับ สำหรับ Vermeer และดูว่ารองรับหรือไม่ น่าเสียดายที่มันไม่อยู่ในรายชื่อ! บางทีนั่นอาจเป็นสาเหตุของการขัดข้องที่ไม่สอดคล้องกัน ฉันจะลองใช้ DIMM เวอร์ชันที่รองรับเพื่อดูว่าข้อขัดข้องเกิดขึ้นอีกหรือไม่ และอัปเดตคำตอบนี้ตามนั้น
 *-เฟิร์มแวร์
       คำอธิบาย: ไบออส
       ผู้จัดจำหน่าย: American Megatrends Inc.
       รหัสทางกายภาพ: 0
       รุ่น: P4.30
       วันที่: 04/14/2021
       ขนาด: 64KiB
       ความจุ: 16MiB
       ความสามารถ: pci อัพเกรด shadowing cdboot bootเลือก socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosboot specification uefi
  *-หน่วยความจำ
       คำอธิบาย: หน่วยความจำระบบ
       รหัสทางกายภาพ: e
       ช่องเสียบ: แผงระบบหรือเมนบอร์ด
       ขนาด: 32GiB
     *-แบงค์:0
          คำอธิบาย: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          สินค้า: F4-3600C16-16GTZNC
          ผู้ขาย: ไม่ทราบ
          รหัสทางกายภาพ: 0
          อนุกรม: 00000000
          ช่องเสียบ: DIMM 0
          ขนาด: 16GiB
          ความกว้าง: 64 บิต
          นาฬิกา: 2133MHz (0.5ns)
     *-แบงค์:1
          คำอธิบาย: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >ทีมภาษา: อังกฤษ (ออสเตรเลีย) <[email protected]>MIME-เวอร์ชัน: 1.0ประเภทเนื้อหา: ข้อความ/ธรรมดา; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Togs: ชื่อเต็ม <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]> เวอร์ชัน MIME: 1.0 ประเภทเนื้อหา: ข้อความ/ธรรมดา; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          สินค้า: ไม่ทราบ
          ผู้ขาย: ไม่ทราบ
          รหัสประจำตัว: 1
          อนุกรม: ไม่ทราบ
          ช่องเสียบ: DIMM 1
     *-แบงค์:2
          คำอธิบาย: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          สินค้า: F4-3600C16-16GTZNC
          ผู้ขาย: ไม่ทราบ
          รหัสประจำตัว: 2
          อนุกรม: 00000000
          ช่องเสียบ: DIMM 0
          ขนาด: 16GiB
          ความกว้าง: 64 บิต
          นาฬิกา: 2133MHz (0.5ns)
     *-แบงค์:3
          คำอธิบาย: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected] >ทีมภาษา: อังกฤษ (ออสเตรเลีย) <[email protected]>MIME-เวอร์ชัน: 1.0ประเภทเนื้อหา: ข้อความ/ธรรมดา; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Togs: ชื่อเต็ม <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]> เวอร์ชัน MIME: 1.0 ประเภทเนื้อหา: ข้อความ/ธรรมดา; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          สินค้า: ไม่ทราบ
          ผู้ขาย: ไม่ทราบ
          รหัสประจำตัว: 3
          อนุกรม: ไม่ทราบ
          ช่องเสียบ: DIMM 1
  *-แคช:0
       คำอธิบาย: แคช L1
       รหัสประจำตัว: 11
       ช่อง: L1 - แคช
       ขนาด: 768KiB
       ความจุ: 768KiB
       นาฬิกา: 1GHz (1.0ns)
       ความสามารถ: รวมการเขียนกลับภายในไปป์ไลน์ระเบิด
       การกำหนดค่า: ระดับ = 1
  *-แคช:1
       คำอธิบาย: แคช L2
       รหัสประจำตัว: 12
       ช่อง: L2 - แคช
       ขนาด: 6MiB
       ความจุ: 6MiB
       นาฬิกา: 1GHz (1.0ns)
       ความสามารถ: รวมการเขียนกลับภายในไปป์ไลน์ระเบิด
       การกำหนดค่า: ระดับ = 2
  *-แคช:2
       คำอธิบาย: แคช L3
       รหัสประจำตัว: 13
       ช่อง: L3 - แคช
       ขนาด: 64MiB
       ความจุ: 64MiB
       นาฬิกา: 1GHz (1.0ns)
       ความสามารถ: รวมการเขียนกลับภายในไปป์ไลน์ระเบิด
       การกำหนดค่า: ระดับ = 3
heynnema avatar
ru flag
แสดง `sudo lshw -C memory` ฉันต้องการตรวจสอบว่า DIMM อยู่ในสล็อตใด ถอด DIMM 16G หนึ่งตัวออกและดูว่าสถานการณ์ขัดข้องดีขึ้นหรือไม่
dina avatar
kz flag
@heynnema ฉันเพิ่มผลลัพธ์ของคำสั่งในคำตอบด้านบน
cn flag
บอร์ดควรรองรับ DIMM ที่ไม่ได้อยู่ในรายการความเข้ากันได้ ฉันได้สร้างระบบ Ryzen มากมายที่เริ่มต้นด้วย 1800X ฉันเคยไล่ตามรูกระต่าย "RAM ที่เข้ากันได้" มาก่อนโดยไม่มีผลลัพธ์ในเชิงบวก ระยะทางของคุณอาจแตกต่างกันไป เป็นการดีที่จะลองใช้ DIMM ชุดอื่นไม่ว่าในกรณีใด
dina avatar
kz flag
@MishaNasledov ขอบคุณ ฉันไม่มีตัวเลือกในการเปลี่ยน DIMM น่าเสียดาย และฉันตัดสินใจย้ายกลับไปใช้ Windows ได้รับ Win10 pro และมันใช้งานได้ดีจนถึงตอนนี้

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา