Score:0

ปัญหาเกี่ยวกับดิสก์: irq_stat 0x20000000 ข้อผิดพลาดของโฮสต์บัส

ธง bd

เมื่อคัดลอกไฟล์ขนาดใหญ่ (50+GB) จากดิสก์ NVMe ไปยังดิสก์ HDD SATA 7200rpm ฉันเห็นข้อผิดพลาดต่อไปนี้ในบันทึกบน Ubuntu 20.04 ที่แพตช์สมบูรณ์:

08 ส.ค. 00:45:59 น. เคอร์เนลโฮสต์: ata6.00: ข้อยกเว้น Emask 0x20 SAct 0x0 SErr 0x0 การกระทำ 0x6 แช่แข็ง
08 ส.ค. 00:45:59 น. เคอร์เนลโฮสต์: ata6.00: irq_stat 0x20000000 ข้อผิดพลาดของโฮสต์บัส
08 ส.ค. 00:45:59 เคอร์เนลโฮสต์: ata6.00: คำสั่งล้มเหลว: WRITE DMA EXT
08 ส.ค. 00:45:59 น. เคอร์เนลโฮสต์: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 แท็ก 23 dma 4096 ออก
                                    ความละเอียด 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (ข้อผิดพลาดของโฮสต์บัส)
08 ส.ค. 00:45:59 เคอร์เนลโฮสต์: ata6.00: สถานะ: { DRDY }
08 ส.ค. 00:45:59 น. เคอร์เนลโฮสต์: ata6: ลิงก์ฮาร์ดรีเซ็ต
8 ส.ค. 00:46:00 เคอร์เนลโฮสต์: ata6: ลิงก์ SATA สูงสุด 6.0 Gbps (สถานะ SSatus 133 SControl 300)
08 ส.ค. 00:46:00 เคอร์เนลโฮสต์: ata6.00: กำหนดค่าสำหรับ UDMA/133
08 ส.ค. 00:46:00 เคอร์เนลโฮสต์: ata6: EH เสร็จสมบูรณ์

at6.00 เป็นดิสก์ที่กำลังเขียน
ปัญหาเป็นระยะ บางครั้งไม่ปรากฏเป็นเวลา 24 ชั่วโมง บางครั้งสองครั้งต่อชั่วโมง บ่อยครั้งที่ดิสก์กู้คืน แต่บางครั้งระบบไฟล์เพิ่งเสียหาย ต้องยกเลิกการต่อเชื่อม ซ่อมแซม (หากเป็นไปได้) และต่อเชื่อมใหม่

สิ่งที่ฉันพยายาม:

  1. ลอง HDD มา 3 ยี่ห้อ ทุกคนมีปัญหาเดียวกัน
  2. ฉันสงสัยว่าปัญหาฮาร์ดแวร์ ฉันเปลี่ยนเมนบอร์ดและสาย SATA สิ่งนี้ไม่ได้ช่วยอะไร
  3. ฉันมีเซิร์ฟเวอร์อื่นที่มีการกำหนดค่าเหมือนกันปัญหาไม่ได้เกิดขึ้นที่นั่น ภาระงานเดียวกัน
  4. ฉันมีเซิร์ฟเวอร์อื่นที่มีการกำหนดค่าที่แตกต่างกันโดยสิ้นเชิง (Intel กับ AMD) ปัญหาเกิดขึ้นที่นั่น ภาระงานเดียวกัน
  5. ฉันปิดใช้งาน NCQ ผ่าน เสียงสะท้อน 1 > /sys/block/sda/device/queue_html. ไม่ได้ช่วย

ฉันหมดความคิด...
ทั้งหมดนี้เป็นองค์ประกอบระดับศูนย์ข้อมูล จากขั้นตอนที่ฉันดำเนินการ ฉันคิดว่าไม่ใช่ข้อบกพร่องจากการผลิตฮาร์ดแวร์
นี่อาจเป็นซอฟต์แวร์ / OS / BIOS ที่เกี่ยวข้องหรือไม่
ความคิดใดที่ฉันควรลองอีก

Michael Hampton avatar
cz flag
ส่วนประกอบเกรดของศูนย์ข้อมูลคืออะไร HBA ที่คุณใช้คืออะไร? เมนบอร์ดคืออะไร? แรมคืออะไร?
mike avatar
bd flag
ไม่มี HBA ดิสก์เชื่อมต่อโดยตรงกับพอร์ต SATA บน MB เมนบอร์ดคือ Supermicro MBD-X11SPM-F-O RAM คือ Samsung DDR4-3200, 8GB, ECC RDIMM, 1Rx8, 288pin
Michael Hampton avatar
cz flag
ซึ่งยังคงดูเหมือนปัญหาเกี่ยวกับคอนโทรลเลอร์หรือการเดินสาย แต่คุณอาจเรียกใช้ `smartctl -a` บนดิสก์เพื่อดูว่ามีข้อผิดพลาดที่บันทึกไว้หรือไม่
mike avatar
bd flag
มันแสดงข้อผิดพลาด แต่มันเป็นความลับสำหรับฉัน ไม่แน่ใจว่าจะไปจากที่นั่น https://gist.github.com/ceecko/c74c2aafc7d0b7fa1f9ad9a71e7d4717 ฉันสงสัยว่าคอนโทรลเลอร์หรือสายเคเบิลมีปัญหา แต่เนื่องจากทั้งคู่ถูกเปลี่ยน ฉันคิดว่าโอกาสที่ทั้งคู่จะเสียมีน้อยมาก...
Michael Hampton avatar
cz flag
คุณบอกว่าคุณมีดิสก์หลายตัว แต่ส่วนสำคัญนั้นแสดงผลลัพธ์เพียงดิสก์เดียว พวกเขาที่เหลืออยู่ที่ไหน?
mike avatar
bd flag
ฉันเพิ่งอัปเดตส่วนสำคัญของดิสก์ทั้งหมด รวมถึงดิสก์ nvme ซึ่งใช้เป็นแหล่งข้อมูลสำหรับการคัดลอก
Michael Hampton avatar
cz flag
มีเพียง _one_ จากสามดิสก์เท่านั้นที่แสดงข้อผิดพลาดเหล่านี้ คุณควรลองเปลี่ยนดิสก์นี้
mike avatar
bd flag
ดูเหมือนว่าจะไม่ใช่ดิสก์ `/dev/sdc` เชื่อมต่อผ่าน `ata6` และใช้เป็นดิสก์สำหรับบูต ดิสก์นี้ล้มเหลวแม้ว่าจะไม่มีสิ่งใดในบันทึกอัจฉริยะ ในเวลานั้น ดิสก์ที่มีข้อผิดพลาดถูกเมานต์แต่ไม่ได้ใช้งาน คุณคิดว่า `/dev/sda` อาจทำให้ `/dev/sdc` ล้มเหลวในลักษณะนี้ได้หรือไม่? ตามที่กล่าวไว้ก่อนหน้านี้ ดิสก์เหล่านี้เป็นดิสก์ประเภทที่ 3 ที่ฉันลองใช้ เป็นเรื่องบังเอิญมากที่จะมีดิสก์ชุดที่ 3 ที่มีปัญหาเดียวกันที่ฉันเดา
Score:1
ธง jo

บางทีนี่อาจเป็นปัญหาของอุณหภูมิในการทำงานมากกว่า? เมื่อดิสก์ถูกใช้งานอย่างต่อเนื่อง ตำแหน่งทางกายภาพและอัตราส่วนความร้อนที่ได้รับต่อการสูญเสียจะสูงเกินไปซึ่งนำไปสู่พฤติกรรมที่เอาแน่เอานอนไม่ได้?

สำหรับเคอร์เนลที่ใหม่กว่าเช่นอุณหภูมิไดรฟ์ของคุณ สามารถใส่ใน sysfs ที่พาธนี้:

/sys/class/hwmon/*

อย่าลืมตรวจสอบให้แน่ใจว่า อุณหภูมิไดรฟ์ โหลดโมดูลด้วย อุณหภูมิไดรฟ์ modprobe.

คุณสามารถตรวจสอบไฟล์ที่นี่และเริ่มต้นการคัดลอกไฟล์ขนาดใหญ่อีกครั้ง เอกสารคู่มือเคอร์เนล ที่นี่ ระบุวิธีตีความไฟล์เหล่านี้

โดยจะรวมค่าที่เป็นประโยชน์ เช่น อุณหภูมิต่ำสุด/สูงสุดในการทำงาน ไดรเวอร์บางตัวยังสามารถเสนอตัวบ่งชี้การเตือนได้เช่นกัน ซึ่งเป็นการเตือนที่ขึ้นกับชิปซึ่งถูกเรียกเมื่อเกิดข้อผิดพลาด

Score:0
ธง bd

ดูเหมือนว่าจะแก้ไขได้ด้วยการอัปเกรดเป็น Ubuntu 21.04 ไม่รู้ว่าทำไม เซิร์ฟเวอร์ทำงานได้เสถียรโดยไม่มีปัญหา ATA ใดๆ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา