Score:0

หากฮาร์ดไดรฟ์เกิด "ข้อผิดพลาดของบัส" แอตทริบิวต์ SMART ควรแสดงปัญหาหรือไม่

ธง ng
MWB

เครื่องแสดง "ข้อผิดพลาดบัส ATA" เป็นครั้งคราว และต้องรีบูต:

[24028.505239] ata1.00: ข้อยกเว้น Emask 0x10 SAct 0x0 SErr 0x48d0002 การดำเนินการ 0xe ค้าง
[24028.505249] ata1.00: irq_stat 0x08400040, ข้อผิดพลาดร้ายแรงของอินเทอร์เฟซ, สถานะการเชื่อมต่อเปลี่ยนไป
[24028.505254] ata1: SError: { RecovComm PHYRdyChg CommWake 10B8B LinkSeq DevExch }
[24028.505258] ata1.00: คำสั่งล้มเหลว: FLUSH CACHE EXT
[24028.505266] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 แท็ก 20
                        ความละเอียด 50/00:18:50:6b:d9/00:00:eb:00:00/40 Emask 0x10 (ข้อผิดพลาดบัส ATA)
[24028.505269] ata1.00: สถานะ: { DRDY }
[24028.505276] ata1: ลิงก์ฮาร์ดรีเซ็ต
[24032.757212] ata1: ลิงก์ SATA สูงสุด 6.0 Gbps (SSatus 133 SControl 300)
[24032.757615] ata1.00: IDENTIFY ทั้งสองถูกยกเลิก โดยถือว่า NODEV
[24032.757620] ata1.00: การตรวจสอบซ้ำล้มเหลว (errno=-2)

หากหลังจากรีบูตเครื่องแล้ว ฉันจะเรียกใช้ smartctl -t สั้น /dev/sda, smartctl -H /dev/sda บอกว่ามันผ่านไปแล้ว

จาก smartctl -a /dev/sda:

แอตทริบิวต์ SMART เฉพาะของผู้ขายที่มีเกณฑ์:
ID# ATTRIBUTE_NAME ค่าสถานะ ค่าสถานะ ประเภทที่แย่ที่สุด อัปเดตเมื่อ RAW_VALUE ล้มเหลว
  1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail เสมอ - 0
  2 ปริมาณงาน_ประสิทธิภาพ 0x0005 136 136 054 ออฟไลน์ล่วงหน้า - 80
  3 Spin_Up_Time 0x0007 253 253 024 ก่อนล้มเหลวเสมอ - 176 (เฉลี่ย 237)
  4 Start_Stop_Count 0x0012 100 100 000 Old_age เสมอ - 233
  5 Reallocated_Sector_Ct 0x0033 100 100 005 ล้มเหลวล่วงหน้าเสมอ - 0
  7 Seek_Error_Rate 0x000b 100 100 067 ผิดพลาดล่วงหน้าเสมอ - 0
  8 Seek_Time_Performance 0x0005 124 124 020 ก่อนล้มเหลว ออฟไลน์ - 33
  9 Power_On_Hours 0x0012 091 091 000 Old_age เสมอ - 63994
 10 Spin_Retry_Count 0x0013 100 100 060 ผิดพลาดล่วงหน้าเสมอ - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age เสมอ - 204
192 Power-Off_Retract_Count 0x0032 098 098 000 Old_age เสมอ - 2756
193 Load_Cycle_Count 0x0012 098 098 000 Old_age เสมอ - 2756
194 Temperature_Celsius 0x0002 142 142 000 Old_age เสมอ - 42 (ต่ำสุด/สูงสุด 23/52)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age เสมอ - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age เสมอ - 0
198 ออฟไลน์_แก้ไขไม่ได้ 0x0008 100 100 000 Old_age ออฟไลน์ - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age เสมอ - 0

เวอร์ชันบันทึกข้อผิดพลาด SMART: 1
ไม่มีการบันทึกข้อผิดพลาด

ฉันรู้ว่าบางครั้ง (25% ของกรณี) ฮาร์ดไดรฟ์ล้มเหลวกะทันหัน และ SMART ไม่เคยรายงานปัญหาใดๆ เลย แต่ที่นี่ ฉันเห็นข้อผิดพลาดแล้ว ความจริงที่ว่า SMART เงียบพิสูจน์ว่าฮาร์ดไดรฟ์ไม่ใช่สาเหตุของข้อผิดพลาดเหล่านี้หรือไม่

ฮาร์ดแวร์: เมนบอร์ด SuperMicro และฮาร์ดไดรฟ์ HGST Deskstar NAS

djdomi avatar
za flag
สำหรับ imho ไดรฟ์จะล้มเหลวในเวลาอันใกล้
MWB avatar
ng flag
MWB
@djdomi ทำไม? หากข้อผิดพลาดมาจากไดรฟ์เอง SMART ไม่ควรพูดอะไรใช่ไหม
Score:2
ธง nc

มีองค์ประกอบหลายอย่างระหว่างฮาร์ดไดรฟ์และระบบปฏิบัติการ และหนึ่งในนั้นอาจล้มเหลวได้ โดยทั่วไปข้อผิดพลาดที่คุณแสดงเกิดจากข้อผิดพลาดในฮาร์ดไดรฟ์

อย่างไรก็ตาม การไม่มีข้อผิดพลาดที่บันทึกไว้ใน SMART นั้นเป็นสัญญาณบ่งชี้ว่าฮาร์ดไดรฟ์มีสุขภาพที่ดี ดังนั้นหนึ่งในส่วนประกอบอื่นๆ ในห่วงโซ่อาจมีปัญหา

รายการตรวจสอบที่อาจช่วยได้มีดังนี้

  • ตรวจสอบให้แน่ใจว่าไดร์ฟเข้าที่ดีแล้ว และสายเคเบิลทั้งหมดต่อเข้ากับไดร์ฟจนสุด
  • หากเสียบไดรฟ์เข้ากับบอร์ดไรเซอร์ ตรวจสอบให้แน่ใจว่าสายเคเบิลทั้งหมดบนบอร์ดไรเซอร์เข้าที่ดี
  • ตรวจสอบให้แน่ใจว่าสายเคเบิลข้อมูลที่เกี่ยวข้องอยู่ในสภาพดี ไม่มีรอยหัก บิดงอ และยืดออก
  • ตรวจสอบให้แน่ใจว่าสายเคเบิลข้อมูลอยู่ในตำแหน่งที่ดีในเมนบอร์ดหรือตัวควบคุมดิสก์
  • หากคุณใช้ตัวควบคุมดิสก์แบบเสริม ตรวจสอบให้แน่ใจว่าติดตั้งอยู่ในเมนบอร์ดอย่างดี
  • หากสงสัยว่ามีสิ่งใดติดตั้งไม่สนิท (หากไม่ได้ขันสกรูและถอดออกยาก) ให้ใส่กลับเข้าไปใหม่โดยถอด ตรวจดูฝุ่นในซ็อกเก็ต แล้วเสียบกลับเข้าไปใหม่ ตรวจสอบให้แน่ใจว่าเสียบแน่นสนิท นั่ง.

หลังจากที่คุณตรวจสอบทั้งหมดแล้วและข้อผิดพลาดยังคงเกิดขึ้น จำเป็นต้องทำการวินิจฉัยเพิ่มเติมเพื่อพิจารณาว่าองค์ประกอบใดข้างต้นล้มเหลว หากเป็นไปได้ การเปลี่ยนตำแหน่งของไดรฟ์หรือการเปลี่ยนสายเคเบิลระหว่างพอร์ตของเมนบอร์ดหรือพอร์ตคอนโทรลเลอร์ของดิสก์อาจช่วยให้แยกได้มากขึ้น ดิสก์คอนโทรลเลอร์ที่มีชิปเสียอาจทำให้เกิดปัญหาเช่นนี้ได้เช่นกัน แต่อาจเป็นไปได้ที่จะวินิจฉัยสิ่งนี้ได้โดยการสลับกับคอนโทรลเลอร์อื่นเท่านั้น

นอกจากนี้ยังอาจช่วยในการเรียกใช้การวินิจฉัยจริงบนไดรฟ์ (ด้วย smartctl -t สั้น เช่น จากนั้นรอให้เสร็จสิ้นและตรวจสอบด้วย smartctl -a เพื่อดูว่าเรียบร้อยหรือมีข้อผิดพลาด) เพียงเพื่อให้แน่ใจว่าไม่ใช่ไดรฟ์จริงๆ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา