Score:0

จะตรวจสอบสุขภาพ Segate HDD ภายใต้ Linux ได้อย่างไร

ธง cn

ฉันต้องการตรวจสอบความสมบูรณ์ของ Seagate ST16000NM002G SAS HDD หลายตัวที่โฮสต์ในเซิร์ฟเวอร์ดิสก์ที่ใช้ CentOS 7 เท่าที่ฉันเข้าใจ ดิสก์ Seagate ไม่เปิดเผย S.M.A.R.T. แอตทริบิวต์เนื่องจากการตัดสินใจของผู้บริหารที่แม่นยำ (ดู หน้านี้) และบริษัทแนะนำให้ใช้ซอฟต์แวร์ SeaTool ซึ่งตามซอฟต์แวร์ดังกล่าวมีความน่าเชื่อถือมากกว่า S.M.A.R.T. น่าเศร้าที่ดูเหมือนว่า SeaTool เวอร์ชัน SSD เท่านั้นที่มีให้สำหรับ Linux (ดู หน้านี้).

เนื่องจากฉันบอกว่า Segate+Linux ควรเป็นกรณีทั่วไปในศูนย์ข้อมูลสมัยใหม่ ฉันค่อนข้างแน่ใจว่าต้องมีเครื่องมือตรวจสอบที่เชื่อถือได้สำหรับดิสก์ Seagate สำหรับ Linux ใครสามารถให้ข้อมูลเชิงลึกได้บ้าง

แก้ไข: นี่คือสิ่งที่ฉันได้รับจาก smartctl สำหรับดิสก์ Seagate:

$ sudo smartctl -A /dev/sda
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-3.10.0-1160.53.1.el7.x86_64] (รุ่นในเครื่อง)
ลิขสิทธิ์ (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== จุดเริ่มต้นของการอ่านข้อมูลสมาร์ทส่วน ===
อุณหภูมิไดรฟ์ปัจจุบัน: 33 C
อุณหภูมิการเดินทางของไดรฟ์: 60 C

ผลิตสัปดาห์ที่ 42 ปี 2020
จำนวนรอบที่ระบุตลอดอายุการใช้งานอุปกรณ์: 50,000
รอบเริ่มต้น-หยุดสะสม: 20
จำนวนการขนถ่ายที่ระบุตลอดอายุการใช้งานอุปกรณ์: 600000
รอบการขนถ่ายสะสม: 3324
องค์ประกอบในรายการข้อบกพร่องที่เพิ่มขึ้น: 0

ในขณะที่ Toshiba HDD บนเครื่องอื่น:

$ sudo smartctl -A /dev/sdb
smartctl 7.1 2020-04-05 r5049 [x86_64-linux-4.18.0-348.12.2.el8_5.x86_64] (รุ่นในเครื่อง)
ลิขสิทธิ์ (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== จุดเริ่มต้นของการอ่านข้อมูลสมาร์ทส่วน ===
หมายเลขการแก้ไขโครงสร้างข้อมูลแอตทริบิวต์ SMART: 16
แอตทริบิวต์ SMART เฉพาะของผู้ขายที่มีเกณฑ์:
ID# ATTRIBUTE_NAME ค่าสถานะ ค่าสถานะ ประเภทที่แย่ที่สุด อัปเดตเมื่อ RAW_VALUE ล้มเหลว
  1 Raw_Read_Error_Rate 0x000b 100 100 050 ผิดพลาดล่วงหน้าเสมอ - 0
  2 ปริมาณงาน_ประสิทธิภาพ 0x0005 100 100 050 ออฟไลน์ล่วงหน้า - 0
  3 Spin_Up_Time 0x0027 100 100 001 ก่อนล้มเหลวเสมอ - 7019
  4 Start_Stop_Count 0x0032 100 100 000 Old_age เสมอ - 34
  5 Reallocated_Sector_Ct 0x0033 100 100 050 ล้มเหลวล่วงหน้าเสมอ - 0
  7 Seek_Error_Rate 0x000b 100 100 050 ผิดพลาดล่วงหน้าเสมอ - 0
  8 Seek_Time_Performance 0x0005 100 100 050 ก่อนล้มเหลว ออฟไลน์ - 0
  9 Power_On_Hours 0x0032 062 062 000 Old_age เสมอ - 15428
 10 Spin_Retry_Count 0x0033 100 100 030 ผิดพลาดล่วงหน้าเสมอ - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age เสมอ - 34
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age เสมอ - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age เสมอ - 32
193 Load_Cycle_Count 0x0032 100 100 000 Old_age เสมอ - 39
194 Temperature_Celsius 0x0022 100 100 000 Old_age เสมอ - 31 (ต่ำสุด/สูงสุด 15/39)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age เสมอ - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age เสมอ - 0
198 ออฟไลน์_แก้ไขไม่ได้ 0x0030 100 100 000 Old_age ออฟไลน์ - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age เสมอ - 0
220 Disk_Shift 0x0002 100 100 000 Old_age เสมอ - 0
222 Loaded_Hours 0x0032 062 062 000 Old_age เสมอ - 15427
223 Load_Retry_Count 0x0032 100 100 000 Old_age เสมอ - 0
224 Load_Friction 0x0022 100 100 000 Old_age เสมอ - 0
226 Load-in_Time 0x0026 100 100 000 Old_age เสมอ - 648
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail ออฟไลน์ - 0

ฉันคาดหวังบางอย่างเช่นหลังเพื่อให้สามารถตั้งค่าการตรวจสอบที่เหมาะสม (แม้ว่าจะไม่ถูกต้องหรือเชื่อถือได้)

Score:0
ธง br

บทความนี้ระบุว่าพวกเขาเปิดเผยแอตทริบิวต์ SMART ตามปกติ แต่ด้วยเหตุผลที่ไม่ต้องใช้มือเท่านั้น SeaTool เท่านั้นที่รู้วิธีตีความแอตทริบิวต์นอกเหนือจากการผ่าน/ไม่ผ่าน

ในระดับหนึ่ง นั่นเป็นความจริงสำหรับแอตทริบิวต์ SMART ของดิสก์ใดๆ เนื่องจากมีเพียงค่าที่คำนวณได้เท่านั้นที่เครื่องอ่านได้ และการตีความค่า "ดิบ" ค่อนข้างไม่ได้กำหนดไว้ อุณหภูมิ_เซลเซียส ชัดเจน แต่เวลาในการรวมสำหรับแอตทริบิวต์ "อัตราข้อผิดพลาด" ต่างๆ ขึ้นอยู่กับผู้ขาย และเกณฑ์ก็เช่นกัน SeaTools รู้วิธีตีความค่าดิบ ก็แค่นั้นแหละ

ฉันสงสัยว่าพวกเขาจะขายฮาร์ดดิสก์จำนวนมากหากการสนับสนุน SMART ขาดหายไปหรือไม่ถูกต้อง ดิสก์เซิร์ฟเวอร์ส่วนใหญ่เข้าสู่อาร์เรย์ RAID โดยที่ SMART เป็นมาตรฐานการตรวจสอบเดียวที่มี

พวกเขาอาจสามารถวางซอฟต์แวร์การวิเคราะห์ของตนเองไว้บนตัวควบคุม RAID ได้ แต่ถ้าไม่ผสานรวมเข้ากับโซลูชันการตรวจสอบที่มีอยู่ซึ่งมีแดชบอร์ดสำหรับศูนย์ข้อมูลทั้งหมดด้วยความพยายามเพียงเล็กน้อย ก็จะเป็นโซลูชันเฉพาะสำหรับตลาดมือสมัครเล่น .

นี่เป็นตัวอย่างหนึ่งของปัญหาประเภทหนึ่งที่ฉันเรียกว่าปัญหา "บนสุดของห่วงโซ่อาหาร" ซึ่งส่วนประกอบของซอฟต์แวร์หลายตัวถูกเขียนขึ้นเพื่อเป็นอินเทอร์เฟซผู้ใช้หลัก ในขณะที่ผู้ใช้ต้องการให้รวมเข้ากับระบบที่ใหญ่ขึ้น

cn flag
ฉันเข้าใจ แต่ smartctl -A รายงานว่าไม่มีแอตทริบิวต์เฉพาะของผู้ขายที่มีค่าแย่ที่สุดและเกณฑ์ขั้นต่ำ เพียงแค่รายงานอุณหภูมิปัจจุบันและอุณหภูมิการเดินทางและตัวเลขบางส่วนเช่นรอบการเริ่มต้นและหยุดสะสมและรอบการขนถ่ายสะสมโดยไม่มีช่วงอ้างอิงใด ๆ แล้วจะ S.M.A.R.T. ได้อย่างไร อนุมานบางสิ่ง (แม้จะไม่แม่นยำ) เกี่ยวกับสถานะความสมบูรณ์ของดิสก์ อีกอย่าง ผมกลัวว่าการตั้งระบบตรวจสุขภาพอัตโนมัติแบบ S.M.A.R.T. อาจไร้ประโยชน์เนื่องจากดิสก์ไม่ได้ให้ข้อมูลเพียงพอ
br flag
@NicolaMori SMART แสดงช่วงอ้างอิงโดยการทำให้ค่าเป็นมาตรฐาน ดังนั้นสำหรับการตรวจสอบที่ไม่ขึ้นกับผู้ขาย สิ่งที่คุณต้องตรวจสอบว่าค่าปัจจุบันและค่าที่แย่ที่สุดอยู่เหนือเกณฑ์หรือไม่ และดูว่าค่าเหล่านั้นกำลังเคลื่อนเข้าหาค่านั้นหรือไม่และเร็วเพียงใด
br flag
FWIW ฉันไม่กังวลกับการตรวจสอบส่วนใหญ่นอกเหนือจากการวาดกราฟที่สวยงาม ฉันมีดิสก์หลายตัวที่ถูกดีดออกจาก RAID เนื่องจากไม่สามารถเก็บข้อมูลได้ แต่นั่นก็ดูดีใน SMARTสิ่งที่คุณได้รับจาก SMART คือการเตือนล่วงหน้าในบางครั้ง
cn flag
ปัญหาอยู่ที่ smartctl -A ฉันไม่ได้รับค่าใด ๆ เพียงแค่อุณหภูมิ ดังนั้นจึงไม่มีอะไรต้องตรวจสอบ ดูการแก้ไขในโพสต์ต้นฉบับของฉัน ดิสก์ S.M.A.R.T. มีการโฆษณาการสนับสนุนว่าพร้อมใช้งานและเปิดใช้งาน
br flag
@NicolaMori ฉันได้ค้นคว้าเพิ่มเติมอีกเล็กน้อย - การถ่ายโอนข้อมูลแอตทริบิวต์ `-A` เป็น ATA / SATA เฉพาะและจะใช้ไม่ได้กับไดรฟ์ SAS การถ่ายโอนข้อมูลที่กว้างขวาง `-x` ควรแสดงข้อมูลเพิ่มเติมเล็กน้อย แต่มันทำงานแตกต่างกันเล็กน้อย หน้าคู่มือ `smartctl` มีความคิดเห็นสองสามข้อโดยระบุว่า `[ATA]` หรือ `[SCSI]` เพื่อเน้นความแตกต่าง
cn flag
ขอบคุณมากสำหรับความช่วยเหลือของคุณ. ฉันลองด้วย `-x` และด้วย `-d scsi` แต่สุดท้ายก็ไม่มีการพิมพ์ข้อมูลเพิ่มเติมในส่วน SMART DATA ฉันเดาว่าสมาร์ทจะทำงานแตกต่างออกไปสำหรับไดรฟ์ SAS และเมตริกที่มีให้เท่านั้นคือรอบการเริ่ม-หยุด รอบการโหลด-ยกเลิกการโหลด และองค์ประกอบในรายการข้อบกพร่องตามที่รายงานในโพสต์เริ่มต้นของฉัน ฉันเดาว่าฉันจะดูสถานะสุขภาพสังเคราะห์ (smartctl -H) ดูเหมือนว่าผลลัพธ์จะไม่คุ้มกับความพยายามที่นี่ ขอบคุณอีกครั้ง!

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา