Score:0

Raid 5 ที่มีอะไหล่สำรอง (17+1) กลายเป็น Raid 5 ที่ไม่มีอะไหล่สำรอง (18 + 0) ได้อย่างไร (เดลล์ พาวเวอร์เอดจ์ T640)

ธง es

เมื่อเร็ว ๆ นี้เราพบปัญหาเซิร์ฟเวอร์ที่เก็บข้อมูล RAID ที่แปลกประหลาด ปัญหาล่าสุด ฉันไม่รู้ว่าเกิดอะไรขึ้น

config คือ Raid 5; 17 + 1 (ดิสก์โวลุ่ม 17 ตัว + 1 ฮอทสำรองเฉพาะ)

ดิสก์ตั้งค่าสถานะตัวเองว่า 'ลบ' เนื่องจากเรามีงบประมาณจำกัดในขณะนี้ เราจึงพยายามติดตั้งไดรฟ์ทั้งหมดใหม่ก่อนที่จะเปลี่ยนใหม่ โดยมีเงื่อนไขว่ามีเพียง 1 ไดรฟ์เท่านั้นที่แฟล็ก ณ เวลาใดเวลาหนึ่ง (แนวคิดคือเราสามารถจ่ายได้ + ดิสก์อีก 1 แผ่น ล้มเหลวเนื่องจากการกำหนดค่า 17+1) เซิร์ฟเวอร์แทบไม่ถูกใช้งานในแง่ของความต้องการในการปกป้องข้อมูลจริง พื้นที่ถูกใช้ในฟังก์ชัน Sketchpad การประมวลผลชั่วคราว แทนที่จะใช้เก็บถาวรสิ่งสำคัญ ดังนั้นมันจึงไม่ใช่จุดจบของโลก แต่เรายังคงต้องการบัฟเฟอร์ของ Raid 5 บวกกับบัฟเฟอร์พิเศษของอะไหล่เฉพาะ

ฉันใส่ดิสก์กลับเข้าไปใหม่ และแทนที่เซิร์ฟเวอร์จะกลับไปใช้การกำหนดค่า 17+1 กลับปรากฏอย่างแปลกประหลาดว่าตอนนี้เป็นโวลุ่ม 18 ดิสก์จู่โจม 5 ในอดีต การจัดที่นั่งใหม่ได้ทำให้เซิร์ฟเวอร์กลับมาเป็น 17+1 ตามที่คาดไว้ บางครั้ง +1 กลับมาเป็นแบบแปลกปลอมหรือไม่ได้ถูกกำหนดให้เป็นอะไหล่เฉพาะโดยอัตโนมัติ แต่จะกลับมาแบบแยกจากดิสก์ 17 ตัวที่ใช้งานอยู่เสมอ ฮอตสแปร์คืออันที่ถูกถอดออก หรือหนึ่งใน 17 อันนั้นเป็นอันที่ถูก 'เอาออก' และฮอตสแปร์จะเข้ามาแทนที่ดิสก์ที่ 17 ในโวลุ่มของ Raid 5 โดยอัตโนมัติ ดังนั้นดิสก์ที่ถูกใส่เข้าไปใหม่ เป็นส่วนเกินของดิสก์ 17 แผ่นที่รวมกันเป็นชุดใหม่ 17 แผ่น

ฉันจะทำอย่างไร ฉันไม่สามารถลดระดับเสียงลงเหลือ 17 แล้วกำหนดดิสก์ใหม่เป็น hot spare เฉพาะได้ เนื่องจากตอนนี้ปริมาณการจู่โจมมีขนาดใหญ่ถึง 18 ดิสก์ แต่ถ้าเป็นเช่นนั้น เราไม่มีการกำหนดค่าที่ให้เราสามารถกู้คืนจากไดรฟ์ที่สูญหาย 2 ตัวอีกต่อไป เนื่องจากไม่มีช่องเสียบที่ 19 สำหรับติดตั้งฮอตสำรองโดยเฉพาะ

Score:4
ธง ru

RAID5 แบบ 18 ดิสก์คือซากรถไฟที่กำลังรอให้เกิด... ฉันหวังว่าคุณจะมีข้อมูลสำรองที่ดี

อย่างจริงจัง คุณต้องใช้ RAID6 สำหรับดิสก์ที่มากกว่า 5 ดิสก์สูงสุดหรือดิสก์ที่ใหญ่กว่า 1 TB

เนื่องจากคุณไม่มีตัวเลือกในการลดขนาดอาร์เรย์ คุณจึงต้องเพิ่มดิสก์เพื่อให้คุณสามารถโอนย้ายไปยัง RAID6 ได้ โดยมีหรือไม่มีฮอตสแปร์ ด้วยดิสก์ 18 แผ่น ฉันขอแนะนำให้ใช้ RAID60 กับ subarrays เก้าดิสก์อย่างจริงจัง (ขอบคุณ @Nikita)

เราไม่มีการกำหนดค่าที่ให้เราสามารถกู้คืนจากไดรฟ์ที่หายไป 2 ไดรฟ์ได้อีกต่อไป

คุณไม่เคยมี RAID5 พร้อมโฮสต์สำรองสามารถกู้คืนจาก หนึ่ง ขับรถหายและ หลังจากสร้างใหม่ อาจหายจาก อื่น ขับรถหาย หากมีอะไรเกิดขึ้นระหว่างการสร้างใหม่ ซึ่งไม่ใช่เรื่องแปลก อาร์เรย์จะสูญหายไป

ไม่มีช่องที่ 19 สำหรับติดตั้ง hot spare โดยเฉพาะ

หากคุณไม่สามารถเพิ่มไดรฟ์ได้ แสดงว่าคุณไม่มีที่ว่างมากพออยู่แล้ว ทดสอบรูปแบบการสำรองข้อมูลและการกู้คืน การลบและการสร้าง RAID6 หรือดีกว่า - RAID60 อาร์เรย์ในครั้งนี้ หรือพิจารณาย้ายไปยังเซิร์ฟเวอร์ใหม่

หากไม่มีงบประมาณและไม่มีช่วงเวลาการบำรุงรักษาสำหรับการสร้างอาร์เรย์ใหม่ คุณก็แทบจะไม่มีทางเลือกมากนัก ตรวจสอบว่ามีความน่าเชื่อถือและ ผ่านการทดสอบอย่างดี สำรองข้อมูล (อินสแตนซ์สำรองสองอินสแตนซ์ บนสื่อที่แตกต่างกัน การทดสอบรวมถึงการกู้คืนแบบ Bare Metal) เรียกใช้การขัดถูเป็นประจำ (ลดโอกาสที่จะเกิดข้อผิดพลาดของข้อมูลเก่าลงอย่างมากในขณะที่สร้างใหม่) หยุดการจัดตำแหน่งใหม่ (ซึ่งอาจทำให้คุณหลงทางในการดองนี้ อันดับแรก) และชูนิ้วโป้งของคุณ คุณกำลังทำงานบนควัน

อ้อ คุณได้ประเมินค่าใช้จ่ายและสถานการณ์ของอาร์เรย์ที่ล้มเหลวทั้งหมดหรือยัง

Nikita Kipriyanov avatar
za flag
อุปกรณ์ RAID6 เดียวจาก 18 เครื่องเกือบจะแย่พอๆ กับ RAID5 ฉันขอแนะนำ RAID60 สองกลุ่ม 9 ดิสก์
Zac67 avatar
ru flag
@NikitaKipriyanov จุดที่เหมาะสม - RAID5 ขนาดใหญ่ตัวเดียวนั้นแย่กว่า RAID6 ขนาดใหญ่ตัวเดียวมาก
es flag
ขอบคุณ! นี่เป็นระบบจัดเก็บข้อมูลสมัยใหม่ขนาดใหญ่ระบบแรกของฉัน ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการจัดการมัน มันถูกออกแบบโดยคอมพ์ นักวิทยาศาสตร์ที่เป็น 'oldschool' ฉลาดแต่ไม่เน้นธุรกิจ/ต้นทุน/ประสิทธิภาพ ต้นทุนการสูญเสียไม่ได้เป็นศูนย์ แต่ก็ไม่สูงเป็นพิเศษ เรานำดิสก์และพยายามดึงข้อมูลที่เป็นประโยชน์จากดิสก์ ไม่ว่าจะเป็นข้อมูลไฟล์จริงหรือข้อมูลเมตา/ความสัมพันธ์ ข้อมูลจริงที่สร้างขึ้นมีขนาดหลายเท่าของไดรฟ์ต้นทาง แต่อาจถูกละทิ้ง 99.9% เมื่อมีการรายงาน/รวบรวม สิ่งสำคัญที่ฉันพบว่าแปลกคือทำไมโวลุ่มของ Raid 5 เปลี่ยนจาก 17 ดิสก์เป็น 18 โดยอัตโนมัติ
es flag
WRT ความคิดเห็นเกี่ยวกับความอดทนต่อความล้มเหลว: ฉันคิดว่าฉันเข้าใจสิ่งที่คุณหมายถึง มี 2 ​​ความเป็นไปได้ ก) 0000h = 17 ใช้ | 0 สร้างใหม่ | 1 อะไหล่ | 0 ตาย; 0100h = 16 ใช้ | 1 สร้างใหม่ | 0 อะไหล่ | 1 ตาย; 0300h = 15 ใช้ | 1 สร้างใหม่ | 0 อะไหล่ | 2 ตาย; 0400h = วินาทีตายก่อนที่จะสร้างใหม่สำรอง 15/17 ไม่สามารถกู้คืนได้ ข) 0000h = 17 ใช้ | 0 สร้างใหม่ | 1 อะไหล่ | 0 ตาย; 0100h = 16 ใช้ | 1 สร้างใหม่ | 0 อะไหล่ | 1 ตาย; 0300h = 17 ใช้ | 0 สร้างใหม่ | 0 อะไหล่ | 1 ตาย; ตอนนี้เป็นการตายครั้งที่ 2 แต่การโจมตีสร้างใหม่แล้ว 0400h = 16 ใช้ | 0 สร้างใหม่ | 0 อะไหล่ | 2 ตาย |
Score:1
ธง co

Raid6 นั้นดีกว่า R5 + hot spare มาก เนื่องจากดิสก์จำนวนมากสามารถล้มเหลวได้ในคราวเดียว จริงๆแล้วมันก็น่ากลัวด้วยจำนวนไดรฟ์มากมาย แต่สยองขวัญน้อยกว่า R5 ;)

ตอนนี้คุณมี R5 บนดิสก์ 18 แผ่น ดังนั้นหากมีอะไรล้มเหลว คุณจะต้องอ่านเซกเตอร์ทั้งหมดจากดิสก์ 17 แผ่นอย่างถูกต้อง ยิ่งไปกว่านั้น ดิสก์เหล่านี้บางส่วนไม่เสถียรและอาจล้มเหลวไปแล้ว

โดยปกติไดรฟ์จะถูกขับออกจาก RAID เนื่องจากต้องใช้เวลามากกว่าปกติในการอ่านข้อมูล เวลานานกว่าปกติมักเป็นสัญญาณว่าไดรฟ์ของคุณใกล้จะล้มเหลว และอาจปรากฏขึ้นหรือไม่ปรากฏใน SMART และสิ่งเหล่านี้อาจเป็น "ปัญหาแปลก ๆ " กับไดรฟ์ที่ล้มเหลวซึ่งสามารถต่อเข้ากับอาร์เรย์อีกครั้งได้ในภายหลัง

การใส่ไดรฟ์ใหม่หรือใช้งานไดรฟ์อาจเป็นความคิดที่ดีใน Raid 1/Raid10 ไม่ใช่การตั้งค่าที่คุณไม่มีระยะขอบ ในกรณีเช่นคุณ ฉันคิดว่าอาร์เรย์นั้นตายไปแล้ว ถ้าไม่ใช่ มันอาจจะเกิดขึ้นเร็วๆ นี้

ดังนั้นวิธีแก้ปัญหาของ IMO ก็คือ - ใช้ R10 กับไดรฟ์ห่วยๆ ที่ล้มเหลวและจำกัดการใช้ทรัพยากรด้วยวิธีใดวิธีหนึ่ง หรือใช้ R6 ด้วยอะไหล่ เพื่อให้สร้างใหม่ได้ทันทีหลังจากไดรฟ์หนึ่งหาย การเก็บรักษาและลบข้อมูลประวัติบางส่วนจะดีกว่าถ้าคุณมีงบจำกัด ดีกว่าเสียทุกอย่างไป

คุณอาจต้องเริ่มแก้ไขโดยเร็วที่สุด พูดคุยกับหัวหน้าและสื่อสารว่ารูปแบบการจู่โจมนี้ไม่เพียงพอและมี 3 ตัวเลือก:

  • ดำเนินการต่อใน R5 และสูญเสียทุกอย่างในอนาคตอันใกล้นี้
  • สร้างใหม่ใน R10 และจำกัดข้อมูลที่เก็บไว้
  • R6 + อะไหล่ ซึ่งน่าจะเป็นความคิดที่แย่มาก แต่บางทีคุณอาจทำ R6 โดยไม่มีอะไหล่สำหรับการประมวลผลชั่วคราวนี้ และ R1 สำหรับสิ่งที่สำคัญทั้งหมด (วิธีนี้คุณจะไม่สูญเสียพื้นที่เก็บข้อมูลมากเกินไป)

จริงๆแล้วคุณโชคดีมากที่ยังใช้งานได้...

es flag
ขอบคุณ. ใช่ เราอาจโชคดีที่ทำงานบนชุดข้อมูลนี้ จะทำการอ่านเกี่ยวกับการออกแบบอื่น ๆ ฯลฯ เมื่อฉันศึกษาด้านไอทีอย่างเป็นทางการ เทคโนโลยีสตอเรจยังไม่ก้าวหน้าเท่าทุกวันนี้ (ไม่ใช่ยุคหิน แต่นานมากแล้ว) ดังนั้นฉันจึงมีอะไรให้คิดอีกมาก ผู้ออกแบบระบบ (เจ้านายของฉัน) ยังเป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์/การวิจัยมากกว่าผู้เชี่ยวชาญด้านการจัดเก็บข้อมูลอีกด้วยเขาเปิดรับแนวคิดใหม่ๆ อย่างสมบูรณ์แบบ แต่ข้อจำกัดด้านงบประมาณนั้นรุนแรงและไม่กลัวข้อมูลสูญหายมากนัก สิ่งที่เราเรียนรู้จากการประมวลผลเป็นมากกว่าการสร้างมรดก/เอกสารสำคัญ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา