ฉันมีฮาร์ดแวร์ RAID ที่ค่อนข้างทันสมัยสำหรับสิ่งนี้:
- คอนโทรลเลอร์: Intel RS3SC008
- SAS Expander: Intel RES3FV288
- HDD: ซีเกท ST8000AS0002-1NA17Z
ในขณะนี้ ฉันไม่มี BBU ซึ่งควรเป็น Intel AXXRMFBU4
SAS expander เชื่อมต่อกับคอนโทรลเลอร์กับพอร์ต G อย่างถูกต้อง (ตามคู่มือ)
ชิ้นส่วนของระบบทั้งหมดมีอุณหภูมิและการระบายอากาศที่เหมาะสม (เช่น อุณหภูมิที่ตัวควบคุม ROC อยู่ที่ประมาณ 43C ซึ่งมากกว่าที่เหมาะสม)
Controller และ Expander ถูกแฟลชเป็นเฟิร์มแวร์ล่าสุด
HDD เป็นเฟิร์มแวร์ล่าสุดเช่นกัน
ปัญหาของฉันคือระดับ RAID ใดก็ตามที่ฉันกำหนดค่า (ลอง 0, 6) และการกำหนดค่าแคชใดก็ตามที่ฉันเลือก ฉันพบข้อผิดพลาดเมื่อโหลดจริง:
- ในการกำหนดค่าบางอย่าง อุปกรณ์ VD จะออฟไลน์ โดยระบุว่า HDD บางตัวออฟไลน์
- สมมติว่า HDD เหล่านี้อาจเสีย ฉันได้สร้างการทดสอบใหม่อีกครั้งโดยไม่มี HDD เหล่านี้ แต่ก็ยังล้มเหลว
- ในบันทึก ฉันเห็นคำเตือนบ่นเกี่ยวกับเซ็นเซอร์อุณหภูมิที่ฉันไม่มี และคำเตือนการรีเซ็ตอุปกรณ์ phy บางรายการ ไม่มีข้อผิดพลาดจริงจนกระทั่ง VD ออฟไลน์ เนื่องจากมี HDD ตัวใดตัวหนึ่งทำงานผิดปกติและออฟไลน์ ฉันได้พยายามแยก HDD ที่ผิดพลาดเหล่านี้ออกในการทดสอบที่ตามมา
ดูเหมือนว่าจะฟื้นตัวจากปัญหาได้เล็กน้อย แต่ท้ายที่สุดแล้ว ฉันอยู่ที่จุดเริ่มต้น
ฉันสงสัยว่าการมี HDD เสีย 4 ลูกใน HDD ใหม่ 20 ลูกนั้นค่อนข้างแปลก
คุณจะแนะนำอะไรในสถานการณ์นี้
ปัญหาคืออะไร?
ความเข้ากันไม่ได้ของ HDD?
มีวิธีการกู้คืนจากสถานการณ์นี้หรือไม่?