ฉันมี vcenter คลัสเตอร์ของโฮสต์ ESX 12 รายการ (ClusterA) และคลัสเตอร์อื่นของโฮสต์ ESX 3 รายการ (ClusterB) ทั้งหมดนี้เป็นส่วนผสมของ poweredge r620s และ r630s
โฮสต์บางตัวมีข้อผิดพลาดของฮาร์ดแวร์ที่สามารถเห็นได้ในบันทึก iDRAC และหน้าจอ LCD ด้านหน้า เช่น:
- ข้อผิดพลาดในการตรวจสอบเครื่อง CPU
- เกินอัตราข้อผิดพลาดของหน่วยความจำที่แก้ไขได้
ตามที่คาดไว้ สิ่งนี้ทำให้โฮสต์เหล่านั้นไม่พร้อมใช้งาน (ไม่ตอบสนอง) ในคลัสเตอร์
การแก้ไขข้อผิดพลาดของฮาร์ดแวร์เหล่านี้มักจะเกี่ยวข้องกับขั้นตอนเหล่านี้:
- ไฟดับ
- ถอดการ์ดเครือข่ายออก
- เปิดเครื่องและรอการบู๊ตระบบปฏิบัติการสำเร็จ
- ไฟดับ
- วางการ์ดเครือข่ายเดิมกลับเข้าไป
- เปิดเครื่อง
เป็นเรื่องแปลกสำหรับฉันที่จะแก้ไขข้อผิดพลาดของ CPU และหน่วยความจำ แต่นั่นคือสิ่งที่เกิดขึ้นอย่างสม่ำเสมอ
ClusterB ใช้ได้ - ไม่มีปัญหาเลย ปัญหาจริงที่ฉันพบคือเมื่อฉันแก้ไขโฮสต์สองสามโฮสต์จาก ClusterA โฮสต์สุ่มอื่น ๆ 1-3 แห่งใน ClusterA จะหยุดทำงานภายในหนึ่งหรือสองวัน หลังจากการล่ม 1-3 ครั้งแรกนั้น ถ้าฉันปล่อยไว้ตามลำพัง จะไม่มีโฮสต์ใดล่มอีกต่อไปหลังจากนั้นเป็นเวลาหลายสัปดาห์ สิ่งนี้ทำให้ฉันกลับมาที่จุดเริ่มต้นและฉันได้สังเกตเห็นพฤติกรรมนี้หลายครั้งแล้ว
มีความคิดเกี่ยวกับสิ่งที่จะตรวจสอบ?