ฉันประสบปัญหาที่แปลกประหลาดอย่างมากเกี่ยวกับเซิร์ฟเวอร์เครื่องหนึ่ง มันสุ่มค้าง/ค้างโดยไม่มีเอาต์พุตบนเซิร์ฟเวอร์ และไม่ตอบสนองต่อปุ่มลัด และจำเป็นต้องบูตด้วยความเย็น เมื่อบูตด้วยโคลด์บูต ไม่มีข้อผิดพลาดบนหน้าจอบูตเลย
มันไม่ได้ค้างเมื่อโหลดหนักแต่อย่างใด โดยมี cpu ประมาณ 9-20% เมื่อเกิดความผิดพลาด โหลดเฉลี่ยประมาณ 2-5 (12 core cpu)
และแรม 128GB
เราลองตรวจสอบบันทึก ไม่มีอะไรแสดงเหมือนเคอร์นัลแพนิคหรืออะไรก็ตามที่เกี่ยวข้องกับปัญหา
ในการค้างทั้งหมดหลังจากโคลด์บูต เมื่อเราตรวจสอบบันทึก เราเห็น OOM reaper ปกติฆ่า php procces (ผู้ใช้ถึงขีดจำกัด) แต่ไม่มีอะไรผิดปกติ แต่อยู่ใน OOM เสมอ
บางครั้งเมื่อเซิร์ฟเวอร์ค้างในบันทึก คุณจะเห็นเวลาปัจจุบัน และบางครั้งเหมือนที่แสดงหลังจากเวลาปัจจุบันของ Thr ที่เกิดข้อขัดข้องสองสามบรรทัดจากวันที่เก่ากว่า และค้าง
ไม่มีสิ่งใดในบันทึกที่สามารถระบุได้ว่าเกี่ยวข้องกับซอฟต์แวร์ หรือภายใต้ภาระงานหนัก เป็นเพียงการทำงานปกติ นี่คือเครื่องที่อัปเกรดจากเครื่องเก่าที่มีความเสถียรมานานหลายปี..
การค้างเป็นแบบสุ่ม อาจเป็นหลังจากเซิร์ฟเวอร์เปิดหนึ่งสัปดาห์ หรือสองวันหรือสามสัปดาห์ และอื่นๆ...
นอกจากนี้เรายังพยายามแยก vmcore dump ของการหยุดเซิร์ฟเวอร์ แต่ก็ยังไม่มีอะไรจับได้
มันหยุดทำงานโดยไม่มีเอาต์พุตหน้าจอ แต่เซิร์ฟเวอร์ยังคงทำงานอยู่ แต่ไม่สามารถ pringable ไม่สามารถเข้าถึง ssh อะไรเลย รวมถึง kvm อย่างที่ฉันบอกว่าไม่แสดงเอาต์พุตเลยที่หน้าจอ
อาจเกี่ยวข้องกับฮาร์ดแวร์ที่ผิดพลาดหรือไม่? เนื่องจากการระงับของฉันเกี่ยวกับ RAM ผิดพลาด?
หลงประเด็นนี้มาก..
ขอบคุณ