เมื่อเร็ว ๆ นี้ เกิดเหตุการณ์ที่เราไม่สามารถเชื่อมต่อกับหลาย ๆ มาสเตอร์บนคลัสเตอร์ Redis ของเราได้
การเชื่อมต่อจากรหัสฐานของเราหมดเวลาเราไม่สามารถใส่ SSH เข้าไปในกล่องได้ในช่วงเวลานี้
สิ่งนี้เกิดขึ้นหลายครั้งและแต่ละครั้ง CPU ประมาณ 20% และการใช้หน่วยความจำก็ประมาณ 20% จำนวนการเชื่อมต่อ tcp แตกต่างกันไปในแต่ละเหตุการณ์ระหว่าง 7k และ 12k ซึ่งต่ำกว่าที่เราคาดว่าจะเป็นระดับที่น่าตกใจ
การเชื่อมต่อที่สร้างไว้แล้วยังคงทำงานได้ตามปกติ ในบรรดาการเชื่อมต่อที่มีอยู่เหล่านั้นคือผู้ส่งออกเมตริกของเรา ดังนั้นพวกเขาจึงสามารถรวบรวมเมตริกเกี่ยวกับการเชื่อมต่อ/ซีพียู ฯลฯ ได้
เครือข่ายเข้า/ออกจะค่อยๆ ลดลงเนื่องจากการเชื่อมต่อที่มีอยู่หยุดทำงาน อย่างไรก็ตาม การเชื่อมต่อใหม่ไม่สามารถเชื่อมต่อได้เลย ราวกับว่าถูกปฏิเสธโดยเซิร์ฟเวอร์
เราได้ตรวจสอบการตั้งค่าต่างๆ เช่น SOMAXCONN และตัวอธิบายไฟล์ที่มีอยู่ แต่ยังไม่สามารถระบุสาเหตุที่ไม่สามารถสร้างการเชื่อมต่อใหม่ได้ เนื่องจากไม่มีความผิดปกติที่ชัดเจนในสถิติใดๆ ที่เราตรวจสอบก่อนที่จะเกิดขึ้น
เซิร์ฟเวอร์กำลังใช้งาน Amazon Linux 2 บนประเภทอินสแตนซ์ x2gd.medium บน AWS
การไม่สามารถเข้าสู่ระบบผ่าน SSH ในขณะที่ทราฟฟิกส่วนใหญ่อยู่ในพอร์ตอื่นนั้นค่อนข้างแปลก
ไม่มีใครมีความคิดใด ๆ ว่าทำไมไม่สามารถทำการเชื่อมต่อได้ในขณะที่เมตริกที่ชัดเจนทั้งหมดดูเหมือนตกลง