เมื่อเร็ว ๆ นี้เราสังเกตเห็นว่าโครงการ Google App Engine ของเราประสบกับความล้มเหลวเป็นระยะ ๆ ทุก ๆ 25 ชั่วโมง 10 นาที (1510 นาที) เป็นเวลาสามวันติดต่อกันโดยไม่มีเหตุผลที่ชัดเจน
ในระหว่างปัญหา เราพบว่าคำขอล้มเหลวด้วยรหัส 499 (คำขอปิดของลูกค้า) หลังจากระยะเวลาคำขอที่ยาวนานมาก (10 วินาที) โดยปกติแล้วคำขอจะใช้เวลาไม่กี่ร้อยมิลลิวินาทีหรือบางครั้งอาจใช้เวลา 2-3 วินาที แต่ไม่เกิน 10 วินาที ในขณะนั้น เราไม่เห็นการเข้าชมเพิ่มขึ้นเลย และเราไม่มีงานเบื้องหลังใดๆ ทำงานอยู่ CPU และหน่วยความจำทั้งหมดปกติดีจนกระทั่งปัญหาเริ่มต้น จากนั้น CPU เพิ่มขึ้นเล็กน้อย (เช่น จากประมาณ 10% เป็น 60%) และทริกเกอร์การเพิ่มขนาดชั่วคราวจาก 3 เป็น 5 โฮสต์
โครงการนี้เป็น Python Fast API ภาพ ปรับใช้กับสภาพแวดล้อมแบบยืดหยุ่น ขั้นต่ำ 3 โฮสต์สูงสุด 12 โฮสต์ในขณะนั้น
ช่วงเวลาของความล้มเหลวเหล่านี้น่าสนใจเนื่องจากเกิดขึ้นห่างกันเกือบ 25 ชั่วโมง 10 นาทีพอดี เรามีการปรับใช้สองสามวันในช่วงเวลาต่างๆ กัน ไม่มีความสัมพันธ์กับเวลาทำงานของเซิร์ฟเวอร์เช่นกัน
การประทับเวลาด้านล่างอยู่ใน UTC:
2021-11-17 17:43
2021-11-18 18:53
2021-11-19 20:03
มีใครเห็นสิ่งที่คล้ายกันนี้เกิดขึ้นบน Google App Engine หรืออาจมีอิมเมจ Fast API ที่กล่าวถึงหรือไม่