เราได้สร้างคลัสเตอร์ GKE และเราได้รับข้อผิดพลาดจาก gke-metrics-agent ข้อผิดพลาดปรากฏขึ้นทุกๆ cca 30 นาที ข้อผิดพลาด 62 เหมือนเดิมเสมอ
ข้อผิดพลาดทั้งหมดมีป้ายกำกับ k8s-pod/k8s-app: "gke-metrics-agent".
ข้อผิดพลาดแรกคือ:
ข้อผิดพลาด exporterhelper/queued_retry.go:245 การส่งออกล้มเหลว ลองเปิดใช้งานตัวเลือกการกำหนดค่า retry_on_failure {"kind": "exporter", "name": "googlecloud", "error": "rpc error: code = DeadlineExceeded desc = กำหนดเวลาหมดอายุก่อนที่การดำเนินการจะเสร็จสมบูรณ์"
ข้อผิดพลาดนี้ตามมาด้วยข้อผิดพลาดเหล่านี้ตามลำดับ
- "go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send"
- "/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245"
- go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).send
- /go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120
มีข้อผิดพลาด cca 40 เช่นนี้ ข้อผิดพลาดสองข้อที่โดดเด่นคือ:
- ข้อผิดพลาด exporterhelper/queued_retry.go:175 การส่งออกล้มเหลว วางข้อมูลลองเปิดใช้งาน send_queue เพื่อป้องกันความล้มเหลวชั่วคราว {"ชนิด": "ผู้ส่งออก", "ชื่อ": "googlecloud", "dropped_items": 19}"
- เตือน batchprocessor/batch_processor.go:184 ผู้ส่งล้มเหลว {"ชนิด": "ตัวประมวลผล", "ชื่อ": "แบทช์", "ข้อผิดพลาด": "ข้อผิดพลาด rpc: code = DeadlineExceeded desc = กำหนดเวลาหมดอายุก่อนที่การดำเนินการจะเสร็จสมบูรณ์"} "
ฉันพยายามค้นหาข้อผิดพลาดเหล่านั้นบน google แต่ไม่พบอะไรเลย ฉันไม่พบแม้แต่เอกสารสำหรับ gke-metrics-agent
สิ่งที่ฉันพยายาม:
- ตรวจสอบโควต้า
- อัปเดต GKE เป็นเวอร์ชันใหม่กว่า (เวอร์ชันปัจจุบันคือ 1.21.3-gke.2001)
- ปรับปรุงโหนด
- ปิดใช้งานกฎไฟร์วอลล์ทั้งหมด
- ให้สิทธิ์ทั้งหมดแก่โหนด k8s
ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับคลัสเตอร์ kubernetes ของเราได้ แต่ฉันไม่รู้ว่าข้อมูลใดสำคัญต่อการแก้ปัญหานี้