Score:1

เอเจนต์เมตริก GKE บันทึกข้อผิดพลาดจำนวนมาก

ธง cn

เราได้สร้างคลัสเตอร์ GKE และเราได้รับข้อผิดพลาดจาก gke-metrics-agent ข้อผิดพลาดปรากฏขึ้นทุกๆ cca 30 นาที ข้อผิดพลาด 62 เหมือนเดิมเสมอ

ข้อผิดพลาดทั้งหมดมีป้ายกำกับ k8s-pod/k8s-app: "gke-metrics-agent".

ข้อผิดพลาดแรกคือ:

ข้อผิดพลาด exporterhelper/queued_retry.go:245 การส่งออกล้มเหลว ลองเปิดใช้งานตัวเลือกการกำหนดค่า retry_on_failure {"kind": "exporter", "name": "googlecloud", "error": "rpc error: code = DeadlineExceeded desc = กำหนดเวลาหมดอายุก่อนที่การดำเนินการจะเสร็จสมบูรณ์"  

ข้อผิดพลาดนี้ตามมาด้วยข้อผิดพลาดเหล่านี้ตามลำดับ

  • "go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send"
  • "/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245"
  • go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).send
  • /go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120

มีข้อผิดพลาด cca 40 เช่นนี้ ข้อผิดพลาดสองข้อที่โดดเด่นคือ:

- ข้อผิดพลาด exporterhelper/queued_retry.go:175 การส่งออกล้มเหลว วางข้อมูลลองเปิดใช้งาน send_queue เพื่อป้องกันความล้มเหลวชั่วคราว {"ชนิด": "ผู้ส่งออก", "ชื่อ": "googlecloud", "dropped_items": 19}"

- เตือน batchprocessor/batch_processor.go:184 ผู้ส่งล้มเหลว {"ชนิด": "ตัวประมวลผล", "ชื่อ": "แบทช์", "ข้อผิดพลาด": "ข้อผิดพลาด rpc: code = DeadlineExceeded desc = กำหนดเวลาหมดอายุก่อนที่การดำเนินการจะเสร็จสมบูรณ์"} "

ฉันพยายามค้นหาข้อผิดพลาดเหล่านั้นบน google แต่ไม่พบอะไรเลย ฉันไม่พบแม้แต่เอกสารสำหรับ gke-metrics-agent

สิ่งที่ฉันพยายาม:

  • ตรวจสอบโควต้า
  • อัปเดต GKE เป็นเวอร์ชันใหม่กว่า (เวอร์ชันปัจจุบันคือ 1.21.3-gke.2001)
  • ปรับปรุงโหนด
  • ปิดใช้งานกฎไฟร์วอลล์ทั้งหมด
  • ให้สิทธิ์ทั้งหมดแก่โหนด k8s

ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับคลัสเตอร์ kubernetes ของเราได้ แต่ฉันไม่รู้ว่าข้อมูลใดสำคัญต่อการแก้ปัญหานี้

Srividya avatar
cn flag
**âเส้นตายเกินแล้วâ** เป็น [ปัญหาที่ทราบ](https://github.com/census-ecosystem/opencensus-go-exporter-stackdriver/releases/tag/v0.13.6) และเริ่มต้นจาก Kubernetes 1.16 ระบบจะส่งเมตริกไปยัง Cloud Monitoring ผ่าน GKE Metrics agent ซึ่งสร้างขึ้นจาก [Open Telemetry](https://opentelemetry.io/) คุณสามารถให้รายละเอียดเกี่ยวกับเวอร์ชันที่คุณใช้สำหรับผู้ส่งออก OpenCensus และตรวจสอบโดยอัปเดตเวอร์ชันของผู้ส่งออก OpenCensus ซึ่งเพิ่มระยะหมดเวลาและแจ้งให้เราทราบว่าใช้งานได้หรือไม่
Melchy avatar
cn flag
ขอบคุณสำหรับการตอบสนอง ดูเหมือนว่าฉันไม่รู้วิธีอัปเดตผู้ส่งออก OpenCensus ฉันพบ gke-metrics-agent pod ใน kubernetes และฉันพยายามเปลี่ยน annotation components.gke.io/component-version: 0.6.0 เป็น 0.13.6 สิ่งนี้รีสตาร์ทพ็อด แต่มีข้อผิดพลาดเกิดขึ้น ฉันพยายามเปลี่ยนการตรวจสอบเป็นเปิด telemetry แต่ฉันไม่รู้ว่าต้องทำอย่างไร เป็นไปได้ไหมที่จะตั้งค่าโดยใช้ Terraform? ฉันพบเฉพาะการตั้งค่า monitor_service ซึ่งตั้งค่าเป็น monitoring.googleapis.com/kubernetes ตามค่าเริ่มต้น
Srividya avatar
cn flag
คุณช่วยตรวจสอบลิงก์นี้สำหรับการอัปเดตผู้ส่งออก [OpenCensus](https://github.com/census-ecosystem/opencensus-go-exporter-stackdriver/releases/tag/v0.13.6) และสำหรับ [OpenTelemetry](https:/ /github.com/GoogleCloudPlatform/opentelemetry-operations-java) บน google cloud?
Maciek Leks avatar
kw flag
มันจบลงอย่างไร? ฉันสังเกตเห็นพฤติกรรมเดียวกันกับ 1.20.10-gke.301
Melchy avatar
cn flag
ฉันยังไม่มีความคิดจะทำอย่างไร ฉันตรวจสอบลิงก์ไปยัง OpenCensus และฉันเห็นว่ามีเวอร์ชันใหม่ แต่ฉันยังไม่รู้วิธีอัปเดต บางทีฉันควรลบผู้ส่งออกเริ่มต้นและสร้างผู้ส่งออกแบบกำหนดเองด้วยเวอร์ชันใหม่
Score:1
ธง cn

âเกินกำหนดเวลาแล้วâ เป็นปัญหาที่ทราบแล้ว เมตริกจะถูกส่งไปยัง Cloud Monitoring ผ่าน GKE Metrics agent ซึ่งสร้างขึ้นจาก Open Telemetry ขณะนี้มีวิธีแก้ปัญหาสองวิธีต่อไปนี้เพื่อแก้ไขปัญหา:

1. กำลังปรับปรุง หมดเวลา.

ตั้งแต่ รุ่นใหม่ รวมการเปลี่ยนแปลงที่เพิ่มการหมดเวลาเริ่มต้นจาก 5 เป็น 12 วินาที ดังนั้นคุณอาจต้องสร้างใหม่และปรับใช้เวิร์กโหลดใหม่ด้วยเวอร์ชันใหม่ที่สามารถแก้ไขข้อผิดพลาด rpc นี้ได้

2.หากต้องการใช้ GKE เวอร์ชันที่สูงขึ้น ปัญหานี้แก้ไขได้ด้วยเวอร์ชัน gke-metrics-agent: 1.18.6-gke.6400+ 1.19.3-gke.600+ 1.20.0-gke.600+

Chandra Kiran Pasumarti avatar
fr flag
@Melchy หากคุณคิดว่าคำตอบข้างต้นช่วยคุณได้ โปรดยอมรับมัน (âï¸)
Score:0
ธง cn

หากคุณยังคงเห็นข้อผิดพลาดเหล่านั้น โปรดดูเมตริกของคุณ เป็นหลัก kubernetes.io/container/... เมตริกสำหรับคอนเทนเนอร์ที่ทำงานบนโหนดเดียวกับ gke-metrics-agent ที่บันทึกข้อผิดพลาด คุณเห็นช่องว่างในเมตริกที่ไม่ควรมีหรือไม่

ข้อผิดพลาดเกินบริบทอาจเกิดขึ้นนานๆ ครั้ง แต่ไม่ควรเกิดขึ้นในปริมาณมาก อาจเป็นปัญหาเกี่ยวกับเครือข่ายหรือเป็นเพียงความผิดพลาดเป็นครั้งคราว คุณมีนโยบายเครือข่าย/กฎไฟร์วอลล์ที่อาจป้องกันไม่ให้ gke-metrics-agent พูดคุยกับ Cloud Monitoring หรือไม่

น่าเสียดายที่คุณไม่สามารถอัปเดต open-telemetry ภายใน gke-metrics-agent ได้ด้วยตัวคุณเอง เวอร์ชันคลัสเตอร์ที่ใหม่กว่าสามารถช่วยได้เช่นกันในขณะที่อัปเดตเอเจนต์ ดังนั้นให้ลองอัปเกรดคลัสเตอร์ของคุณหากเป็นไปได้ หากปัญหาส่งผลกระทบต่อเมตริก โปรดติดต่อฝ่ายสนับสนุน

Melchy avatar
cn flag
สวัสดี ขอบคุณสำหรับการตอบสนอง ฉันไม่เห็นข้อผิดพลาดอีกต่อไป หลังจากอัปเดตคลัสเตอร์ k8s และรอ cca หนึ่งสัปดาห์ ข้อผิดพลาดก็หายไปทันที ฉันมีความคิดว่าทำไมไม่มี.
kwiesmueller avatar
cn flag
จากนั้นคุณอาจได้รับ gke-metrics-agent เวอร์ชันใหม่พร้อมการแก้ไข

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา