เรากำลังตรวจสอบคลัสเตอร์การประมวลผล HPC โดยใช้การผสมผสานระหว่าง Prometheus, Alertmanager และ Grafana ในเครื่องของเรา สิ่งต่างๆ เช่น หน่วยความจำ SWAP ที่เต็มจนเกินขีดจำกัดนั้นเกิดขึ้นบ่อยครั้ง และในขณะที่การดูหน่วยความจำที่สอดคล้องกันนั้นมีประโยชน์ ข้อมูล
-ระดับการแจ้งเตือนในแดชบอร์ด Grafana Alerts เราไม่ควรส่งอีเมลที่เกี่ยวข้อง
มีวิธีปิดเสียง/ปิดใช้งานทั้งหมด เช่น แจ้งเตือนอีเมลที่มีความรุนแรงหรือไม่ ข้อมูล
ใน alertmanager.yml
ไฟล์คอนฟิก?
การแจ้งเตือนทั้งหมดถูกกำหนดคล้ายกับสิ่งนี้ (ปรับจาก https://awesome-prometheus-alerts.grep.to/rules.html):
- การแจ้งเตือน: HostSwapIsFillingUp
expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
สำหรับ: 60ม
ป้ายกำกับ:
ความรุนแรง: ข้อมูล
คำอธิบายประกอบ:
ข้อมูลสรุป: การสลับโฮสต์กำลังจะเต็ม (เช่น {{ $labels.instance }})
คำอธิบาย: "Swap กำลังเต็ม (>95%)\n VALUE = {{ $value }}"
และส่วนที่สอดคล้องกันใน alertmanager.yml
อ่านไฟล์
เส้นทาง:
- จับคู่:
ความรุนแรง: 'คำเตือน'
repeat_interval: 24 ชม
ดำเนินการต่อ: จริง
- จับคู่:
ความรุนแรง: 'ข้อมูล'
repeat_interval: 24 ชม
ดำเนินการต่อ: จริง
ผู้รับ: ลดลง
เครื่องรับ:
- ชื่อ: 'admin-mails'
email_configs:
- ถึง: 'admins@DOMAIN'
- ชื่อ: 'ลดลง'
email_configs:
- ถึง: 'admins@DOMAIN'
มีความเป็นไปได้หรือไม่ที่จะตรวจสอบให้แน่ใจว่า ข้อมูล
การแจ้งเตือนระดับจะไม่ทำให้เกิดอีเมลในขณะที่ยังคงให้ "ไฟไหม้" พร้อมกันดังนั้น Grafana จะแสดงหรือไม่