ปิดใช้งานอีเมลสำหรับ Prometheus Alertmanager ตามความรุนแรง

ml4294

2/9/23 08:57

เรากำลังตรวจสอบคลัสเตอร์การประมวลผล HPC โดยใช้การผสมผสานระหว่าง Prometheus, Alertmanager และ Grafana ในเครื่องของเรา สิ่งต่างๆ เช่น หน่วยความจำ SWAP ที่เต็มจนเกินขีดจำกัดนั้นเกิดขึ้นบ่อยครั้ง และในขณะที่การดูหน่วยความจำที่สอดคล้องกันนั้นมีประโยชน์ ข้อมูล-ระดับการแจ้งเตือนในแดชบอร์ด Grafana Alerts เราไม่ควรส่งอีเมลที่เกี่ยวข้อง

มีวิธีปิดเสียง/ปิดใช้งานทั้งหมด เช่น แจ้งเตือนอีเมลที่มีความรุนแรงหรือไม่ ข้อมูล ใน alertmanager.yml ไฟล์คอนฟิก?

การแจ้งเตือนทั้งหมดถูกกำหนดคล้ายกับสิ่งนี้ (ปรับจาก https://awesome-prometheus-alerts.grep.to/rules.html):

  - การแจ้งเตือน: HostSwapIsFillingUp
    expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
    สำหรับ: 60ม
    ป้ายกำกับ:
      ความรุนแรง: ข้อมูล
    คำอธิบายประกอบ:
      ข้อมูลสรุป: การสลับโฮสต์กำลังจะเต็ม (เช่น {{ $labels.instance }})
      คำอธิบาย: "Swap กำลังเต็ม (>95%)\n VALUE = {{ $value }}"

และส่วนที่สอดคล้องกันใน alertmanager.yml อ่านไฟล์

  เส้นทาง:
    - จับคู่:
        ความรุนแรง: 'คำเตือน'
      repeat_interval: 24 ชม
      ดำเนินการต่อ: จริง
    - จับคู่:
        ความรุนแรง: 'ข้อมูล'
      repeat_interval: 24 ชม
      ดำเนินการต่อ: จริง
      ผู้รับ: ลดลง

เครื่องรับ:
  - ชื่อ: 'admin-mails'
    email_configs:
      - ถึง: 'admins@DOMAIN'
  - ชื่อ: 'ลดลง'
    email_configs:
      - ถึง: 'admins@DOMAIN'

มีความเป็นไปได้หรือไม่ที่จะตรวจสอบให้แน่ใจว่า ข้อมูลการแจ้งเตือนระดับจะไม่ทำให้เกิดอีเมลในขณะที่ยังคงให้ "ไฟไหม้" พร้อมกันดังนั้น Grafana จะแสดงหรือไม่

0 + 0

การแจ้งเตือน

โพร

ผู้จัดการการแจ้งเตือน

Score:0

Server

ml4294

12/9/23 12:04

หลังจากการลองผิดลองถูก ดูเหมือนว่าสิ่งต่อไปนี้จะได้ผล:

  เส้นทาง:
    - จับคู่:
        ความรุนแรง: 'คำเตือน'
      repeat_interval: 24 ชม
      ดำเนินการต่อ: จริง
    - จับคู่:
        ความรุนแรง: 'ข้อมูล'
      repeat_interval: 24 ชม
      ดำเนินการต่อ: จริง
      ผู้รับ: ลดลง

เครื่องรับ:
  - ชื่อ: 'admin-mails'
    email_configs:
      - ถึง: 'admins@DOMAIN'
  - ชื่อ: 'ลดลง'

ดังนั้นแนวคิดก็คือให้ผู้รับไม่ได้กำหนดค่า ด้วยเหตุนี้ จะไม่มีการสร้างอีเมลอีกต่อไป แต่การแจ้งเตือนจะยังคงแสดงใน Grafana

ฉันจะออกจากที่นี่ในกรณีที่คนอื่นพบคำถามเดียวกัน

0 + 0

Kulap

คำถามนี้เป็นภาษาอื่นๆ:

EN: Disabling email for Prometheus Alertmanager based on severity

TH: ปิดใช้งานอีเมลสำหรับ Prometheus Alertmanager ตามความรุนแรง

RO: Dezactivarea e-mailului pentru Prometheus Alertmanager în funcție de gravitate

RU: Отключение электронной почты для Prometheus Alertmanager в зависимости от серьезности

VI: Vô hiệu hóa email cho Prometheus Alertmanager dựa trên mức độ nghiêm trọng

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา