ฉันกำลังตรวจสอบเครื่องหลาย GPU และต้องการสร้างกราฟการใช้งาน CPU/GPU แบบรวมที่มี GPU เป็นบวกและ CPU เป็นลบ
ฉันสามารถสร้างกราฟดังกล่าวได้ดีสำหรับ GPU ตัวเดียว 100 - (cpu.idle / #cores)
แต่พบปัญหาเมื่อพยายามใช้ค่าการใช้งาน GPU เฉลี่ยตามที่คำนวณโดยใช้ ผลรวม
และ ซีดีฟ
.
ด้านล่างนี้คือสี่สถานการณ์ที่แสดงให้เห็นปัญหาของเครื่องที่มี GPU สองตัว การกำหนดค่าและเอาต์พุตจะแสดงด้านล่างคำอธิบายสั้นๆ:
- บรรทัดฐาน ฉันสามารถพล็อต CPU และค่า GPU แต่ละตัวได้โดยไม่มีปัญหา
# แสดงค่าแต่ละค่าโดยไม่มีปัญหา
test0.graph_title ทดสอบ 0: ค่าพื้นฐาน
test0.graph_args -- ฐาน 1,000 -l -100 -u 100 -r
test0.graph_vlabel CPU / GPU
ระบบ test0.graph_category
ทดสอบ 0.graph_order \
cpu=multigpu.example.com:cpu.idle \
gpu1=multigpu.example.com:nvidia_gpu_utilization.utilization0 \
gpu2=multigpu.example.com:nvidia_gpu_utilization.utilization1
test0.cpu.cdef 100,cpu,48,/,-
- ฉันยังสามารถสร้างพล็อต GPU-positive-CPU-negative โดยไม่มีปัญหาสำหรับการใช้งาน GPU แต่ละตัวรวมกับ
ซีดีฟ
'd ค่า CPU
# แสดงค่า GPU0 เป็นบวกได้อย่างถูกต้อง ค่า CPU เป็นค่าลบ
test1.graph_title ทดสอบ 1: โดยตรง
test1.graph_args -- ฐาน 1,000 -l -100 -u 100 -r
test1.graph_vlabel CPU / GPU
ระบบ test1.graph_category
test1.graph_order \
cpu=multigpu.example.com:cpu.idle \
gpu1=multigpu.example.com:nvidia_gpu_utilization.utilization0
test1.cpu.cdef 100,cpu,48,/,-
หมายเลข test1.cpu.graph
ซีพียู test1.gpu1.negative
- หากฉันพล็อต CPU และค่าเฉลี่ยของ GPU 2 ตัวในกราฟเดียวกัน ค่า CPU จะไม่ถูกต้องอีกต่อไป แต่ดูเหมือนจะเป็นผลรวมของค่าเฉลี่ย GPU และค่า CPU หรือไม่ ไม่รู้ว่าเกิดอะไรขึ้นที่นี่...
# ค่า CPU แสดงไม่ถูกต้องที่นี่
test2.graph_title ทดสอบ 2: ค่าเฉลี่ย
test2.graph_args -- ฐาน 1,000 -l -100 -u 100 -r
test2.graph_vlabel CPU / GPU
ระบบ test2.graph_category
ทดสอบ 2.graph_order \
cpu=multigpu.example.com:cpu.idle \
จีพียู
test2.cpu.cdef 100,cpu,48,/,-
ค่าเฉลี่ยของ GPU test2.gpu.label
test2.gpu.sum \
multigpu.example.com:nvidia_gpu_utilization.utilization0 \
multigpu.example.com:nvidia_gpu_utilization.utilization1
test2.gpu.cdef GPU,2,/
- หากฉันพยายามรวมเข้าด้วยกันเป็นกราฟบวก/ลบ การแสดงผลจะผิดพลาดด้วย
ไม่ใช่ vname ccpu ที่ถูกต้อง
ใน munin-graph.log (โดยที่ 'cpu' คือชื่อตัวแปรของฉัน)
test3.graph_title ทดสอบ 3: ขึ้น/ลง
test3.graph_args -- ฐาน 1,000 -l -100 -u 100 -r
test3.graph_vlabel CPU / GPU
ระบบ test3.graph_category
ทดสอบ 3.graph_order \
cpu=multigpu.example.com:cpu.idle \
จีพียู
test3.cpu.cdef 100,cpu,48,/,-
test3.gpu.label หมายถึง GPU
test3.gpu.sum \
multigpu.example.com:nvidia_gpu_utilization.utilization0 \
multigpu.example.com:nvidia_gpu_utilization.utilization1
test3.gpu.cdef GPU,2,/
หมายเลข test3.cpu.graph
ซีพียู test3.gpu.negative
munin-graph.log:
2021/06/25 16:21:28 [RRD ERROR] ไม่สามารถสร้างกราฟ test3-day.png : ไม่ใช่ vname ที่ถูกต้อง: ccdefcpu ในบรรทัด GPRINT:ccdefcpu:LAST:%6.2lf%s/\g
25/2021/06 16:21:28 [RRD ERROR] rrdtool 'กราฟ' 'test3-day.png' \
'--ชื่อ' \
'ทดสอบ 3: ขึ้น/ลง - ตามวัน' \
'--เริ่ม' \
'-2000m' \
'--ฐาน' \
'1,000' \
'-l' \
'-100' \
'-ยู' \
'100' \
'-ร' \
'--ป้ายแนวตั้ง' \
'ซีพียู/จีพียู' \
'--โหมดความชัน' \
'--ความสูง' \
'175' \
'--ความกว้าง' \
'400' \
'--imgformat' \
'PNG' \
'--ขี้เกียจ' \
'--ฟอนต์' \
'DEFAULT:0:DejaVuSans,DejaVu Sans,DejaVu LGC Sans,Bitstream Vera Sans' \
'--ฟอนต์' \
'LEGEND:7:DejaVuSansMono,DejaVu Sans Mono,DejaVu LGC Sans Mono,Bitstream Vera Sans Mono,monospace' \
'--สี' \
'ย้อนกลับ#F0F0F0' \
'--สี' \
'เฟรม#F0F0F0' \
'--สี' \
'ผ้าใบ#FFFFFF' \
'--สี' \
'FONT#666666' \
'--สี' \
'แกน#CFD6F8' \
'--สี' \
'ลูกศร#CFD6F8' \
'--ชายแดน' \
'0' \
'-ว' \
'มูนิน 2.0.66' \
'DEF:acpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:MAX' \
'DEF:icpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:MIN' \
'DEF:gcpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:AVERAGE' \
'DEF:az2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:MAX' \
'DEF:iz2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:MIN' \
'DEF:gz2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:AVERAGE' \
'DEF:az2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:MAX' \
'DEF:iz2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:MIN' \
'DEF:gz2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:AVERAGE' \
'CDEF:acdefz2_0=az2_0,UN,0,az2_0,IF' \
'CDEF:icdefz2_0=iz2_0,UN,0,iz2_0,IF' \
'CDEF:gcdefz2_0=gz2_0,UN,0,gz2_0,IF' \
'CDEF:ccdefz2_0=gcdefz2_0' \
'CDEF:acdefz2_1=az2_1,UN,0,az2_1,IF,acdefz2_0,ADDNAN,2,/' \
'CDEF:icdefz2_1=iz2_1,UN,0,iz2_1,IF,icdefz2_0,ADDNAN,2,/' \
'CDEF:gcdefz2_1=gz2_1,UN,0,gz2_1,IF,gcdefz2_0,ADDNAN,2,/' \
'CDEF:ccdefz2_1=gcdefz2_1' \
'ความคิดเห็น:' \
'COMMENT:Cur (-/+)' \
'ความคิดเห็น: นาที (-/+)' \
'ความคิดเห็น: ค่าเฉลี่ย (-/+)' \
'ความคิดเห็น:สูงสุด (-/+) \j' \
'LINE1:gcdefz2_1#00CC00:gpu หมายถึง ' \
'GPRINT:ccdefcpu:LAST:%6.2lf%s/\g' \
'GPRINT:ccdefz2_1:LAST:%6.2lf%s' \
'GPRINT:icdefcpu:MIN:%6.2lf%s/\g' \
'GPRINT:icdefz2_1:MIN:%6.2lf%s' \
'GPRINT:gcdefcpu:AVERAGE:%6.2lf%s/\g' \
'GPRINT:gcdefz2_1:AVERAGE:%6.2lf%s' \
'GPRINT:acdefcpu:MAX:%6.2lf%s/\g' \
'GPRINT:acdefz2_1:MAX:%6.2lf%s\j' \
'CDEF:acdefcpu=100,acpu,48,/,-' \
'CDEF:icdefcpu=100,icpu,48,/,-' \
'CDEF:gcdefcpu=100,gcpu,48,/,-' \
'CDEF:ccdefcpu=gcdefcpu' \
'CDEF:re_zero=gcdefcpu,UN,0,0,IF' \
'CDEF:ngcdefcpu=gcdefcpu,-1,*' \
'LINE1:ngcdefcpu#00CC00' \
'LINE1:re_zero#000000' \
'VRULE:1624630818#999999' \
'COMMENT:Last update\: ศ. 25 มิ.ย. 59\:20\:18 2021\r' \
'--จบ' \
'1624630500'
25/06/2021 16:21:28 [RRD ERROR] ไม่สามารถสร้างกราฟ test3-week.png : ไม่ใช่ vname ที่ถูกต้อง: ccpu ในบรรทัด GPRINT:ccpu:LAST:%6.2lf%s/\g
[... รายละเอียดซ้ำเว้นเพื่อความกระชับ ... ]
25/06/2021 16:21:28 [RRD ERROR] ไม่สามารถสร้างกราฟ test3-month.png : ไม่ใช่ vname ที่ถูกต้อง: ccdefcpu ในบรรทัด GPRINT:ccdefcpu:LAST:%6.2lf%s/\g
[...]