ฉันมีปัญหากับ Ubuntu 18.08 VM บน Azure
ดูเหมือนว่าปัญหาจะเกิดขึ้นเมื่อฉันคลายซิปไฟล์ขนาดใหญ่ด้วย เปิดเครื่องรูด
.
เซสชัน SSH ของฉันขัดข้องด้วย ส่งการตัดการเชื่อมต่อ: ท่อแตก
และฉันไม่สามารถ SSH บนเครื่องได้อีกต่อไปจนกว่าฉันจะรีสตาร์ทบนคอนโซล Azure
ฉันได้ตรวจสอบพื้นที่ดิสก์แล้วและดูเหมือนว่าจะปกติดี ฉันคิดว่าปัญหาเกิดจากการล็อค CPU ที่ฉันค้นพบในบันทึกการวินิจฉัย:
[9574.275457] rcu: การปิดกั้นโครงสร้าง rcu_node:
[9581.022803] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 23 วินาที! [ตรวจสอบ:22]
[9609.022802] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 23 วินาที! [ตรวจสอบ:22]
[ 9614.067067] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9614.072016] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9614.076728] การตรวจสอบ: งานค้างเกินขีดจำกัด
[9637.022802] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 23 วินาที! [ตรวจสอบ:22]
[9665.022801] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 23 วินาที! [ตรวจสอบ:22]
[ 9674.339074] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9674.344825] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9674.351922] การตรวจสอบ: งานค้างเกินขีดจำกัด
[9693.022802] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 23 วินาที! [ตรวจสอบ:22]
[9721.022802] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 22 วินาที! [ตรวจสอบ:22]
[ 9734.182947] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9734.188086] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9734.194938] การตรวจสอบ: งานค้างเกินขีดจำกัด
[ 9736.682801] rcu: INFO: rcu_sched ตรวจพบแผงลอยบน CPU
[ 9736.684975] rcu: 1-....: (509855 ติ๊ก GP นี้) idle=492/1/0x4000000000000002 softirq=1049753/1049838 fqs=254454
[ 9754.486826] rcu: INFO: rcu_sched ตรวจพบการหยุดชะงักอย่างรวดเร็วบน CPUs/งาน: { 1-... } 511745 jiffies s: 525 root: 0x2/.
[9754.497787] rcu: การปิดกั้นโครงสร้าง rcu_node:
[9761.022802] watchdog: BUG: soft lockup - CPU#1 ติดอยู่เป็นเวลา 22 วินาที! [ตรวจสอบ:22]
นอกจากนี้ฉันได้ลองติดตามดู สูงสุด
ระหว่างคลายซิปและก่อนที่ฉันจะบู๊ต ฉันเห็น ตรวจสอบ
บินขึ้นจาก CPU น้อยกว่า 0% เป็น 70%-100% CPU:
ด้านบน - 12:00:01 ขึ้น 21 นาที ผู้ใช้ 1 คน โหลดเฉลี่ย: 1.34, 1.29, 0.98
ด้านบน - 12:02:53 อัพ 24 นาที ผู้ใช้ 2 คน โหลดเฉลี่ย: 2.80, 1.87, 1.25
งาน: ทั้งหมด 168, 4 วิ่ง, 95 นอน, 0 หยุด, 0 ซอมบี้
%Cpu(s): 31.8 us, 48.8 sy, 0.0 ni, 0.0 id, 19.3 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : รวม 8149152, ฟรี 2436876, ใช้ไปแล้ว 958672, บัฟ/แคช 4753604
KiB Swap: ทั้งหมด 0 ครั้ง ฟรี 0 ครั้ง ใช้ไปแล้ว 0 ครั้ง 6878804 ประโยชน์ Mem
ผู้ใช้ PID PR NI VIRT RES SHR S %CPU %MEM TIME+ คำสั่ง
22 ราก 20 0 0 0 0 R 79.3 0.0 0:02.92 ตรวจสอบ
299 ราก 20 0 1563540 153316 35416 ส 73.4 1.9 1:40.58 ds_am
29619 รูท 20 0 11528 5252 2088 S 3.6 0.1 0:14.03 เปิดเครื่องรูด
466 รูท 19 -1 144180 58788 57688 S 1.3 0.7 0:03.89 systemd-journal
21596 ราก 20 0 0 0 0 I 0.7 0.0 0:00.65 kworker/u4:1-ev
อะไรเป็นสาเหตุที่ทำให้ kernel audit daemon ใช้ CPU มากในทันที? ไม่ใช่การเพิ่มขึ้นทีละน้อย แต่เพิ่มขึ้นอย่างรวดเร็วถึง 100% จากนั้น VM หยุดทำงาน
ใครเคยเจอแบบนี้บ้าง?