ดู บันทึกเหตุการณ์ มุ่งหน้าลงไป
ฉันใช้ Ubuntu Server 21.04 ที่ใช้เคอร์เนล 5.11.0-1015-raspi บน aarch64
อะไรคือสิ่งที่มีประสิทธิภาพมากที่สุดในการเตรียมการเพื่อวินิจฉัยสิ่งนี้ในครั้งต่อไป
บางครั้งหลังจากใช้งานหนัก ฉันเริ่มพบปัญหาแปลกๆ เช่น:
- กระบวนการบางอย่างที่ไม่ควรทำอะไรเลยแสดงการใช้งาน 100% ของคอร์เดียว
สูงสุด
(สิ่งนี้เกิดขึ้นเมื่อเร็ว ๆ นี้กับสคริปต์ทุบตีที่วนซ้ำ inotifywait ในไฟล์เหตุการณ์ dev)
- กระบวนการเหล่านี้และกระบวนการอื่นๆ อีกจำนวนหนึ่งไม่ได้จบลงด้วย
ฆ่า -9
(ฉันจะถือว่า inotifywait เป็นการยกเลิกทันทียกเว้นสิ่งนี้)
- ระบบอาจให้บริการทำงานต่อไป แต่ ttys อาจหยุดการประมวลผลอินพุตหรือเอาต์พุต รวมถึงซีเรียล tty
สลับ /path/to/swap
อาจหยุดทำงานโดยไม่มีกำหนดแม้ว่าจะไม่มีการใช้พื้นที่สว็อปอีกต่อไป
ปิด systemctl
อาจหยุดทำงานโดยไม่มีกำหนด หรือระบบอาจปิดบางส่วนแล้วหยุดทำงาน
- ไฟแป้นพิมพ์ usb อาจหยุดตอบสนอง
- ข้อความแจ้งการเข้าสู่ระบบอาจรอเป็นเวลานานมากหลังจากป้อนผู้ใช้ จากนั้นหยุดทำงานหลังจากแสดงข้อความแจ้งรหัสผ่านเพียงบางส่วน
- การกดแป้นพิมพ์อาจตกหล่น
- บางครั้งข้อความเคอร์เนลซ้ำบน tty ที่ระบุถึงงานที่หยุดทำงานเดียวกัน
- เมื่อไม่ตอบสนองอย่างไม่มีกำหนด ฉันไม่เห็นเคอร์เนลตื่นตระหนกเมื่อเปิด
dmesg -- ติดตาม
, Journalctl -- ติดตาม
หรือ tty
- ไฟแสดงสถานะ Cap Lock มักจะไม่ทำงานบนเครื่องนี้โดยเฉพาะ ไฟ caps lock ไม่ทำงานบน aarch64 olimex teres ของฉันด้วย
ฉันได้อัปเดตระบบเมื่อเร็วๆ นี้ และหวังว่าปัญหาเหล่านี้อาจลดลง แต่ฉันต้องการทราบว่าฉันสามารถทำอะไรได้อีกบ้างที่อาจช่วยในการวินิจฉัยหรือจัดการกับปัญหาเหล่านั้น ฉันพยายามเสียบสายเคเบิลซีเรียลเข้าไปและรู้สึกประหลาดใจมากที่เทอร์มินัลซีเรียลเองสามารถหยุดเอาต์พุตกลางคันได้อย่างไม่มีกำหนด
สิ่งนี้มักจะเกิดขึ้นจากการจัดสรรสวอปที่มากเกินไป หน่วยความจำที่มากเกินไป แต่ปัญหาบางอย่าง เช่น กระบวนการแปลกๆ ที่จะไม่ ฆ่า -9
บอกเป็นนัยมากกว่าแค่หน่วยความจำกระตุกกับฉัน และปัญหาจะไม่หายไปเมื่อหน่วยความจำว่าง แม้ว่าฉันจะไม่มีประสบการณ์กับเคอร์เนลลินุกซ์ก็ตาม
ตามหลักการแล้ว ฉันต้องการจำกัดปัญหาให้แคบลงจนเหลือจุดบกพร่องในเคอร์เนล ปัญหาเกี่ยวกับฮาร์ดแวร์ของฉัน หรือระบบที่ถูกบุกรุก
บันทึกเหตุการณ์:
2021-08-09
หลังจาก systemctl แยกกราฟิก
และ systemctl แยกผู้ใช้หลายคน
systemd-journal กำลังใช้ cpu 99% ทำให้วารสารที่ org.gnome.Shell@x11 หยุดทำงาน สถานะ systemctl
บอกว่าไม่มีบริการดังกล่าว
ฉันพยายาม วารสารctl | เพสต์บินิต
. อินเทอร์เฟซหยุดตอบสนองก่อนที่ฉันจะได้รับ URL ฉันเกรงว่า
ครั้งนี้ดูเหมือนจะไม่ใช่ปัญหาหน่วยความจำเสมือน แต่นี่คือเอาต์พุตหน่วยความจำที่ฉันได้รับก่อนที่มันจะหยุดทำงาน:
ฟรี -h
: https://paste.ubuntu.com/p/3c5tSTgGc4 (อันนี้ถ่ายตอนยังไม่แลก ถอดเสร็จแล้ว)
sysctl vm.swappiness
: https://paste.ubuntu.com/p/cpvJw4Nd8f
เวลา 10:29 UTC เซสชัน tmux ของฉันค้าง ฉันเปลี่ยนเป็น tty3 และพยายามเข้าสู่ระบบ tty ค้างแสดงรหัสผ่าน
เวลา 10:32 UTC พัดลมหมุนสูงประมาณ 1 นาที
ฉันมีระบบออฟไลน์เชื่อมต่อกับเทอร์มินัลอนุกรมโดยเปิด dmesg บรรทัดสุดท้ายเกี่ยวกับ rfkill คัดลอกลงในโทรศัพท์มือถือของฉันด้านล่าง:
[225366.651144] md: การตรวจสอบข้อมูลของอาร์เรย์ RAID md4
[225724.680213] rfkill: เปิดใช้งานตัวจัดการอินพุต
[225745.716506] rfkill: ตัวจัดการอินพุตถูกปิดใช้งาน
[225751.439369] rfkill: เปิดใช้งานตัวจัดการอินพุต
เวลา 10:33 น. tty3 แสดง "การเข้าสู่ระบบหมดเวลาหลังจาก 60 วินาที" โดยไม่เคยแสดงพรอมต์รหัสผ่าน มันแฮงค์โดยไม่แสดงข้อความแจ้งการเข้าสู่ระบบอื่น
ฉันส่ง ^C ไปยังซีเรียล tty ประมาณ 10:35 น. และมันก็สะท้อนกลับมาหาฉัน แต่ไม่มีเอาต์พุตแจ้งเทอร์มินัลเพื่อระบุว่า dmesg ถูกขัดจังหวะ
10:36 หรือ 10:37 เอาต์พุตซีเรียล tty/สะท้อนการขึ้นบรรทัดใหม่ ไม่มีอินพุตใหม่ พัดลมหมุนขึ้นอีกครั้ง
10:39 serial tty แสดงพรอมต์ซึ่งประมวลผลคีย์ส่งคืนที่ค้างอยู่และหยุดทำงานอีกครั้ง
10:42 มีซีเรียลพรอมต์ !
11:00 แต่ฉันยังคงพยายามดำเนินการคำสั่งใด ๆ ในพรอมต์ มันช้าอย่างไม่น่าเชื่อ แต่ไม่สูญเสียการกดแป้นพิมพ์จากบัฟเฟอร์ (ซึ่งบางครั้งก็เกิดขึ้นกับฉัน)
11:01 ระบบตอบสนองใน serial และ tty3 มันฆ่าเพสบินิตเนื่องจากโอม
lshw -C หน่วยความจำ: https://paste.ubuntu.com/p/x5GMkHRktS