Score:0

วิธีวินิจฉัยพฤติกรรมผิดปกติของเคอร์เนลที่ไม่ต่อเนื่อง

ธง mg

ดู บันทึกเหตุการณ์ มุ่งหน้าลงไป

ฉันใช้ Ubuntu Server 21.04 ที่ใช้เคอร์เนล 5.11.0-1015-raspi บน aarch64

อะไรคือสิ่งที่มีประสิทธิภาพมากที่สุดในการเตรียมการเพื่อวินิจฉัยสิ่งนี้ในครั้งต่อไป

บางครั้งหลังจากใช้งานหนัก ฉันเริ่มพบปัญหาแปลกๆ เช่น:

  • กระบวนการบางอย่างที่ไม่ควรทำอะไรเลยแสดงการใช้งาน 100% ของคอร์เดียว สูงสุด (สิ่งนี้เกิดขึ้นเมื่อเร็ว ๆ นี้กับสคริปต์ทุบตีที่วนซ้ำ inotifywait ในไฟล์เหตุการณ์ dev)
  • กระบวนการเหล่านี้และกระบวนการอื่นๆ อีกจำนวนหนึ่งไม่ได้จบลงด้วย ฆ่า -9 (ฉันจะถือว่า inotifywait เป็นการยกเลิกทันทียกเว้นสิ่งนี้)
  • ระบบอาจให้บริการทำงานต่อไป แต่ ttys อาจหยุดการประมวลผลอินพุตหรือเอาต์พุต รวมถึงซีเรียล tty
  • สลับ /path/to/swap อาจหยุดทำงานโดยไม่มีกำหนดแม้ว่าจะไม่มีการใช้พื้นที่สว็อปอีกต่อไป
  • ปิด systemctl อาจหยุดทำงานโดยไม่มีกำหนด หรือระบบอาจปิดบางส่วนแล้วหยุดทำงาน
  • ไฟแป้นพิมพ์ usb อาจหยุดตอบสนอง
  • ข้อความแจ้งการเข้าสู่ระบบอาจรอเป็นเวลานานมากหลังจากป้อนผู้ใช้ จากนั้นหยุดทำงานหลังจากแสดงข้อความแจ้งรหัสผ่านเพียงบางส่วน
  • การกดแป้นพิมพ์อาจตกหล่น
  • บางครั้งข้อความเคอร์เนลซ้ำบน tty ที่ระบุถึงงานที่หยุดทำงานเดียวกัน
  • เมื่อไม่ตอบสนองอย่างไม่มีกำหนด ฉันไม่เห็นเคอร์เนลตื่นตระหนกเมื่อเปิด dmesg -- ติดตาม, Journalctl -- ติดตามหรือ tty
  • ไฟแสดงสถานะ Cap Lock มักจะไม่ทำงานบนเครื่องนี้โดยเฉพาะ ไฟ caps lock ไม่ทำงานบน aarch64 olimex teres ของฉันด้วย

ฉันได้อัปเดตระบบเมื่อเร็วๆ นี้ และหวังว่าปัญหาเหล่านี้อาจลดลง แต่ฉันต้องการทราบว่าฉันสามารถทำอะไรได้อีกบ้างที่อาจช่วยในการวินิจฉัยหรือจัดการกับปัญหาเหล่านั้น ฉันพยายามเสียบสายเคเบิลซีเรียลเข้าไปและรู้สึกประหลาดใจมากที่เทอร์มินัลซีเรียลเองสามารถหยุดเอาต์พุตกลางคันได้อย่างไม่มีกำหนด

สิ่งนี้มักจะเกิดขึ้นจากการจัดสรรสวอปที่มากเกินไป หน่วยความจำที่มากเกินไป แต่ปัญหาบางอย่าง เช่น กระบวนการแปลกๆ ที่จะไม่ ฆ่า -9บอกเป็นนัยมากกว่าแค่หน่วยความจำกระตุกกับฉัน และปัญหาจะไม่หายไปเมื่อหน่วยความจำว่าง แม้ว่าฉันจะไม่มีประสบการณ์กับเคอร์เนลลินุกซ์ก็ตาม

ตามหลักการแล้ว ฉันต้องการจำกัดปัญหาให้แคบลงจนเหลือจุดบกพร่องในเคอร์เนล ปัญหาเกี่ยวกับฮาร์ดแวร์ของฉัน หรือระบบที่ถูกบุกรุก

บันทึกเหตุการณ์:

2021-08-09

หลังจาก systemctl แยกกราฟิก และ systemctl แยกผู้ใช้หลายคน systemd-journal กำลังใช้ cpu 99% ทำให้วารสารที่ org.gnome.Shell@x11 ​​หยุดทำงาน สถานะ systemctl บอกว่าไม่มีบริการดังกล่าว ฉันพยายาม วารสารctl | เพสต์บินิต. อินเทอร์เฟซหยุดตอบสนองก่อนที่ฉันจะได้รับ URL ฉันเกรงว่า

ครั้งนี้ดูเหมือนจะไม่ใช่ปัญหาหน่วยความจำเสมือน แต่นี่คือเอาต์พุตหน่วยความจำที่ฉันได้รับก่อนที่มันจะหยุดทำงาน:

ฟรี -h: https://paste.ubuntu.com/p/3c5tSTgGc4 (อันนี้ถ่ายตอนยังไม่แลก ถอดเสร็จแล้ว)

sysctl vm.swappiness: https://paste.ubuntu.com/p/cpvJw4Nd8f

เวลา 10:29 UTC เซสชัน tmux ของฉันค้าง ฉันเปลี่ยนเป็น tty3 และพยายามเข้าสู่ระบบ tty ค้างแสดงรหัสผ่าน เวลา 10:32 UTC พัดลมหมุนสูงประมาณ 1 นาที

ฉันมีระบบออฟไลน์เชื่อมต่อกับเทอร์มินัลอนุกรมโดยเปิด dmesg บรรทัดสุดท้ายเกี่ยวกับ rfkill คัดลอกลงในโทรศัพท์มือถือของฉันด้านล่าง:

[225366.651144] md: การตรวจสอบข้อมูลของอาร์เรย์ RAID md4
[225724.680213] rfkill: เปิดใช้งานตัวจัดการอินพุต
[225745.716506] rfkill: ตัวจัดการอินพุตถูกปิดใช้งาน
[225751.439369] rfkill: เปิดใช้งานตัวจัดการอินพุต

เวลา 10:33 น. tty3 แสดง "การเข้าสู่ระบบหมดเวลาหลังจาก 60 วินาที" โดยไม่เคยแสดงพรอมต์รหัสผ่าน มันแฮงค์โดยไม่แสดงข้อความแจ้งการเข้าสู่ระบบอื่น ฉันส่ง ^C ไปยังซีเรียล tty ประมาณ 10:35 น. และมันก็สะท้อนกลับมาหาฉัน แต่ไม่มีเอาต์พุตแจ้งเทอร์มินัลเพื่อระบุว่า dmesg ถูกขัดจังหวะ 10:36 หรือ 10:37 เอาต์พุตซีเรียล tty/สะท้อนการขึ้นบรรทัดใหม่ ไม่มีอินพุตใหม่ พัดลมหมุนขึ้นอีกครั้ง 10:39 serial tty แสดงพรอมต์ซึ่งประมวลผลคีย์ส่งคืนที่ค้างอยู่และหยุดทำงานอีกครั้ง 10:42 มีซีเรียลพรอมต์ ! 11:00 แต่ฉันยังคงพยายามดำเนินการคำสั่งใด ๆ ในพรอมต์ มันช้าอย่างไม่น่าเชื่อ แต่ไม่สูญเสียการกดแป้นพิมพ์จากบัฟเฟอร์ (ซึ่งบางครั้งก็เกิดขึ้นกับฉัน) 11:01 ระบบตอบสนองใน serial และ tty3 มันฆ่าเพสบินิตเนื่องจากโอม

lshw -C หน่วยความจำ: https://paste.ubuntu.com/p/x5GMkHRktS

heynnema avatar
ru flag
แก้ไขคำถามของคุณและแสดง `free -h` และ `sysctl vm.swappiness` และ `swapon -s` และ `sudo lshw -C memory` เริ่มแสดงความคิดเห็นกับฉันด้วย @heynnema ไม่งั้นฉันจะคิดถึงพวกเขา
fuzzyTew avatar
mg flag
@heynnema ฉันได้รับเพียง 2 คำสั่งที่คุณร้องขอ ฉันพยายามรับข้อมูลเพิ่มเติม แต่ serial tty ใช้เวลามากกว่าหนึ่งนาทีต่ออักขระ และฉันพิมพ์ผิดเยอะมาก บริการ org.gnome.Shell@x11 ​​มีประโยชน์หรือไม่
heynnema avatar
ru flag
ควรทำ `tail /var/log/syslog` เพื่อดูรายการล่าสุดและดูว่ามีบางอย่างซ้ำกันหรือไม่ คุณมีสิทธิ์เข้าถึง Ubuntu Live Desktop DVD/USB หรือไม่ คุณสามารถสร้างบนระบบอื่นได้หรือไม่? บูตเครื่องและดูว่าระบบตอบสนองอย่างไร ฉันสงสัยว่าคุณมีปัญหาเกี่ยวกับฮาร์ดแวร์ แม้กระทั่งกับ RAID ของคุณ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา