เมื่อเร็ว ๆ นี้เราได้ปรับใช้ฮาร์ดแวร์ใหม่บางส่วน และนับตั้งแต่วันที่ 1 เราประสบปัญหาการรีบูตแบบสุ่มหลายครั้ง ฉันทำงานที่คอนโซลจริง ๆ แล้วและเพิ่งรีบูตโดยไม่มีการเตือนล่วงหน้า
เราได้ลงหลุมกระต่ายมากมายเพื่อพยายามแก้ไขปัญหา แต่จนถึงขณะนี้ก็ยังไม่มีอะไรเกิดขึ้น มันเกิดขึ้นกับอุปกรณ์หลายเครื่องซึ่งทำให้ฉันมักจะคิดว่าไม่ใช่ปัญหาฮาร์ดแวร์ที่มีอุปกรณ์ไม่ดีเพียงเครื่องเดียว
อันดับแรก เราคิดว่าอาจเป็นความร้อน เนื่องจากสิ่งเหล่านี้ถูกนำไปใช้ "ในภาคสนาม" แต่การรีบูตเกิดขึ้นตลอดเวลาทั้งกลางวันและกลางคืน ไม่ใช่แค่เวลาที่ร้อนที่สุดของวันเท่านั้น บางครั้งในตอนกลางคืนที่อุณหภูมิ 50 องศาฟาเรนไฮต์ในตู้ และอุปกรณ์ทำงานที่โหลดต่ำสุด
อย่างไรก็ตาม ดูเหมือนว่าจะเป็นช่วงเวลาที่โหลด CPU หนักที่สุด นี่คือรายการ 'การรีบูตครั้งล่าสุด' ล่าสุด:
รีบูตระบบ บูต 5.4.0-77-ทั่วไป อา. 1 ส.ค. 17:31 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป อา. 1 ส.ค. 15:48 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป อา. 1 ส.ค. 15:32 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ส. 31 ก.ค. 19:02 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ส. 31 ก.ค. 17:56 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ส. 31 ก.ค. 17:30 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ส. 31 ก.ค. 17:17 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-generic ส. 31 ก.ค. 16:52 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-generic Sat Jul 31 16:40 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-generic ศุกร์ 30 ก.ค. 23:13 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ศ. 30 ก.ค. 22:37 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ศ. 30 ก.ค. 22:05 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ศ. 30 ก.ค. 21:42 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-generic ศ. 30 ก.ค. 21:24 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-ทั่วไป ศ. 30 ก.ค. 20:53 ยังคงทำงานอยู่
รีบูตระบบ บูต 5.4.0-77-generic ศ. 30 ก.ค. 20:42 ยังคงทำงานอยู่
dmesg ไม่แสดงอะไรที่เป็นประโยชน์เกี่ยวกับการรีบูต เราได้หาง /var/log/kern.log และ syslog.log ทั้งวัน แต่ไม่มีอะไรเพิ่มก่อนที่จะรีบูต
เมื่อคิดว่ามันอาจเกี่ยวกับความร้อน เราจึงทำ 'เซ็นเซอร์นาฬิกา -n 1' ในช่วงเวลาที่พวกเขามักจะรีบูต และแม้ว่า CPU จะ "อุ่น" แต่ก็ยังต่ำกว่าขีดจำกัดที่สูง และ 20-30 องศา C ต่ำกว่าขีด จำกัด CRITICAL ซึ่งตามที่ฉันเข้าใจคือตำแหน่งที่จะปิด / รีบูต
เราจะลองอะไรต่อไปเพื่อติดตามสาเหตุของการรีบูตเหล่านี้
ขอบคุณ.