Score:0

เซิร์ฟเวอร์หยุดการทำงานแบบสุ่มและบูตด้วยโคลด์บูตเท่านั้น

ธง cn

ฉันประสบปัญหาที่แปลกประหลาดอย่างมากเกี่ยวกับเซิร์ฟเวอร์เครื่องหนึ่ง มันสุ่มค้าง/ค้างโดยไม่มีเอาต์พุตบนเซิร์ฟเวอร์ และไม่ตอบสนองต่อปุ่มลัด และจำเป็นต้องบูตด้วยความเย็น เมื่อบูตด้วยโคลด์บูต ไม่มีข้อผิดพลาดบนหน้าจอบูตเลย

มันไม่ได้ค้างเมื่อโหลดหนักแต่อย่างใด โดยมี cpu ประมาณ 9-20% เมื่อเกิดความผิดพลาด โหลดเฉลี่ยประมาณ 2-5 (12 core cpu) และแรม 128GB

เราลองตรวจสอบบันทึก ไม่มีอะไรแสดงเหมือนเคอร์นัลแพนิคหรืออะไรก็ตามที่เกี่ยวข้องกับปัญหา

ในการค้างทั้งหมดหลังจากโคลด์บูต เมื่อเราตรวจสอบบันทึก เราเห็น OOM reaper ปกติฆ่า php procces (ผู้ใช้ถึงขีดจำกัด) แต่ไม่มีอะไรผิดปกติ แต่อยู่ใน OOM เสมอ บางครั้งเมื่อเซิร์ฟเวอร์ค้างในบันทึก คุณจะเห็นเวลาปัจจุบัน และบางครั้งเหมือนที่แสดงหลังจากเวลาปัจจุบันของ Thr ที่เกิดข้อขัดข้องสองสามบรรทัดจากวันที่เก่ากว่า และค้าง

ไม่มีสิ่งใดในบันทึกที่สามารถระบุได้ว่าเกี่ยวข้องกับซอฟต์แวร์ หรือภายใต้ภาระงานหนัก เป็นเพียงการทำงานปกติ นี่คือเครื่องที่อัปเกรดจากเครื่องเก่าที่มีความเสถียรมานานหลายปี.. การค้างเป็นแบบสุ่ม อาจเป็นหลังจากเซิร์ฟเวอร์เปิดหนึ่งสัปดาห์ หรือสองวันหรือสามสัปดาห์ และอื่นๆ...

นอกจากนี้เรายังพยายามแยก vmcore dump ของการหยุดเซิร์ฟเวอร์ แต่ก็ยังไม่มีอะไรจับได้

มันหยุดทำงานโดยไม่มีเอาต์พุตหน้าจอ แต่เซิร์ฟเวอร์ยังคงทำงานอยู่ แต่ไม่สามารถ pringable ไม่สามารถเข้าถึง ssh อะไรเลย รวมถึง kvm อย่างที่ฉันบอกว่าไม่แสดงเอาต์พุตเลยที่หน้าจอ

อาจเกี่ยวข้องกับฮาร์ดแวร์ที่ผิดพลาดหรือไม่? เนื่องจากการระงับของฉันเกี่ยวกับ RAM ผิดพลาด?

หลงประเด็นนี้มาก.. ขอบคุณ

Score:0
ธง cn

เราเพิ่งย้ายไปยังเซิร์ฟเวอร์อื่น แต่หลังจากค้นหาจำนวนมากและพยายามดีบักมาก ดูเหมือนว่าปัญหาฮาร์ดแวร์เกี่ยวกับเมนบอร์ดเมื่อฉันตรวจสอบในบางฟอรัมเกี่ยวกับเมนบอร์ดจากชั้นวาง asrock และซีพียู ryzen ฉันจัดการเพื่อค้นหาบางกรณีเกี่ยวกับปัญหาเดียวกันแม้ว่า windows 10 หรือ windows server จะได้รับหน้าจอสีน้ำเงินแห่งความตาย ตามที่ฝ่ายสนับสนุนระบบปฏิบัติการแนะนำในกรณีนี้ว่าอย่าเปลี่ยนยี่ห้อของมาเธอร์บอร์ด เนื่องจากอาจเสี่ยงที่จะถูกปฏิเสธไม่ให้บูทเครื่อง และโยกย้ายไปยังเซิร์ฟเวอร์ใหม่เหมือนที่เราทำ หลังจากที่เราย้ายไปยังเซิร์ฟเวอร์ใหม่ ปัญหาทั้งหมดก็ได้รับการแก้ไข ดังนั้นฉันเดาว่ามันเกี่ยวข้องกับปัญหาฮาร์ดแวร์ไม่ใช่ซอฟต์แวร์

Score:0
ธง nz
  1. ตรวจสอบให้แน่ใจว่าอุณหภูมิดี CPU/RAM/CHIPSET/DISKS ฉันถือว่าคุณเป็นผู้ใช้ linux เพราะ OOM ติดตั้ง เซ็นเซอร์ lmและตรวจสอบอุณหภูมิกับ เซ็นเซอร์ สั่งการ.
  2. มันคือ RAM ของคุณ เรียกใช้ memtest86 โปรดทราบว่าการทดสอบเต็มรูปแบบบน 128GB อาจใช้เวลาหนึ่งสัปดาห์
cn flag
ใช่ ใช้ Linux คุณคิดว่ามันเกี่ยวข้องกับอุณหภูมิหรือไม่? หรือฮาร์ดแวร์? ฉันคิดว่ารับเซิร์ฟเวอร์ใหม่ย้ายข้อมูลแล้วย้ายไปยังชั้นวางเก่าเพื่อตัดความเป็นไปได้ของฮาร์ดแวร์
Egidijus avatar
nz flag
หากไม่มีสัญญาณที่ชัดเจนในซอฟต์แวร์ แสดงว่าเป็นไปได้มากว่าฮาร์ดแวร์ อุณหภูมิคือฮาร์ดแวร์ (ซอฟต์แวร์ไม่สามารถสัมผัสถึงความอบอุ่นได้)
cn flag
ฉันสงสัยจริง ๆ ว่ามันเกี่ยวข้องกับอุณหภูมิสำหรับเซิร์ฟเวอร์ที่ไม่ได้โหลดหนักเมื่อมันค้าง ฉันไม่คิดว่า cpu สามารถเข้าถึง 95 degrro ด้วยการโหลด cpu ที่ 9% หรือ 20% เพราะมันไปถึงทุกวันและยังไม่มีอะไรเลย

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา