ฉันยังใหม่กับอุตสาหกรรมไอที ฉันไม่ใช่ผู้ดูแลระบบ...ฉันเป็นคนสร้างถนนโดยการค้า ดังนั้นโปรดแจ้งให้เราทราบหากฉันผสมคำศัพท์ แนวคิด ฯลฯ เข้าด้วยกัน
แผนกไอทีในองค์กรของฉันมีขนาดเล็กมาก ดูเหมือนว่าเราจะแทบไม่ได้เหยียบน้ำเมื่อต้องทำให้ระบบไอทีของเรา "ดีขึ้น"
สิ่งที่ทำให้ระบบล่มมากที่สุดคือ การปรับปรุง Windows Server. ดูเหมือนว่าการอัปเดต Windows จะทำให้เซิร์ฟเวอร์แอปพลิเคชันของเราหยุดทำงานประมาณเดือนละครั้ง
การอัปเดตจะถูกกำหนดให้เกิดขึ้นโดยอัตโนมัติ ทุกเดือนหลังเวลาทำการ
ต่อไปนี้เป็นตัวอย่างของการหยุดทำงานล่าสุด:
แอ็พพลิเคชันเซิร์ฟเวอร์ที่มี WebSphere JVM สำหรับของเรา ระบบจัดการใบสั่งงาน ได้รับการอัปเดตโดยอัตโนมัติในช่วงดึก (ผ่านกำหนดการ 1 เดือน)
วันนี้เมื่อผู้ใช้เริ่มใช้งานระบบจัดการใบสั่งงาน เราได้ ข้อผิดพลาดในการรวมระบบ / Java จำนวนมาก จาก JVM
เมื่อทำการตรวจสอบ เห็นได้ชัดว่าปัญหาเกิดจากการอัปเดต เราไม่เคยมีปัญหานั้นมาก่อน และเกิดขึ้นทันทีหลังจากใช้การอัปเดต
ผู้ดูแลระบบของเรารีสตาร์ทเซิร์ฟเวอร์ ซึ่งดูเหมือนจะแก้ปัญหาได้ทันที เราจัดการกับข้อความการรวมที่ล้มเหลว ฯลฯ และชีวิตก็ดำเนินต่อไป (อย่างน้อยก็จนกว่าจะมีการอัปเดตครั้งต่อไป)
ฉันรู้ว่าองค์กรของฉันไม่ใช่องค์กรเดียวที่ประสบปัญหาเกี่ยวกับการอัปเดต Windows ดูเหมือนจะเป็นปัญหาที่แพร่หลายพอสมควร
แต่คำถามของฉันคือ:
มีเทคนิคในการจัดการการอัปเดตที่องค์กรของฉันอาจมองข้ามไปหรือไม่
ตัวอย่างเช่น ฉันนึกขึ้นได้ว่าเราสามารถ:
- ใช้การอัปเดตด้วยตนเองและรีสตาร์ทเซิร์ฟเวอร์ในเช้าวันเสาร์
- ทดสอบระบบทั้งหมดของเราอย่างละเอียด
- มีเวลาตลอดสุดสัปดาห์เพื่อจัดการกับปัญหาและรีสตาร์ทเซิร์ฟเวอร์ หากเราต้องการ (แทนที่จะดำเนินการในช่วงเวลาทำการ)
มีแนวทางปฏิบัติมาตรฐานใด ๆ เช่นนั้นเพื่อลดความเสี่ยงที่มาพร้อมกับการอัปเดตเซิร์ฟเวอร์ Windows หรือไม่