Score:0

ปัญหาการใช้งาน CPU สูงและความเสถียรระหว่าง Live Migration

ธง br

ฉันได้ตรวจสอบปัญหาและกำลังดิ้นรนเพื่อให้ได้คำตอบหรือวิธีแก้ไขปัญหาที่ชัดเจน

ในระหว่างการโอนย้าย VM แบบสดระหว่างสองโฮสต์ โฮสต์ที่ได้รับ VM จะเห็นแกน CPU เดียวเพิ่มขึ้นเป็น 100% และประสิทธิภาพและความเสถียรจะได้รับผลกระทบ ตัวอย่างเช่น ตัวจัดการงานจะตอบสนองช้า ค้าง/กระตุก และจะสูญเสียข้อมูลที่จะแสดงบนกราฟตลอดช่วงระยะเวลาของการย้ายข้อมูลแบบสด ความเร็วในการโยกย้ายสดสูงสุดที่ 6-7Gpbs เซิร์ฟเวอร์ที่ส่งเห็นการใช้งานคอร์ CPU เพิ่มขึ้น แต่กระจายเกิน 2-3 คอร์และแต่ละคอร์ไม่เกิน 50%

เราได้เปิดใช้งาน vrss และ vmmq ตั้งค่าจำนวนคิวที่มีอยู่อย่างถูกต้องตามคำแนะนำต่าง ๆ ที่มีอยู่บนอินเทอร์เน็ต ฉันสามารถแชร์การตั้งค่าเหล่านั้นได้หากต้องการ ฉันเข้าใจว่าเมื่อใช้ LBFO คุณไม่สามารถเปิดใช้งาน vmmq (VMMQEnabledRequested = True แต่ VMMQEnabled = False) ดังนั้นฉันจึงตั้งค่าโฮสต์ให้ใช้สวิตช์ SET โดยไม่มีการเปลี่ยนแปลงหรือปรับปรุง

เราใช้ Windows Server 2016 Core edition โดยมีเพียงบทบาท Hyper-V ที่รันอยู่ ยังไม่ได้ติดตั้งเอเจนต์หรือแอปพลิเคชันอื่นใดเลย นี่คือการตั้งค่าแบบวานิลลา เรายังมีสิ่งนี้เกิดขึ้นในคลัสเตอร์ทั้งหมดของเรา (ซึ่งเหมือนกัน)

การตั้งค่า VMQ ถูกตั้งค่าให้หลีกเลี่ยงคอร์ 0 และปกติเราจะเห็นคอร์ 4, 6 หรือ 8 เท่านั้น โดยแตะที่ 100% นั่นคือไม่เคยใช้คอร์ 0 และไม่เคยอยู่ในคอร์ที่สูงถึง 16 (โพรกเดียว) หรือ 32 (โพรกคู่) .

เราใช้ 2 x 10Gbe บนการ์ด dual nic intel (การ์ด PCI เดี่ยว) และอยู่ในทีม SIT LBFO ที่ตั้งค่าเป็น Hyper-V แทนที่จะเป็น Dynamic (แม้ว่าการตั้งค่านั้นจะไม่สร้างความแตกต่างก็ตาม)

เครือข่ายถูกกำหนดโดยใช้ SCVMM และโฮสต์กำลังใช้ SCVMM Virtual Switch สำหรับเครือข่าย Live Migration โดยเฉพาะ

ขณะนี้ เรากำลังใช้ SMB สำหรับ Live Migrations เพราะเราสามารถจำกัดปริมาณงาน SMB ให้ต่ำกว่าขีดจำกัด CPU 100% แต่ปัญหานี้เกิดขึ้นโดยไม่คำนึงถึงการใช้ TCP/IP, การบีบอัด หรือ SMB (แม้ว่าการบีบอัดจะใช้ CPU ในระยะเวลาที่สั้นกว่ามาก) . หมายเหตุ: การควบคุมปริมาณ SMB ถูกปิดใช้งานสำหรับการทดสอบของฉัน

ปัญหาสำคัญที่เราต้องการแก้ไขคือบางครั้งบริการ VMMS หยุดทำงาน/ล็อกระหว่างเหตุการณ์การระบายของโฮสต์ เช่น. หากเราทำ CAU และโฮสต์แต่ละโฮสต์ก็ระบายออก บางครั้งเราประสบความล้มเหลวเนื่องจากโฮสต์ล้มเหลวในการระบาย VM ทั้งหมด ในสถานการณ์นั้น เซิร์ฟเวอร์ที่มีปัญหาเห็นการย้ายข้อมูลแบบสด “ติดขัด” ที่ 3% (ใน FCM) และคุณไม่สามารถย้ายข้อมูลหรือรีสตาร์ท VM ได้ (ปิดและไม่สามารถสำรองข้อมูลได้) และเครื่องมือที่เกี่ยวข้องกับ Hyper-V ส่วนใหญ่ หยุดทำงาน (เช่น get-vm แฮงค์และไม่ตอบสนอง) และวิธีแก้ไขเพียงอย่างเดียวคือฮาร์ดรีเซ็ตโฮสต์ (ปิด/รีสตาร์ทไม่สำเร็จ) เราไม่พบสาเหตุของสิ่งนี้ และอาการเดียวที่เราเห็นคือปัญหาความเสถียรของโฮสต์ตามที่ระบุไว้ข้างต้น

โปรดแจ้งให้เราทราบว่าคุณต้องการข้อมูลใดบ้างเพื่อช่วยให้คำแนะนำเกี่ยวกับปัญหานี้

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา