คุณคำนวณเวลาในการประมวลผล GPU บนคลัสเตอร์ HPC ของคุณอย่างไร
ฉันมีการเติบโตและค่อนข้างต่างกัน (SXM4 A100s, PCIe A100s, NVlinked V100s, PCIe V100s, T4s, การ์ด AMD ที่จะมาถึงเร็ว ๆ นี้ ฯลฯ ... ), พาร์ติชัน GPU บนคลัสเตอร์ HPC (เซิร์ฟเวอร์ Debian ฮาร์ดแวร์ผสมที่ใช้ตัวกำหนดตารางเวลา OAR)
ตามเนื้อผ้า เราคำนวณเวลาในการประมวลผลเป็นวินาทีต่อคอร์ต่องาน แม้ว่า CPU และหน่วยความจำจะแปรปรวนระหว่างโหนดต่างๆ (โหนดไขมัน, โหนดความเร็วสูง, โหนดมาตรฐาน) แต่ความแตกต่างก็น้อยมากจนไม่ส่งผลกระทบต่อการบัญชีอย่างเห็นได้ชัด โดยเฉพาะอย่างยิ่งในมหาวิทยาลัยขนาดเล็ก
สำหรับ GPU สิ่งต่าง ๆ เปลี่ยนไปเล็กน้อยความแตกต่างในด้านประสิทธิภาพและต้นทุนระหว่างโหนด SXM4 A100 และ T4 นั้นค่อนข้างมีนัยสำคัญ และโมเดลปัจจุบันของเราน่าจะไม่ลดขนาดลง ยิ่งไปกว่านั้น เนื่องจากความร่วมมือในมหาวิทยาลัยที่เติบโตขึ้นทำให้เราเป็นเจ้าภาพโครงการภาคเอกชนมากขึ้นเรื่อยๆ ซึ่งเราจะต้องคำนึงถึง ได้อย่างแม่นยำ
ฉันกำลังสำรวจวิธีการทำบัญชีนี้กับโครงสร้างพื้นฐานปัจจุบันของเรา แต่ก็สงสัยว่าคนอื่นดำเนินการคลัสเตอร์ HPC GPU ด้วยวิธีการใด หากคุณมีคำแนะนำเกี่ยวกับวิธีการทำเช่นนี้ หรือกลยุทธ์/เครื่องมือใดที่คุณเคยใช้ เรายินดีรับฟังเสมอ!
ขอบคุณ!