เราได้ตั้งค่าคอมพิวเตอร์ AMD Ryzen ด้วย Ubuntu 21.10 และเสียบ Akitio Duo 6 เครื่องในแต่ละเครื่องด้วยการ์ด NVIDIA 4GB 2x และการ์ดตัวที่ 13 โดยตรงบนสล็อต PCIe ซึ่งเป็นการ์ด NVIDIA 16GB (RTX A4000)
เรามีอุปกรณ์นี้ที่ทำงาน 16x เธรดของ Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) และส่วนใหญ่สามารถทำงานได้โดยไม่มีปัญหาชั่วขณะหนึ่ง
แต่ทุกๆ ครั้ง บางทีทุกๆ 24 ชั่วโมงหรือมากกว่านั้นโดยเฉลี่ย คอมพิวเตอร์จะล็อกโดยสมบูรณ์ ถ้าเรามีเพียง 4x Alphafold2 ที่ทำงานบนการ์ด 16GB คอมพิวเตอร์จะเสถียรเป็นเวลาหลายสัปดาห์ ดังนั้นปัญหาน่าจะอยู่ที่งานบนการ์ด Akitio eGPU
มีที่ใดที่สามารถบอกเราได้ว่าเหตุใดจึงขัดข้อง (คอมพิวเตอร์เปิดอยู่แต่ไม่ตอบสนองอย่างสมบูรณ์ เพียงปุ่มเปิด/ปิดเครื่องเท่านั้นที่ทำการรีบูต)
มองไปที่ /var/log/kern.log
ดูเหมือนจะไม่แสดงสิ่งที่บ่งบอกถึงปัญหา
แก้ไข:
วิ่ง ดีไมโค้ด
เมื่อเสียบเฉพาะการ์ด 16GB บวก Akitio 2 ตัว ให้สิ่งต่อไปนี้:
# dmidecode --type 9 | egrep "การใช้งาน|ประเภท|การกำหนด"
ชื่อ: PCIEX16_1
ประเภท: x16 PCI Express
การใช้งานปัจจุบัน: มี
ชื่อ: PCIEX16_2
ประเภท: x8 PCI Express
การใช้งานปัจจุบัน: ใช้งานอยู่
ชื่อ: PCIEX1_1
ประเภท: x1 PCI Express
การใช้งานปัจจุบัน: มี
ขอบคุณ @matigo สำหรับคำแนะนำให้ดูที่ syslogในความผิดพลาดครั้งล่าสุด มันแสดงบิตเหนือบิต '@^' จากนั้นการรีบูตเครื่องใหม่คือเวลา 10:02 น.