เราได้ติดตั้งคอมพิวเตอร์ AMD Ryzen กับ Ubuntu 21.10 และเสียบ Akitio Duo 6 เครื่องในแต่ละเครื่องด้วยการ์ด NVIDIA 4GB 2x ผ่านฮับ Thunderbolt 2x รวมถึงการ์ดตัวที่ 13 โดยตรงบนสล็อต PCIe ซึ่งเป็นการ์ด NVIDIA 16GB (RTX A4000 ,รันได้ 4 งานพร้อมกัน)
เรามีอุปกรณ์นี้ที่ทำงาน 12+4 เธรดของ Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) และส่วนใหญ่สามารถทำงานได้โดยไม่มีปัญหาชั่วขณะหนึ่ง
แต่ทุกๆ ครั้ง บางทีทุกๆ 24 ชั่วโมงหรือมากกว่านั้นโดยเฉลี่ย คอมพิวเตอร์จะล็อกโดยสมบูรณ์ ถ้าเรามีเพียง 4x Alphafold2 ที่ทำงานบนการ์ด 16GB คอมพิวเตอร์จะเสถียรเป็นเวลาหลายสัปดาห์ ดังนั้นปัญหาน่าจะอยู่ที่งานบนการ์ด Akitio eGPU
มีที่ใดที่สามารถบอกเราได้ว่าเหตุใดจึงขัดข้อง (คอมพิวเตอร์เปิดอยู่แต่ไม่ตอบสนองอย่างสมบูรณ์ เพียงปุ่มเปิด/ปิดเครื่องเท่านั้นที่ทำการรีบูต)
มองไปที่ /var/log/kern.log
ดูเหมือนจะไม่แสดงสิ่งที่บ่งบอกถึงปัญหา
แง่มุมหนึ่งที่เราได้อ่านมาก็คือ เลน PCIe นั้นรับภาระมากเกินไป และเธรด 16 เส้นเดินทางกันเองเมื่อเชื่อมต่ออุปกรณ์ PCIe จำนวนมาก เนื่องจากเครื่องนี้ไม่ได้ใช้สำหรับอย่างอื่น การปิดใช้งานเลน PCIe 'เสียง' หรือ 'USB 3.1' จะช่วยแก้ปัญหาได้หรือไม่ ถ้าเป็นเช่นนั้นได้อย่างไร?