ฉันพยายามมาทั้งวันเพื่อให้ GPU (v100) นี้ทำงานบน Ubuntu VM ใหม่ ฉันลองติดตั้งไดรเวอร์และรีบูตและล้างข้อมูล/ถอนการติดตั้งทุกอย่างที่เกี่ยวข้องกับ nvidia แต่ดูเหมือนว่าสิ่งเหล่านี้จะไม่ทำงาน
โดยเฉพาะอย่างยิ่งฉันทำสิ่งนี้โดยเฉพาะ:
ปรับปรุงฉลาด;
apt ติดตั้ง build-essential;
sudo add-apt-repository ppa: ไดรเวอร์กราฟิก
sudo apt ติดตั้ง ubuntu-drivers-common
อุปกรณ์ไดรเวอร์อูบุนตู
sudo apt-get install nvidia-driver-460
sudo รีบูตทันที
บางครั้งดูเหมือนว่า nvidia-smi ใช้งานได้ (ในขณะที่เขียนคำถามนี้ไม่ใช่ดังนั้นฉันจึงไม่สามารถคัดลอกวางสิ่งที่พูดเมื่อใช้งานได้) แต่เมื่อใช้งานไม่ได้จะมีข้อความดังนี้:
(สังเคราะห์) miranda9@miranda9:~$ nvidia-smi
ไม่สามารถระบุหมายเลขอ้างอิงอุปกรณ์สำหรับ GPU 0000:00:06.0: ข้อผิดพลาดที่ไม่รู้จัก
ความช่วยเหลือใด ๆ ที่ชื่นชม
หมายเหตุ ฉันไม่มีสิทธิ์เข้าถึงไฟล์ VMs vmx ดังนั้นคำถามและคำตอบนี้จึงไร้ประโยชน์/ไร้ความหมายสำหรับฉัน: https://forums.developer.nvidia.com/t/nvidia-smi-reports-unable-to-determine-the-device-handle-for-gpu/46835
นอกจากนี้ ฉันได้พยายามถอนการติดตั้งทุกอย่างจาก nivida และติดตั้งใหม่ด้วย:
sudo apt-get --purge ลบ "* nvidia*"
sudo /usr/bin/nvidia-ถอนการติดตั้ง
แล้ว
ปรับปรุงฉลาด;
apt ติดตั้ง build-essential;
sudo add-apt-repository ppa: ไดรเวอร์กราฟิก
sudo apt ติดตั้ง ubuntu-drivers-common
อุปกรณ์ไดรเวอร์อูบุนตู
sudo apt-get install nvidia-driver-460
sudo รีบูตทันที
แต่นั่นดูเหมือนจะไม่ได้ผล
ข้อมูลเพิ่มเติม เผื่อจะช่วยได้:
(สังเคราะห์) miranda9@miranda9:~$ lsb_release -a
ไม่มีโมดูล LSB
รหัสผู้จัดจำหน่าย: Ubuntu
คำอธิบาย: Ubuntu 20.04.2 LTS
เผยแพร่: 20.04
ชื่อรหัส: โฟกัส
อีกด้วย:
(สังเคราะห์) miranda9@miranda9:~$ python
Python 3.9.5 (ค่าเริ่มต้น 4 มิ.ย. 2021, 12:28:51 น.)
[GCC 7.5.0] :: Anaconda, Inc. บนลินุกซ์
พิมพ์ "help", "copyright", "credits" หรือ "license" เพื่อดูข้อมูลเพิ่มเติม
>>>นำเข้าไฟฉาย
>>> torch.cuda.is_available()
/home/miranda9/miniconda3/envs/synthesis/lib/python3.9/site-packages/torch/cuda/__init__.py:52: UserWarning: การเริ่มต้น CUDA: ข้อผิดพลาดที่ไม่คาดคิดจาก cudaGetDeviceCount() คุณเรียกใช้ฟังก์ชัน cuda ก่อนเรียก NumCudaDevices() ซึ่งอาจตั้งค่าข้อผิดพลาดไว้แล้วหรือไม่ ข้อผิดพลาด 101: ลำดับอุปกรณ์ไม่ถูกต้อง (ทริกเกอร์ภายในที่ /opt/conda/conda-bld/pytorch_1623448238472/work/c10/cuda/CUDAFunctions.cpp:115)
ส่งคืน torch._C._cuda_getDeviceCount() > 0
เท็จ
ตามที่ร้องขอโดยความคิดเห็น:
#lspci
00:00.0 โฮสต์บริดจ์: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 สะพาน ISA: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 อินเทอร์เฟซ IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 คอนโทรลเลอร์ USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 บริดจ์: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 คอนโทรลเลอร์ที่เข้ากันได้กับ VGA: Cirrus Logic GD 5446
00:03.0 ตัวควบคุมหน่วยเก็บข้อมูล SCSI: XenSource, Inc. Xen Platform Device (rev 01)
00:05.0 อุปกรณ์ต่อพ่วงของระบบ: XenSource, Inc. Citrix XenServer PCI Device สำหรับ Windows Update (rev 01)
00:06.0 คอนโทรลเลอร์ 3D: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
vm อื่น:
$lspci
00:00.0 โฮสต์บริดจ์: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 สะพาน ISA: Intel Corporation 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 อินเทอร์เฟซ IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 คอนโทรลเลอร์ USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 บริดจ์: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 คอนโทรลเลอร์ที่เข้ากันได้กับ VGA: Cirrus Logic GD 5446
00:03.0 ตัวควบคุมหน่วยเก็บข้อมูล SCSI: XenSource, Inc. Xen Platform Device (rev 01)
00:05.0 อุปกรณ์ต่อพ่วงของระบบ: XenSource, Inc. Citrix XenServer PCI Device สำหรับ Windows Update (rev 01)
00:06.0 คอนโทรลเลอร์ 3D: NVIDIA Corporation GV100GL [Tesla V100 PCIe 16GB] (rev a1)
แหล่งข้อมูลที่ฉันค้นหาเพื่อขอความช่วยเหลือ: