ฉันใช้ 2080Ti นี่คือสิ่งที่ฉันทำ:
1: ฉันติดตั้ง xubuntu 20.04 ที่สะอาดตั้งแต่ต้น
2: ฉันสังเกตว่าไดรเวอร์เริ่มต้นคือไดรเวอร์ xorg ดังนั้นฉันจึงติดตั้ง nvidia-driver-470 จาก
ซอฟต์แวร์ & อัปเดต > ไดรเวอร์เพิ่มเติม > ใช้ไดรเวอร์ NVIDIA
metapackage จาก nvidia-driver-470 (กรรมสิทธิ์ ทดสอบแล้ว)
และติดตั้งสำเร็จ ฉันเห็นรูปแบบตารางที่สวยงามจากคำสั่ง nvidia -smi.
3: จากนั้นฉันก็รู้ว่าฉันต้องการ CUDA 11.3 ด้วย ดังนั้นฉันจึงทำตามคำสั่งต่อไปนี้ตามเว็บไซต์อย่างเป็นทางการของ CUDA:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-3-local_11.3.0-465.19.01-1_amd64.deb
sudo apt-key เพิ่ม /var/cuda-repo-ubuntu2004-11-3-local/7fa2af80.pub
sudo apt-get อัปเดต
sudo apt-get -y ติดตั้ง cuda
และจากนั้น ทุกอย่างก็พังทลาย เนื่องจากฉันสูญเสียความละเอียดในการแสดงผลเป็น 800*600 หลังจากรีบูต และ nvidia -smi ก็ไม่แสดงผลตารางที่สวยงามอีกต่อไป ข้อความแสดงข้อผิดพลาดเป็นคำเตือนสองบรรทัด ซึ่งฉันลืมบันทึก
4: ฉันรู้ว่าฉันไม่ได้ล้างลบ nvidia ก่อนติดตั้ง CUDA เนื่องจาก CUDA รวมไดรเวอร์ nvidia ฉันจึงทำดังนี้
sudo apt-get --purge -y ลบ '*nvidia*'
sudo apt-get --purge -y ลบ '*cuda*'
sudo apt-get อัปเดต
sudo apt-get อัปเกรด
sudo apt autoremove -y
หลังจากรีบูต ผลลัพธ์ของ nvidia -smi เป็น:
nvidia: ไม่พบคำสั่ง
5: ดูเหมือนว่าการล้างจะสำเร็จ และจากนั้นฉันก็ทำขั้นตอนที่ 3 อีกครั้ง แต่ไม่ทำงาน
6: จากนั้นฉันก็ล้างขั้นตอนที่ 4 อีกครั้งแล้วลองใช้ ppa แทน dpkg เพื่อติดตั้ง CUDA อีกครั้ง:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
sudo apt-get อัปเดต
sudo apt-get -y ติดตั้ง cuda
ไม่ทำงาน. ไม่ว่า nvidia -smi หรือ nvcc -V. แสดง ไม่พบคำสั่ง.
7: จากนั้นเมื่อฉันรีบูต ฉันเห็นตัวเลือกการโหลดที่ปลอดภัยกลายเป็น อูบุนตู ลินุกซ์ 5.14 -oemมันเคยเป็นแบบทั่วไป ตอนนี้มันเป็นแบบ oem ฉันไม่รู้ว่าการเปลี่ยนแปลงนี้เกิดขึ้นเมื่อใด ฉันรู้ว่าบางทีภาพการโหลด linux อาจเสียหาย ฉันใช้ head 5.10 ทั่วไปที่เก่ากว่าในการโหลด จากนั้น step4-step6 ติดตั้ง CUDA ผลลัพธ์: ไม่ทำงาน
8: จากนั้นฉันก็ล้างข้อมูล (ขั้นตอนที่ 4) อีกครั้ง และอัปเกรด linux จาก 20.04 เป็น 20.10 จากนั้นการล้างข้อมูลก็ติดตั้งสิ่งต่าง ๆ อีกครั้ง และไม่ทำงาน
ฉันหมดหนทางแล้วจริงๆ ดังนั้นคำถามของฉันคือ:
1: ถ้าฉันติดตั้ง xubuntu 20.04 ใหม่และใช้ขั้นตอนที่ 3 เพื่อให้การติดตั้ง CUDA แบบใหม่หมด จะใช้งานได้หรือไม่ ฉันเดาว่าใช่
2: หากฉันติดตั้งระบบใหม่ ฉันควรใช้ ppa(step6) เพื่อติดตั้ง CUDA หรือใช้ dpkg(step3) เพื่อทำเช่นนั้น ซึ่งดีกว่า เมื่อพิจารณาว่าวิธี dpkg สามารถจำกัดเวอร์ชันเป็น 11.3 โดยไม่ต้องกังวลเกี่ยวกับการอัปเดตที่ไม่ต้องการ แต่ฉันได้ยินมาว่าฉันสามารถใช้คำสั่งได้ sudo apt-mark ถือ <ชื่อแพ็คเกจ> เพื่อป้องกันไม่ให้อัปเดตซึ่งฉันไม่เคยลอง
3: ฉันไม่ต้องการติดตั้งระบบใหม่จริงๆ จะให้ CUDA และไดรเวอร์ทำงานตามเงื่อนไขปัจจุบันได้อย่างไร
4: คิดเพิ่มเติม เนื่องจาก CUDA เป็นเพียงสิ่งที่ HPC และเกี่ยวข้องกับการพัฒนาเท่านั้น ฉันควรติดตั้งเฉพาะไดรเวอร์ nvidia บนเครื่องของฉัน และติดตั้ง CUDA ใน docker และปล่อยให้มันทำงานที่นั่นหรือไม่ สามารถทำงานได้โดยไม่ต้องติดตั้ง CUDA ในเครื่องจริงหรือไม่?
5: คิดต่อไป เมนูการโหลดจะกลายเป็น linux 5.14 -oem ได้อย่างไร nvidia ทำอะไรกับเคอร์เนลที่ไม่สามารถย้อนกลับได้?
ขอบคุณมาก!