Score:1

nvidia-smi หยุดทำงานหลังจากติดตั้ง cuda-toolkit

ธง sa

TLDR

ฉันพยายามที่จะได้รับ nvidia-smi สำรองซึ่งทำงานได้ดีจนกระทั่งฉันติดตั้ง cuda-toolkit การถอนการติดตั้ง cuda-toolkit ไม่ได้ช่วยอะไร ฉันจะกู้คืนได้อย่างไร nvidia-smi เอาท์พุท?

NVIDIA-SMI ล้มเหลวเนื่องจากไม่สามารถสื่อสารกับ NVIDIA ได้ คนขับรถ ตรวจสอบให้แน่ใจว่าได้ติดตั้งไดรเวอร์ NVIDIA ล่าสุดและ วิ่ง.


รายละเอียดเพิ่มเติม

ฉันใช้ GEFORCE RTX 2070 บนแล็ปท็อปที่ใช้ Ubuntu 18.04 และติดตั้งไดรเวอร์จากไฟล์รันอย่างเป็นทางการเรียบร้อยแล้ว NVIDIA-Linux-x86_64-470.63.01.run. นี่คือผลลัพธ์ของ nvidia-smi จากการติดตั้งนั้น:

ป้อนคำอธิบายรูปภาพที่นี่

ต่อไป ฉันติดตั้ง cuda-toolkit จาก runfile อย่างเป็นทางการ cuda_11.4.2_470.57.02_linux.runตรวจสอบให้แน่ใจว่า ยกเลิกการเลือก การติดตั้งไดรเวอร์ นี่คือหน้าต่างเทอร์มินัลหลังจากการติดตั้งเสร็จสิ้น:

ป้อนคำอธิบายรูปภาพที่นี่

หลังจากนั้นเมื่อฉันทำ nvidia-smi, ฉันเข้าใจ:

NVIDIA-SMI ล้มเหลวเนื่องจากไม่สามารถสื่อสารกับ NVIDIA ได้ คนขับรถ ตรวจสอบให้แน่ใจว่าได้ติดตั้งไดรเวอร์ NVIDIA ล่าสุดและ วิ่ง.

เนื่องจากเป็นการติดตั้งของ cuda-toolkit ซึ่งน่าจะ "พัง" nvidia-smiฉันถอนการติดตั้ง cuda-toolkit (โดยเรียกใช้ โปรแกรมถอนการติดตั้ง cuda พบใน /usr/local/cuda-11.4/binตามที่ระบุไว้ในข้อความที่สร้างขึ้นหลังการติดตั้ง)

น่าเสียดายที่ไม่ได้ช่วยอะไรและ nvidia-smi ยังคงเสียหาย เหตุผลที่ฉันติดตั้งจากไฟล์รันทางการของ NVIDIA เป็นเพราะก่อนหน้านี้ฉันมีปัญหาในการติดตั้งไดรเวอร์จากที่เก็บ Ubuntu แต่สามารถทำให้ทำงานกับไดรเวอร์อย่างเป็นทางการได้ ดังนั้นฉันคิดว่าฉันจะลองแบบเดียวกันกับ cuda-toolkit

จะกลับยังไง nvidia-smi?

เอาต์พุตของคำสั่งบางคำสั่ง หากเกี่ยวข้อง

  • ซึ่ง nvidia-smi : /usr/bin/nvidia-smi
  • โมคูทิล --sb-รัฐ : ปิดใช้งาน SecureBoot
  • การตั้งค่า nvidia :
    • ข้อผิดพลาด: ไม่ได้โหลดไดรเวอร์ NVIDIA
    • ข้อผิดพลาด: ไม่สามารถโหลดข้อมูลจากระบบที่มีอยู่
  • ls /sys/เฟิร์มแวร์/efi/ :
    • config_table efivars esrt fw_platform_size fw_vendor runtime runtime-map systab systab
  • lspci -k | grep -EA2 'VGA|3D' :

00:02.0 คอนโทรลเลอร์ที่รองรับ VGA: Intel Corporation CometLake-H GT2 [กราฟิก UHD] (รอบ 05)
ระบบย่อย: Micro-Star International Co., Ltd. [MSI] อุปกรณ์ 12ae
ไดรเวอร์เคอร์เนลที่ใช้งานอยู่: i915

01:00.0 คอนโทรลเลอร์ที่เข้ากันได้กับ VGA: NVIDIA Corporation TU106M [GeForce RTX 2070 Mobile / > Max-Q Refresh] (rev a1)
ระบบย่อย: Micro-Star International Co., Ltd. [MSI] อุปกรณ์ 12ae
โมดูลเคอร์เนล: nvidiafb, nouveau

  • แมว /etc/modprobe.d/blacklist-nouveau.conf :

แบล็คลิสนูโว
บัญชีดำvga16b
บัญชีดำ rivafb
บัญชีดำ nvidiafb
บัญชีดำ rivatv
บัญชีดำ amd76_edac
นามแฝงนูโวปิด
นามแฝง lbm-nouveau ปิด
ตัวเลือก nouveau modeset=0

  • แมว /proc/version :

    • Linux เวอร์ชัน 5.4.0-84-generic (buildd@lcy01-amd64-007) (gcc เวอร์ชัน 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #94~18.04.1-Ubuntu SMP พฤ. 26 ส.ค. 23:17 :46 UTC 2021
  • sudo lshw -c วิดีโอ : (จอแสดงผล NVIDIA นั้น "ไม่มีการอ้างสิทธิ์" แต่ นี่คือวิธีการ มันควรจะเป็น)

ป้อนคำอธิบายรูปภาพที่นี่

  • สถานะ dkms : ไม่มีเอาท์พุต
  • lsmod | grep nvidia :
    • i2c_nvidia_gpu 16384 0
  • สะท้อน $XDG_SESSION_TYPE : x11
  • nvidia อยู่ไหน :
    • nvidia: /usr/lib/x86_64-linux-gnu/nvidia /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-470.63.01/nvidia
  • grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*:

/etc/modprobe.d/blacklist-framebuffer.conf:blacklist nvidiafb
/etc/modprobe.d/blacklist-nouveau.conf:blacklist nvidiafb
/etc/modprobe.d/nvidia-installer-disable-nouveau.conf:# สร้างโดย nvidia-installer
/lib/modprobe.d/nvidia-runtimepm.conf:options nvidia "NVreg_DynamicPowerManagement=0x02"

กระทู้ / คำถามที่ฉันได้ดูแล้ว:

cc flag
ระบบของคุณ /usr/bin/gcc --version ควรเป็น 9.3.0 และหากคุณแก้ไข PATH ของคุณ บางที gcc --version อาจเป็นรุ่นอื่น แต่ไม่ใช่ 7.5 เมื่อแก้ไขเวอร์ชัน gcc สำหรับ CUDA อย่าแก้ไขค่าเริ่มต้นของระบบ (ห้ามใช้ /etc/alternatives สำหรับ gcc!!!!) จัดการ gcc ของ CUDA ผ่าน cuda/bin ที่มีลิงก์ (หรือไฟล์เรียกทำงาน) ไปยังเวอร์ชันที่ต้องการ หมายเลขไดรเวอร์ Nvidia ใน repos มาตรฐานคือ 470.63.01 ดังนั้นฉันจะใช้มันหลังจากล้างแพ็คเกจ Nvidia ที่มีอยู่ทั้งหมดแล้ว
MorganStark47 avatar
sa flag
เอาล่ะ `gcc --version` คือ 7.5 จริงๆในการอัปเกรดเป็น 9 (ซึ่งติดตั้งไว้แล้ว) ฉันใช้ `sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 9` และ `sudo update-alternatives --install /usr/bin /g++ g++ /usr/bin/g++-9 9` ตอนนี้ `/usr/bin/gcc --version` และ `/usr/bin/g++ --version` ส่งคืน 9.4.0 ข้อผิดพลาดกับ nvidia-smi ยังคงอยู่ ไดรเวอร์จำเป็นต้องติดตั้งใหม่หรือไม่? การติดตั้งไดรเวอร์ไม่ใช่กระบวนการที่ง่ายและรวดเร็ว - อย่างน้อยก็สำหรับฉัน - นั่นคือสิ่งที่ฉันจะทำก็ต่อเมื่อต้องทำ
cc flag
ความสับสนของฉัน เคอร์เนลของคุณทำให้ฉันคิดว่า 20.04 ด้วยค่าเริ่มต้น gcc 9.3 ฉันเพิ่มแท็ก HWE และ 18.04 ฉันไม่ได้ใช้ HWE ใดๆ ดังนั้นไม่แน่ใจว่ามันทำงานอย่างไร -- ต้องการเวอร์ชันคอมไพเลอร์เริ่มต้นหนึ่งเวอร์ชันสำหรับเคอร์เนล/โมดูล (9.3) และอีกเวอร์ชันสำหรับส่วนที่เหลือของระบบ (7.5?) ไม่แน่ใจว่า gcc 9.4 ver ของคุณมาจากไหนเว้นแต่จะเป็น HWE สำหรับ 21.04 (แต่ทำไมเคอร์เนลถึงไม่อัปเดต) ฉันคิดว่ามันเป็นไปได้ที่จะใช้ update-alternatives 9.3 สำหรับ gcc, --reconfigure the nvidia-driver-470 package to recompile, then switch back to 7.5 gcc for the rest of the system.
MorganStark47 avatar
sa flag
ขอบคุณที่เพิ่มแท็ก "กำหนดค่า nvidia-driver-470 ใหม่เพื่อคอมไพล์ใหม่" - hm เนื่องจาก `nvidia-settings` ใช้งานไม่ได้ (เอาต์พุตรวมอยู่ในคำถาม) ฉันไม่แน่ใจว่าจะทำอย่างไร
Score:1
ธง sa

ฉันล้างข้อมูล nvidia ทั้งหมดแล้วลอง sudo ไดรเวอร์อูบุนตูติดตั้งอัตโนมัติ ติดตามโดย sudo รีบูต หลังจากนั้น nvidia-smi ทำงานได้ดี

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นฉันเดาว่าวิธีแก้ปัญหาคือการติดตั้งไดรเวอร์ NVIDIA ใหม่

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา