Score:0

หน้าจอดำหลังจากติดตั้ง CUDA, UBUNTU 20.04

ธง us

สวัสดี ใครก็ได้ช่วยฉันที ฉันพบหน้าจอสีดำหลังจากติดตั้งไดรเวอร์ nvidia cuda

UBUNTU 20.04, เคอร์เนล 5.8.0-55-generic

NVIDIA-SMI 465.27
เวอร์ชันไดรเวอร์: 465.27
เวอร์ชัน CUDA: 11.3

แรม 20GB, Nvidia mx150 2GB, Intel Core i7-8550U

ฉันยังได้รับข้อความนี้เมื่อพยายามรันโมเดล: "RuntimeError: CUDA หน่วยความจำไม่เพียงพอ พยายามจัดสรร 20.00 MiB (GPU 0; ความจุรวม 1.96 GiB; 2.00 MiB จัดสรรแล้ว; 9.50 MiB ฟรี; 4.00 MiB ที่สงวนไว้ทั้งหมด โดย PyTorch)"

บิตจากไฟล์บันทึก:

[29319.635864] NVRM: รูทีนโพรบของ NVIDIA ล้มเหลวสำหรับอุปกรณ์ 1 เครื่อง

[29319.000029] NVRM: ไม่มีอุปกรณ์ NVIDIA ใดถูกเตรียมใช้งาน

[29319.002993] nvidia-nvlink: ยกเลิกการลงทะเบียน Nvlink Core หมายเลขอุปกรณ์หลัก 234

[29319.635059] nvidia-nvlink: กำลังเตรียมใช้งาน Nvlink Core หมายเลขอุปกรณ์หลัก 234

[29319.635823] NVRM: นี่คือ BAR 64 บิตที่แมปเหนือ 4GB โดยระบบ

[29319.635823] NVRM: BIOS หรือเคอร์เนล Linux แต่สะพาน PCI

[29319.635823] NVRM: อัพสตรีมทันทีของ GPU นี้ไม่ได้กำหนดหน้าจอดำหลังจาก-
install-of-nvidia-driver-ubuntu/109312

[29319.635823] NVRM: หน้าต่างหน่วยความจำที่ดึงข้อมูลล่วงหน้าที่ตรงกันได้
[29319.635824] NVRM: อาจเป็นเพราะข้อบกพร่องของเคอร์เนล Linux ที่ทราบ โปรด

[29319.635824] NVRM: ดูส่วน README บน 64-bit BARs สำหรับข้อมูลเพิ่มเติม

[29319.635824] NVRM: ข้อมูล

************************************************** ********

dmesg |grep -i สะพาน
[ 0.303414] PCI: การใช้หน้าต่างโฮสต์บริดจ์จาก ACPI; หากจำเป็น ให้ใช้ "pci=nocrs" และรายงานจุดบกพร่อง
[ 0.339965] ACPI: PCI Root Bridge [PCI0] (โดเมน 0000 [บัส 00-fe])
[ 0.347519] สะพานโฮสต์ PCI ไปยังบัส 0000:00
[ 0.368977] pci 0000:00:1c.0: สะพาน PCI ไปยัง [บัส 01]
[ 0.368980] pci 0000:00:1c.0: บริดจ์หน้าต่าง [io 0x4000-0x4fff]
[ 0.368984] pci 0000:00:1c.0: หน้าต่างบริดจ์ [mem 0x93000000-0x93ffffff]
[ 0.368989] pci 0000:00:1c.0: หน้าต่างบริดจ์ [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.369455] pci 0000:00:1c.4: สะพาน PCI ไปยัง [บัส 02]
[ 0.369458] pci 0000:00:1c.4: หน้าต่างสะพาน [io 0x3000-0x3fff]
[ 0.369461] pci 0000:00:1c.4: หน้าต่างบริดจ์ [mem 0x94100000-0x941fffff]
[ 0.374209] pci 0000:00:1c.5: สะพาน PCI ไปยัง [บัส 03]
[ 0.374214] pci 0000:00:1c.5: หน้าต่างบริดจ์ [mem 0x94000000-0x940fffff]
[ 0.379452] pci 0000:00:02.0: vgaarb: ควบคุมบริดจ์ได้
[ 0.441100] pci 0000:01:00.0: ไม่สามารถอ้างสิทธิ์ BAR 6 [mem 0xfff80000-0xffffffff pref]: ไม่มีหน้าต่างบริดจ์ที่เข้ากันได้
[ 0.441116] pci 0000:00:1c.0: สะพาน PCI ไปยัง [บัส 01]
[ 0.441119] pci 0000:00:1c.0: หน้าต่างบริดจ์ [io 0x4000-0x4fff]
[ 0.441124] pci 0000:00:1c.0: หน้าต่างบริดจ์ [mem 0x93000000-0x93ffffff]
[ 0.441127] pci 0000:00:1c.0: หน้าต่างบริดจ์ [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.441133] pci 0000:00:1c.4: สะพาน PCI ไปยัง [บัส 02]
[ 0.441135] pci 0000:00:1c.4: หน้าต่างสะพาน [io 0x3000-0x3fff]
[ 0.441139] pci 0000:00:1c.4: หน้าต่างบริดจ์ [mem 0x94100000-0x941fffff]
[ 0.441146] pci 0000:00:1c.5: สะพาน PCI ไปยัง [บัส 03]
[ 0.441150] pci 0000:00:1c.5: หน้าต่างบริดจ์ [mem 0x94000000-0x940fffff]
[ 8.398806] บริดจ์: การกรองผ่าน arp/ip/ip6tables จะไม่สามารถใช้ได้อีกต่อไปตามค่าเริ่มต้น อัปเดตสคริปต์ของคุณเพื่อโหลด br_netfilter หากคุณต้องการสิ่งนี้


****************
dmesg |grep บาร์
[ 0.348927] pci 0000:00:02.0: BAR 2: กำหนดให้กับ efifb
[ 0.441100] pci 0000:01:00.0: ไม่สามารถอ้างสิทธิ์ BAR 6 [mem 0xfff80000-0xffffffff pref]: ไม่มีหน้าต่างบริดจ์ที่เข้ากันได้
[ 0.441113] pci 0000:01:00.0: BAR 6: ไม่มีที่ว่างสำหรับ [mem ขนาด 0x00080000 pref]
[ 0.441114] pci 0000:01:00.0: BAR 6: ไม่สามารถกำหนด [ขนาด mem 0x00080000 pref]

*************

หน่วยความจำ sudo lshw -c

* - หน่วยความจำไม่อ้างสิทธิ์
       คำอธิบาย: ตัวควบคุมหน่วยความจำ
       สินค้า: Sunrise Point-LP PMC
       ผู้จำหน่าย: Intel Corporation
       รหัสทางกายภาพ: 1f.2
       ข้อมูลรถบัส: pci@0000:00:1f.2
       รุ่น: 21
       ความกว้าง: 32 บิต
       นาฬิกา: 33MHz (30.3ns)
       ความสามารถ: bus_master
       การกำหนดค่า: เวลาแฝง = 0
       ทรัพยากร: หน่วยความจำ: 942ac000-942affff
cc flag
คุณสแกน dmesg |grep -i บริดจ์สำหรับข้อความใด ๆ สำหรับการใช้ pci=nocrs เช่น PCI: การใช้หน้าต่างโฮสต์บริดจ์จาก ACPI; หากจำเป็น ให้ใช้ "pci=nocrs" และรายงานข้อผิดพลาด ? คุณอาจพบปัญหาเกี่ยวกับหน่วยความจำการ์ดแสดงผลมากเกินไปและพื้นที่ไม่เพียงพอในหน่วยความจำระบบต่ำกว่า 4GB สำหรับการใช้งาน PCI (ปัญหาของ TOLUD) คุณมีไดรเวอร์ของ Nvidia ก่อนพยายามติดตั้ง CUDA หรือไม่ คุณมีฮาร์ดแวร์อะไรและหน่วยความจำเท่าใด
cc flag
โปรดเพิ่มข้อมูลในโพสต์ต้นฉบับของคุณ เพื่อให้คุณสามารถใช้แท็กรหัสและรับรูปแบบที่เหมาะสมเพื่อให้อ่านง่าย ข้อความ pci เคยกำหนด BAR6 สำเร็จหรือไม่ (เช่น อาจจะเป็น [mem 0xf1080000-0xf10fffff pref] เหมือนที่ระบบของฉันทำ)
TonyKutunio avatar
us flag
ฉันไม่รู้จริง ๆ ว่าหมายความว่าอย่างไร: "ข้อความ pci เคยกำหนด BAR6 สำเร็จหรือไม่ (เช่นอาจจะเป็นที่ [mem 0xf1080000-0xf10fffff pref] เหมือนที่ระบบของฉันทำ)"
cc flag
ความคิดเห็นหนึ่งของคุณล้มเหลว: "...ไม่สามารถอ้างสิทธิ์ BAR 6 [mem 0xfff80000-0xffffffff pref]: ไม่มีหน้าต่างสะพานที่เข้ากันได้" แต่ฉันไม่เห็นข้อความในภายหลังเกี่ยวกับ BAR 6 ในสิ่งที่คุณโพสต์ ลอง dmesg |grep BAR และดูว่าในที่สุด BAR ทั้งหมดจะได้รับมอบหมายหรือไม่
TonyKutunio avatar
us flag
อ๋อ เห็นแล้ว... เอาต์พุต dmesg |grep BAR พูดว่า: BAR 6: ไม่มีที่ว่างสำหรับ [mem size 0x00080000 pref] BAR 6: ล้มเหลวในการกำหนด [mem size 0x00080000 pref]
cc flag
นี่คือวิธีแก้ปัญหาที่เป็นไปได้: https://www.linuxquestions.org/questions/linux-kernel-70/kernel-fails-to-assign-memory-to-pcie-device-4175487043/
TonyKutunio avatar
us flag
ด้วยเหตุผลบางอย่าง มันพูดว่า: bash: /sys/bus/pci/devices/0000:00:01.1/remove: ไม่มีไฟล์หรือไดเรกทอรีดังกล่าว bash: /sys/bus/pci/rescan: ปฏิเสธการอนุญาต
TonyKutunio avatar
us flag
เป็นวิธีดำเนินการคำสั่งนั้น "sudo echo 1 > /sys/bus/pci/devices/0000\:00\:1c.5/remove " หากเอาต์พุต lspci คือ: 00:1c.5 บริดจ์ PCI: Intel Corporation Sunrise Point-LP PCI Express Root Port #6 (rev f1)
cc flag
ใช่ คำสั่งนั้นดูดี เป็นไปได้ไหมว่าโมเดลของคุณมีหน่วยความจำไม่เพียงพอ ฉันตั้งค่าไดรเวอร์ Nvidia ที่ฉันต้องการ (โดยปกติจะเป็นเวอร์ชันล่าสุดจาก repos มาตรฐาน) และติดตั้ง CUDA จากไฟล์ .run โดยข้ามข้อเสนอของไดรเวอร์ Nvidia หลีกเลี่ยงปัญหามากมายเมื่อมีการอัปเดตระบบ/วิดีโอ
TonyKutunio avatar
us flag
ดูเหมือนว่าฉันจะไม่มีปัญหาหน้าจอดำหลังจากคำสั่งด้านบน... แต่ยังคงได้รับข้อผิดพลาดนั้น: RuntimeError: CUDA หน่วยความจำไม่เพียงพอ .. ไม่ทราบว่าโมเดลหน่วยความจำหมดจริงหรือไม่
TonyKutunio avatar
us flag
คิดว่าหน้าจอดำและหน่วยความจำไม่เพียงพอ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา