Score:0

ไม่สามารถรันโมเดล Tensorflow ด้วย CUDA บน Ubuntu 20.04

ธง cn

ฉันพยายามติดตั้ง CUDA ในช่วงสองสามวันที่ผ่านมาเพื่อให้พอดีกับ Tensorflow CNN ของฉัน ตอนนี้ติดตั้งบนเครื่องของฉันแล้ว (Ubuntu 20.04 LTS, RTX3060):

tensorflow-gpu 2.4

หลาม 3.8.10

cuDNN 8.0

คูด้า 11.0

nvidia-driver-495

ไดรเวอร์ได้รับการติดตั้งด้านข้าง CUDA 11.0

เมื่อฉันพอดีกับโมเดล ฉันเห็นว่า GPU ของฉันกำลังจัดสรรหน่วยความจำทั้งหมด แต่รายละเอียดของโมเดลยังคงอยู่ที่: ยุค : 1/50 และจะไม่ไปไกลกว่านี้อีกแล้ว

ฉันพยายามดาวน์เกรดไดรเวอร์เป็น nvidia-driver-470 เนื่องจาก 495 ยังไม่ออกอย่างเป็นทางการ การกระทำนี้ทำให้ทุกอย่างหยุดทำงาน: GPU ของฉันไม่จัดสรรอีกต่อไปเมื่อเหมาะสม nvidia -smi ใช้งานไม่ได้อีกต่อไป และตอนนี้การนำเข้า tensorflow จะส่งคืน:

ไม่สามารถโหลดไลบรารีไดนามิก 'libcudart.so.11.0'; ข้อผิดพลาด: ,

ซึ่งก่อนหน้านี้ไม่เป็นเช่นนั้น

ไม่มีใครรู้ว่าปัญหานี้อาจมาจากไหน?

ขอบคุณ

แก้ไข 1:

หลังจากรีบูต การนำเข้า Tensorflow จะส่งคืน:

tensorflow/stream_executor/platform/default/dso_loader.cc:60] ไม่สามารถโหลดไลบรารีแบบไดนามิก 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: ฉัน tensorflow/stream_executor/cuda/cudart_stub.cc:29] ละเว้น cudart dlerror ด้านบน หากคุณไม่ได้ตั้งค่า GPU ในเครื่องของคุณ

ไดเร็กทอรี /usr/lib/cuda/include และ /usr/lib/cuda/lib64 มีอยู่จริง

แก้ไข 2:

หลังจากติดตั้ง cuda ใหม่จากลิงค์นี้ : https://askubuntu.com/a/1288405/231142

การนำเข้า Tensorflow ทำงานและไม่ส่งคืนปัญหาใดๆ

EarlyStop=EarlyStopping(ความอดทน=10,restore_best_weights=จริง)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0.5,min_lr=0.00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='บันทึก')
โทรกลับ = [EarlyStop , Reduce_LR, model_check, tensorbord]

ผลตอบแทน:

2021-11-02 20:09:55.607299: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:131] กำลังเริ่มต้นเซสชัน Profiler
2021-11-02 20:09:55.607335: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:146] เริ่มเซสชัน Profiler แล้ว
2021-11-02 20:09:55.608325: ฉัน tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler พบ 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] ไม่สามารถโหลดไลบรารีไดนามิก 'libcupti.so.11.2'; dlerror: libcupti.so.11.2: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] ไม่สามารถโหลดไลบรารีไดนามิก 'libcupti.so'; dlerror: libcupti.so: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)ล้มเหลวโดยมีข้อผิดพลาด CUPTI ไม่สามารถ โหลดหรือไม่พบสัญลักษณ์
2021-11-02 20:09:55.609476: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:164] รื้อเซสชัน Profiler
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] function cupti_interface_->Finalize()failed with error can't Load CUPTI หรือไม่พบสัญลักษณ์

การปรับโมเดลเริ่มต้นและใช้ GPU และ CPU ของฉันทั้งหมดในขณะที่ยังทำงานช้าและส่งคืน:

2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 428802048 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 571736064 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 428802048 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 571736064 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:57.065544: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] ไม่มีการเปิดใช้งาน MLIR Optimization Passes (ลงทะเบียน 2)
ครั้งที่ 1/20
2021-11-02 20:09:59.868007: ฉัน tensorflow/stream_executor/cuda/cuda_dnn.cc:369] โหลด cuDNN เวอร์ชัน 8204
  1/137 [................................] - ETA: 1:15:21 - แพ้: 0.7485 - แม่นยำ: 0.38712021-11-02 20:10:30.404084: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:131] กำลังเริ่มต้นเซสชัน Profiler
2021-11-02 20:10:30.404114: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:146] เริ่มเซสชัน Profiler แล้ว
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)ล้มเหลวโดยมีข้อผิดพลาด CUPTI ไม่สามารถ โหลดหรือไม่พบสัญลักษณ์

อาจมีปัญหากับ libcupti.so.11.2 ห้องสมุด แต่ฉันไม่พบมันในขณะนี้

Terrance avatar
id flag
ฉันเกลียดที่จะถามสิ่งนี้ แต่เมื่อคุณ "เลิกใช้งาน" ไดรเวอร์ NVIDIA ของคุณ คุณได้รีบูตระบบเพื่อให้ไดรเวอร์รุ่นเก่ามีผลหรือไม่
Louis avatar
cn flag
ฉันทำเพื่อมาตรการที่ดี การนำเข้า tensorflow ส่งคืน: `2021-11-02 06:01:48.281681: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] ไม่สามารถโหลดไลบรารีไดนามิก 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64: 2021-11-02 06:01:48.281751: ฉัน tensorflow/stream_executor/cuda/cudart_stub.cc:29] ละเว้น cudart dlerror ข้างต้นหากคุณไม่ได้ตั้งค่า GPU ในเครื่องของคุณ
Terrance avatar
id flag
ฉันไม่แน่ใจว่าคุณตั้งค่าระบบสำหรับ CUDA อย่างไร แต่คุณอาจต้องการดูคำตอบของฉัน[ที่นี่](https://askubuntu.com/a/1288405/231142) และดูว่าคุณอาจพลาดขั้นตอนใน การติดตั้ง CUDA สำหรับข้อมูลเพิ่มเติมที่คุณต้องการเพิ่มในไฟล์ `~/.profile` ฉันหวังว่าจะมีการ์ดที่ดีกว่านี้ในระบบโฮมของฉัน เนื่องจากการทดสอบ tensorflow บางรายการฉันไม่สามารถรันได้เนื่องจากการ์ดของฉันเก่ากว่า แต่การทดสอบ CUDA อื่นๆ ก็ผ่าน บางครั้งการเรียกใช้ `sudo ldconfig` สามารถแก้ไขปัญหาไฟล์ไลบรารีได้เช่นกัน
Louis avatar
cn flag
ฉันทำตามคำแนะนำในลิงค์ของคุณ ฉันอัปเดตโพสต์ด้วยสถานะใหม่

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา