ฉันพยายามติดตั้ง CUDA ในช่วงสองสามวันที่ผ่านมาเพื่อให้พอดีกับ Tensorflow CNN ของฉัน
ตอนนี้ติดตั้งบนเครื่องของฉันแล้ว (Ubuntu 20.04 LTS, RTX3060):
tensorflow-gpu 2.4
หลาม 3.8.10
cuDNN 8.0
คูด้า 11.0
nvidia-driver-495
ไดรเวอร์ได้รับการติดตั้งด้านข้าง CUDA 11.0
เมื่อฉันพอดีกับโมเดล ฉันเห็นว่า GPU ของฉันกำลังจัดสรรหน่วยความจำทั้งหมด แต่รายละเอียดของโมเดลยังคงอยู่ที่: ยุค : 1/50
และจะไม่ไปไกลกว่านี้อีกแล้ว
ฉันพยายามดาวน์เกรดไดรเวอร์เป็น nvidia-driver-470 เนื่องจาก 495 ยังไม่ออกอย่างเป็นทางการ
การกระทำนี้ทำให้ทุกอย่างหยุดทำงาน: GPU ของฉันไม่จัดสรรอีกต่อไปเมื่อเหมาะสม nvidia -smi
ใช้งานไม่ได้อีกต่อไป และตอนนี้การนำเข้า tensorflow จะส่งคืน:
ไม่สามารถโหลดไลบรารีไดนามิก 'libcudart.so.11.0'; ข้อผิดพลาด:
,
ซึ่งก่อนหน้านี้ไม่เป็นเช่นนั้น
ไม่มีใครรู้ว่าปัญหานี้อาจมาจากไหน?
ขอบคุณ
แก้ไข 1:
หลังจากรีบูต การนำเข้า Tensorflow จะส่งคืน:
tensorflow/stream_executor/platform/default/dso_loader.cc:60] ไม่สามารถโหลดไลบรารีแบบไดนามิก 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: ฉัน tensorflow/stream_executor/cuda/cudart_stub.cc:29] ละเว้น cudart dlerror ด้านบน หากคุณไม่ได้ตั้งค่า GPU ในเครื่องของคุณ
ไดเร็กทอรี /usr/lib/cuda/include และ /usr/lib/cuda/lib64 มีอยู่จริง
แก้ไข 2:
หลังจากติดตั้ง cuda ใหม่จากลิงค์นี้ : https://askubuntu.com/a/1288405/231142
การนำเข้า Tensorflow ทำงานและไม่ส่งคืนปัญหาใดๆ
EarlyStop=EarlyStopping(ความอดทน=10,restore_best_weights=จริง)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0.5,min_lr=0.00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='บันทึก')
โทรกลับ = [EarlyStop , Reduce_LR, model_check, tensorbord]
ผลตอบแทน:
2021-11-02 20:09:55.607299: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:131] กำลังเริ่มต้นเซสชัน Profiler
2021-11-02 20:09:55.607335: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:146] เริ่มเซสชัน Profiler แล้ว
2021-11-02 20:09:55.608325: ฉัน tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler พบ 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] ไม่สามารถโหลดไลบรารีไดนามิก 'libcupti.so.11.2'; dlerror: libcupti.so.11.2: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] ไม่สามารถโหลดไลบรารีไดนามิก 'libcupti.so'; dlerror: libcupti.so: ไม่สามารถเปิดไฟล์วัตถุที่ใช้ร่วมกัน: ไม่มีไฟล์หรือไดเร็กทอรีดังกล่าว LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)ล้มเหลวโดยมีข้อผิดพลาด CUPTI ไม่สามารถ โหลดหรือไม่พบสัญลักษณ์
2021-11-02 20:09:55.609476: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:164] รื้อเซสชัน Profiler
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] function cupti_interface_->Finalize()failed with error can't Load CUPTI หรือไม่พบสัญลักษณ์
การปรับโมเดลเริ่มต้นและใช้ GPU และ CPU ของฉันทั้งหมดในขณะที่ยังทำงานช้าและส่งคืน:
2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 428802048 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 571736064 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 428802048 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] การจัดสรร 571736064 เกิน 10% ของหน่วยความจำระบบที่ว่าง
2021-11-02 20:09:57.065544: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] ไม่มีการเปิดใช้งาน MLIR Optimization Passes (ลงทะเบียน 2)
ครั้งที่ 1/20
2021-11-02 20:09:59.868007: ฉัน tensorflow/stream_executor/cuda/cuda_dnn.cc:369] โหลด cuDNN เวอร์ชัน 8204
1/137 [................................] - ETA: 1:15:21 - แพ้: 0.7485 - แม่นยำ: 0.38712021-11-02 20:10:30.404084: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:131] กำลังเริ่มต้นเซสชัน Profiler
2021-11-02 20:10:30.404114: ฉัน tensorflow/core/profiler/lib/profiler_session.cc:146] เริ่มเซสชัน Profiler แล้ว
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] function cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)ล้มเหลวโดยมีข้อผิดพลาด CUPTI ไม่สามารถ โหลดหรือไม่พบสัญลักษณ์
อาจมีปัญหากับ libcupti.so.11.2
ห้องสมุด แต่ฉันไม่พบมันในขณะนี้