Score:1

Slurm srun ไม่สามารถจัดสรรทรัพยากรสำหรับ GPU - ข้อกำหนดทรัพยากรทั่วไปไม่ถูกต้อง

ธง ca

ฉันสามารถเริ่มงานบนเซิร์ฟเวอร์ GPU ได้ด้วยวิธีดั้งเดิม (โดยใช้ CPU และ MEM เป็นวัสดุสิ้นเปลือง):

~ srun -c 1 --mem 1M -w ชื่อโฮสต์ serverGpu1
เซิร์ฟเวอร์Gpu1

แต่การพยายามใช้ GPU จะทำให้เกิดข้อผิดพลาด:

~ srun -c 1 --mem 1M --gres=gpu:1 ชื่อโฮสต์
srun: ข้อผิดพลาด: ไม่สามารถจัดสรรทรัพยากร: ข้อกำหนดทรัพยากรทั่วไป (gres) ไม่ถูกต้อง

ฉันตรวจสอบสิ่งนี้แล้ว คำถาม แต่ในกรณีของฉันมันไม่ได้ช่วยอะไร

Slurm.conf

บนโหนดทั้งหมด

SlurmctldHost=วินซ์
SlurmctldHost=มันเงา
GresTypes=จีพียู
MpiDefault=ไม่มี
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/media/Slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=สลบ
StateSaveLocation=/media/Slurm
SwitchType=สวิตช์/ไม่มี
TaskPlugin=งาน/cgroup

ไม่ใช้งานขีด จำกัด = 0
คิลรอต=30
อายุงานขั้นต่ำ=300
SlurmctldTimeout=120
SlurmdTimeout=300
เวลารอ = 0
DefMemPerCPU=1
SchedulerType=กำหนดการ/การทดแทน
SelectType=เลือก/cons_tres
SelectTypeParameters=CR_CPU_Memory
AccountingStorageType=accounting_storage/ไม่มี
AccountingStoreJobComment=ใช่
ClusterName=คลัสเตอร์
JobCompLoc=/media/Slurm/job_completion.txt
JobCompType=jobcomp/filetxt
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=ข้อมูล
SlurmctldLogFile=/media/Slurm/slurmctld.log
SlurmdDebug=ข้อมูล
SlurmdLogFile=/var/log/slurm-llnl/slurmd.log
MaxArraySize=10001
NodeName=docker1 CPUs=144 บอร์ด=1 RealMemory=300000 Sockets=4 CoresPerSocket=18 ThreadsPerCore=2 Weight=100 State=UNKNOWN
NodeName=serverGpu1 CPUs=96 RealMemory=550000 บอร์ด=1 SocketsPerBoard=2 CoresPerSocket=24 Gres=gpu:nvidia_tesla_t4:4 ThreadsPerCore=2 Weight=500 State=UNKNOWN

PartitionName=Cluster Nodes=docker1,serverGpu1 Default=YES MaxTime=INFINITE State=UP

cgroup.conf

บนโหนดทั้งหมด

CgroupAutomount=ใช่ 
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup" 

ConstrainCores=ใช่ 
ConstrainDevices=ใช่
ConstrainRAMSpace=ใช่

gres.conf

เฉพาะบนเซิร์ฟเวอร์ GPU

ตรวจหาอัตโนมัติ=nvml

สำหรับบันทึกของเซิร์ฟเวอร์ GPU:

[2021-12-06T12:22:52.800] GPU/nvml: _get_system_gpu_list_nvml: ตรวจพบอุปกรณ์ระบบ GPU 4 เครื่อง
[2021-12-06T12:22:52.801] การตั้งค่าความถี่ CPU ไม่ได้กำหนดค่าสำหรับโหนดนี้
[2021-12-06T12:22:52.803] slurmd เวอร์ชัน 20.11.2 เริ่มแล้ว
[2021-12-06T12:22:52.803] ฆ่าเฒ่าสลบ[42176]
[2021-12-06T12:22:52.805] slurmd เริ่มวันจันทร์ที่ 06 ธันวาคม 2021 12:22:52 +0100
[2021-12-06T12:22:52.805] การปิด Slurmd เสร็จสิ้น
[2021-12-06T12:22:52.805] CPUs=96 Boards=1 Sockets=2 Cores=24 Threads=2 Memory=772654 TmpDisk=1798171 Uptime=8097222 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)

ฉันต้องการคำแนะนำเกี่ยวกับวิธีแก้ปัญหานี้ โปรด

การแก้ไข: ตามที่ร้องขอโดย @Gerald Schneider

~ sinfo -N -o "%N %G"
NODELIST GRES
นักเทียบท่า 1 (โมฆะ)
serverGpu1 (โมฆะ)
in flag
คุณช่วยกรุณาเพิ่มผลลัพธ์ของ `sinfo -N -o "%N %G"` ได้ไหม
user324810 avatar
ca flag
@GeraldSchneider เสร็จแล้ว!
in flag
ลองเพิ่ม GPU ไปที่ gres.conf บนโหนดโดยตรง แทนที่จะตั้งค่าเป็น AutoDetect ฉันได้รับคำจำกัดความ GPU ที่ถูกต้องในคอลัมน์ %G พร้อมข้อมูลบนโหนดของฉัน
user324810 avatar
ca flag
ฉันลบ `AutoDetect=nvml` และตั้งค่าใน `gres.conf` บรรทัดต่อไปนี้: `Name=gpu File=/dev/nvidia[0-3]` และใน slurm.conf ฉันเปลี่ยน NodeName ของ GPU โดยแก้ไขเป็น `Gres=gpu` ในบันทึก ฉันได้รับ `[2021-12-06T16:05:47.604] คำเตือน: บรรทัดใน gres.conf สำหรับ GRES gpu มีการกำหนดค่ามากกว่าที่คาดไว้ 3 รายการใน slurm.conf ละเว้น GRES พิเศษ `
in flag
การกำหนดค่าของฉันดูคล้ายกับของคุณมาก ข้อแตกต่างเพียงอย่างเดียวที่ฉันเห็นคือฉันเปิดใช้งาน AccountingStorage และได้ตั้งค่า `AccountingStorageTRES=gres/gpu,gres/gpu:tesla` แต่ฉันไม่คิดว่าจำเป็น ฉันมี `Type=` ตั้งค่าใน gres.conf ด้วย คุณสามารถลองตั้งค่าเป็น `nvidia_tesla_t4` เพื่อให้ตรงกับคำจำกัดความของคุณใน slurm.conf
in flag
ไฟล์ slurm.conf เหมือนกันในโหนดของคุณหรือไม่ ลองตั้งค่า `DebugFlags=gres` และดูว่ามีอะไรที่เป็นประโยชน์ปรากฏขึ้นในบันทึกหรือไม่

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา