ฉันต้องการติดตั้ง SLURM บน Clear Linux เนื่องจากเกณฑ์มาตรฐานที่ดี ฉันได้ติดตามการสอนที่ https://docs.01.org/clearlinux/latest/tutorials/hpc.html. เมื่อถึงขั้นตอนของส่วน "สร้างไฟล์การกำหนดค่า slurm.conf" ฉันสังเกตเห็นว่าบริการ slurmctld ไม่เริ่มทำงาน ข้อผิดพลาดเกี่ยวข้องกับไฟล์ slurm.conf ซึ่งอยู่ในบันทึก:
11 ก.ค. 19:20:00 slurm-controller slurmctld[615]: ข้อผิดพลาด: ละเว้นตัวเลือก FastSchedule=1 ที่ล้าสมัย โปรดลบออกจากการกำหนดค่าของคุณ
11 ก.ค. 19:20:00 slurm-controller slurmctld[615]: ร้ายแรง: SallocDefaultCommand ถูกลบแล้ว โปรดลองตั้งค่า LaunchParameters=use_interactive_step แทน
ฉันลบไปแล้ว FastSchedule
และ Salloc Default คำสั่ง
บรรทัดจากไฟล์ปรับแต่ง หลังจากนั้นฉันเพิ่มบรรทัดเหล่านี้:
LaunchParameters=use_interactive_step
InteractiveStepOptions="srun -n1 -N1 --pty --preserve-env --mpi=pmix_v3 $SHELL"
หลังจากที่ฉันแก้ไขว่าฉันไม่สามารถดำเนินการต่อได้เนื่องจากมีสัญลักษณ์ที่ไม่ได้กำหนดในวัตถุที่ใช้ร่วมกัน
นี่คือบันทึก:
[2021-07-11T19:35:14.260] slurmctld เวอร์ชัน 20.11.8 เริ่มต้นบนคลัสเตอร์ลินุกซ์
[2021-07-11T19:35:14.261] cred/munge: init: โหลดปลั๊กอินลายเซ็นข้อมูลรับรอง Munge แล้ว
[2021-07-11T19:35:14.262] debug: auth/munge: init: โหลดปลั๊กอินตรวจสอบสิทธิ์ Munge แล้ว
[2021-07-11T19:35:14.262] เลือก/cons_res: common_init: เลือก/cons_res โหลดแล้ว
[2021-07-11T19:35:14.263] เลือก/เชิงเส้น: เริ่มต้น: ปลั๊กอินการเลือกโหนดเชิงเส้นโหลดด้วยอาร์กิวเมนต์ 1
[2021-07-11T19:35:14.263] เลือก/cons_tres: common_init: เลือก/cons_tres โหลดแล้ว
[2021-07-11T19:35:14.263] preempt/none: init: preempt/none โหลดแล้ว
[2021-07-11T19:35:14.264] debug: acct_gather_energy/none: init: AcctGatherEnergy NONE plugin โหลดแล้ว
[2021-07-11T19:35:14.264] debug: acct_gather_Profile/none: init: ไม่ได้โหลดปลั๊กอิน AcctGatherProfile
[2021-07-11T19:35:14.264] debug: acct_gather_interconnect/none: init: AcctGatherInterconnect NONE plugin ที่โหลด
[2021-07-11T19:35:14.264] การแก้ปัญหา: acct_gather_filesystem/none: init: AcctGatherFilesystem ไม่มีปลั๊กอินที่โหลด
[2021-07-11T19:35:14.265] debug2: ไม่มีไฟล์ acct_gather.conf (/etc/slurm/acct_gather.conf)
[2021-07-11T19:35:14.265] debug: jobacct_gather/none: init: โหลดปลั๊กอินการบัญชีงานรวบรวม NOT_INVOKED แล้ว
[2021-07-11T19:35:14.265] ข้อผิดพลาด: plugin_load_from_file: dlopen(/usr/lib64/slurm/prep_script.so): /usr/lib64/slurm/prep_script.so: ไม่ได้กำหนดสัญลักษณ์: run_script
[2021-07-11T19:35:14.265] ข้อผิดพลาด: ไม่สามารถโหลดชื่อปลั๊กอินที่ระบุสำหรับการเตรียมการ/สคริปต์: Dlopen ของไฟล์ปลั๊กอินล้มเหลว
[2021-07-11T19:35:14.266] ข้อผิดพลาด: prep_plugin_init: ไม่สามารถสร้างบริบทการเตรียมการสำหรับการเตรียม/สคริปต์
[2021-07-11T19:35:14.266] ร้ายแรง: ไม่สามารถเริ่มต้นปลั๊กอินการเตรียมการ
เนื่องจากไฟล์ slurm.conf ของบันเดิล (แพ็คเกจ) ของ Clear Linux นั้นล้าสมัย ฉันคิดว่าอาจจะใช้ไฟล์การกำหนดค่าที่ดีกว่า ข้อผิดพลาดจะหายไป สมมติฐานของฉันคือบางทีฉันอาจต้องโหลดปลั๊กอินอื่นที่มีสัญลักษณ์ run_script จากนั้นฉันพยายามสร้างไฟล์การกำหนดค่าที่ดีขึ้นโดยใช้ https://slurm.schedmd.com/configurator.easy.html. แต่ฉันได้รับข้อผิดพลาดเดียวกัน
คุณคิดว่าเป็นข้อบกพร่องของ SLURM หรือมีบางอย่างขาดหายไปในการกำหนดค่าหรือข้อผิดพลาดในการรวบรวมบันเดิล (แพ็คเกจ) ที่ฉันติดตั้ง ฉันสังเกตเห็นว่าในลีนุกซ์รุ่นอื่นๆ มีปัญหาคล้ายกันกับแพ็คเกจที่คอมไพล์ล่วงหน้าของ SLURM อย่างไรก็ตาม มันเกิดขึ้นกับวัตถุที่ใช้ร่วมกันและสัญลักษณ์อื่นๆ
หากปัญหาคือ Clear Linux อะไรคือ Linux ที่ดีที่สุดสำหรับ SLURM
ฉันขอขอบคุณสำหรับความช่วยเหลือใด ๆ ที่คุณอาจให้ฉัน ขอบคุณมากล่วงหน้า
ขอแสดงความนับถืออย่างสูง,
เบราลิโอ เจ. โซลาโน-โรฮาส