Score:0

20.04.2 locks up completely when writing to RAID 6 array

ธง ar

I can reproduce the problem consistently (and in minutes quickly) but I can't find any messages in the logs that are helpful. This problem occurred with a RocketRaid 3740C HBA and the proprietary nvidia driver but now occurs with an LSI/Broadcom 9305-16i HBA and nouveau drivers. I have flashed the Broadcom card to the latest firmware and bios. The Host Bus Adapter is connected to 9 drives (of 10, RAID 6 is degraded until the replacement disk arrives). The network card is a Mellanox ConnectX3 running a 10G ethernet on fibre. Before I exchange the RocketRaid card I remember seeing the proprietary driver write to the kernel log talk about getting 20 something when expecting 18 before the crash. I can't seem to find those messages anymore though (pointers on how to find them appreciated!).

Steps to Reproduce:

Write a lot of things to disk (write speeds are > 700MB/s). For example open 3 scp sessions from another computer and write 3 files in parallel at ~250MB/s each. In less than five minutes Ubuntu screen is frozen / locked up and ssh is non-responsive. Hard reset appears to be the only option. After which mdadm thinks the array is dirty (even though the Event count is the same on all drives). mdadm assemble --force works but then the array spends a day re-syncing.

I'm about at my wits end with this. I'm considering seeing what will happen with TrueNAS or Alma Linux. I'm somewhat wondering about the motherboard too (ASRock Tachi X570). The system seems to be fine under any load that does not involve extensive writes to the array including cpu (5700x) and intense network traffic (I can repeatedly send/receive 10s of Gigabytes of network traffic and get ~70 Gbit/s bandwidth).

Edit per comment from @heynnema

$ sudo free -h
              total        used        free      shared  buff/cache   available
Mem:           62Gi        12Gi       442Mi       372Mi        50Gi        49Gi
Swap:         975Mi        44Mi       931Mi
sudo sysctl vm.swappiness 
vm.swappiness = 60
phil@omni:~$ sudo dmidecode -s bios-version
P4.30
Tasks: 428 total,   2 running, 426 sleeping,   0 stopped,   0 zombie
%Cpu(s): 34.8 us,  2.0 sy,  0.0 ni, 61.1 id,  0.0 wa,  0.0 hi,  2.0 si,  0.0 st
MiB Mem :  64242.9 total,   1192.4 free,  14388.3 used,  48662.3 buff/cache
MiB Swap:    976.0 total,    915.5 free,     60.5 used.  48780.6 avail Mem 

    PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                                                  
  15919 fooo      20   0 4083880   3.6g  12520 S 312.5   5.7  77:36.68 chia                                                                                                                                                                     
  15560 fooo      20   0 4083904   3.6g  12544 S  93.8   5.7  77:43.99 chia                                                                                                                                                                     
   4764 root      20   0       0      0      0 S  18.8   0.0  93:17.25 md0_raid6                                                                                                                                                                
   1375 unifi     20   0 4028748 180588  21888 S   6.2   0.3   0:04.47 launcher                                                                                                                                                                 
   2154 unifi     20   0 1078716 132904  39776 S   6.2   0.2   0:25.11 mongod                                                                                                                                                                   
   4776 root      20   0       0      0      0 R   6.2   0.0  18:39.73 md0_resync                                                                                                                                                               
  15419 root      20   0       0      0      0 I   6.2   0.0   0:01.07 kworker/0:1-events                                                                                                                                                       
      1 root      20   0  168296  11728   7896 S   0.0   0.0   0:01.02 systemd                                                                                                                                                                  
      2 root      20   0       0      0      0 S   0.0   0.0   0:00.01 kthreadd                                                                                                                                                                 
      3 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_gp                                                                                                                                                                   
      4 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 rcu_par_gp                                                                                                                                                               
      6 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 kworker/0:0H-kblockd                                                                                                                                                     
      9 root       0 -20       0      0      0 I   0.0   0.0   0:00.00 mm_percpu_wq                                                                                                                                                             
     10 root      20   0       0      0      0 S   0.0   0.0   0:06.43 ksoftirqd/0                                                                                                                                                              
     11 root      20   0       0      0      0 I   0.0   0.0   0:04.24 rcu_sched                                                                                                                                                                
     12 root      rt   0       0      0      0 S   0.0   0.0   0:00.02 migration/0                                                                                                                                                              
     13 root     -51   0       0      0      0 S   0.0   0.0   0:00.00 idle_inject/0 
cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
/dev/mapper/vgubuntu-root /               ext4    errors=remount-ro 0       1
# /boot/efi was on /dev/nvme0n1p1 during installation
UUID=3C3E-4180  /boot/efi       vfat    umask=0077      0       1
/dev/mapper/vgubuntu-swap_1 none            swap    sw              0       0
#192.168.1.192:/storage     /storage  nfs  defaults 0 0 
UUID=ddc550d2-7f93-4ecf-ac2e-d754c5eee6c9 /storage xfs defaults 0 0 
UUID=BCB65C49B65C05F4 /var/ExChia1 ntfs defaults 0 0
UUID=3A10-3FE7 /var/ExChia4 exfat defaults 0 0
UUID=0EF0-7586 /var/ExChia5 exfat defaults 0 0 
UUID=3837-E26A /var/ExChia6 exfat defaults 0 0
UUID=73338b75-d356-4e7f-9757-948f1078f04e /var/ExChia13 xfs defaults 0 0
heynnema avatar
ru flag
แก้ไขคำถามของคุณและแสดง `free -h` และ `sysctl vm.swappiness` และ `sudo dmidecode -s bios-version` และ `top` เริ่มแสดงความคิดเห็นกับฉันด้วย @heynnema ไม่งั้นฉันจะคิดถึงพวกเขา
liels avatar
ar flag
@heynnema แก้ไขตามคำขอ
heynnema avatar
ru flag
ขอบคุณสำหรับข้อมูล. แสดง `cat /etc/fstab` ให้ฉันดู คุณเคยเรียกใช้ `memtest` ในการกำหนดค่านี้หรือไม่ ดิสก์สำหรับบูต/ระบบของคุณคืออะไร
liels avatar
ar flag
@heynnema fstab อยู่ด้านบน ดิสก์สำหรับบูต/ระบบคือ 1TB NVMe firecuda 510 กำลังเรียกใช้ memtest ในขณะนี้ ความคิดที่ดี (เมื่อนานมาแล้วฉันเคยเขียนงานสร้างใหม่ด้วยชุดตรวจหาข้อผิดพลาดของฮาร์ดแวร์ที่สั่นคลอนซึ่ง VAlinux เขียนขึ้นสำหรับระบบของพวกเขา ฮาร์ดแวร์ตัวใดตัวหนึ่งดีกว่าหรือฉันขี้เกียจกว่าหรือทั้งสองอย่าง)
heynnema avatar
ru flag
คุณมีพื้นที่กระดิกเพื่อเพิ่ม /dev/mapper/vgubuntu-swap_1 swap พาร์ติชันหรือเปลี่ยนเป็น /swapfile หรือไม่
liels avatar
ar flag
@heynnema ใช่ฉันสามารถเพิ่มขนาดไฟล์ swap ได้ไม่น้อย หากไม่มีการจัดเรียงฮาร์ดแวร์ใหม่ ฉันอาจทำได้ 300 หรือ 400G หรือ 2xRAM หรือ 128G ที่แนะนำในกรณีนี้ คุณแนะนำเมนูใด หากความอดอยากของ RAM เป็นสาเหตุของการล็อก ฉันยินดีที่จะซื้อ DIMM อีกคู่และใช้ 128G อย่างเต็มที่ FWIW memtester กำลังประมวลผล 30G ของหน่วยความจำที่ใช้แล้วหมดไป และจนถึงขณะนี้ทุกอย่างปกติดี
heynnema avatar
ru flag
สลับบัมเปอร์เป็น 4G คุณไม่มีไฟล์สลับ คุณมีพาร์ติชันสลับ คุณจะต้องใช้คำสั่ง LVM เพื่อทำงาน นอกจากนี้ คุณรู้วิธีตั้งค่า vm.swappiness=10 หรือไม่
liels avatar
ar flag
@heynnema. ตกลง ฉันคิดว่าฉันเข้าใจสมมติฐานของคุณสำหรับสิ่งที่อาจผิดพลาด ความรวดเร็วคือ 10 และ vfs_cache_pressure คือ 100 (ซึ่งน่าจะเป็นสิ่งที่เราต้องการ) lvresize เป็นคนขี้ขลาดที่ไม่ยอมให้ฉันไปยุ่งกับระบบไฟล์รูทที่ติดตั้ง ฉันจะทำงานจากการบู๊ต usb ในวันพรุ่งนี้หลังจากซิงค์ใหม่เสร็จ ให้รัน Memtest86+ แล้วทดสอบการเขียน RAID อีกครั้ง
heynnema avatar
ru flag
ในระบบที่ใช้งานอยู่ คุณสามารถปิดใช้งาน swap ด้วยคำสั่ง `swapoff -a` จากนั้นใช้ `lvresize` เพื่อขยาย /dev/mapper/vgubuntu-swap_1 เป็น 4G จากนั้นจึง `swapon -a`
liels avatar
ar flag
@heynnema. มันไม่ได้แก้ปัญหาอย่างน่าเสียดาย ด้วยความรวดเร็วที่ 10 และ 4GB ของพื้นที่สว็อป ฉันสามารถทำหนึ่ง scp ที่ 250MB/s ได้สำเร็จ (โอนประมาณ 100GB) ไม่ได้ใช้การแลกเปลี่ยน ฉันทำ 2 สำเร็จ (~ 500MB / s) และการแลกเปลี่ยนได้มากถึง 512 ไบต์หรือมากกว่านั้น ฉันกำลังจะลอง 3 สตรีม คิดว่าบางทีคุณอาจจะแก้ไขมันได้ เครื่องหยุดการประมวลผล 2 สตรีมเมื่อฉันกำลังจะเริ่มต้นสตรีมที่สาม Swap ประมาณ 1536 ไบต์ ณ จุดนั้น อาร์เรย์กำลังซิงค์ใหม่อีกครั้ง >.<.ฉันจะย้ายกระบวนการบางอย่างออกจากเครื่องนั้นและรัน memtest86 ดูว่าเกิดอะไรขึ้น>
heynnema avatar
ru flag
เราไม่ได้เรียกใช้ `memtest` ก่อนหน้านี้ในกระบวนการนี้หรือ แสดง `swapon -s` ให้ฉันดู คุณสามารถปล่อย vm.swappiness ไว้ที่ 10 ตั้งค่า vfs_cache_pressure กลับเป็นค่าเริ่มต้น
liels avatar
ar flag
@heynnema ใช่ ฉันรัน memtester สำหรับหน่วยความจำที่ยังว่างอยู่ในขณะนั้น ($sudo memtester 30G 3) ซึ่งผ่าน แต่ไม่ผ่าน memtest86+ ใน 64Gb ทั้งหมด ฉันจำเป็นต้องย้ายกระบวนการบางอย่างไปยังระบบอื่นก่อนที่จะทำให้ "กระบวนการนี้" ออฟไลน์เป็นระยะเวลานาน ในระหว่างนี้ฉันใช้ memtester 50G 10)
heynnema avatar
ru flag
`memtest` ควรทำงานแบบออฟไลน์เมื่อบูตไปที่ `memtest` flash USB 'เมมเทสเตอร์' คืออะไร? แสดง `swapon -s` ให้ฉันด้วย ไปที่ https://www.memtest86.com/ และดาวน์โหลด/รัน `memtest' ฟรีเพื่อทดสอบความจำของคุณ ผ่านการทดสอบ 4/4 ทั้งหมดอย่างน้อยหนึ่งครั้งเพื่อยืนยันความจำที่ดี การดำเนินการนี้อาจใช้เวลาหลายชั่วโมงจึงจะเสร็จสมบูรณ์
liels avatar
ar flag
@heynnema. ใช่ ฉันเข้าใจว่าต้องทำ memtest86+ ตั้งแต่บูตเครื่อง ฉันเชื่อว่ามันรวมอยู่ในอิมเมจ 20.04.2 โดยค่าเริ่มต้น ดังนั้นนั่นคือแผนของฉันเมื่อฉันสามารถทำให้ระบบออฟไลน์ได้ ```` sudo swapon -s ชื่อไฟล์ ประเภท ขนาด ลำดับความสำคัญที่ใช้ /dev/dm-1 พาร์ติชั่น 4194300 2665216 -2 ````
liels avatar
ar flag
@heynnema, memtest86+ 4 รอบ/0-ข้อผิดพลาด ซิงค์ใหม่แล้ว xfs_repair. เปลี่ยนจากพอร์ต hba เป็น mobo SATA (+2 พอร์ตบนการ์ด Syba / JM535) ไดรฟ์ทั้งหมดผ่าน smartctl -t เขียนและอ่าน 136 GB /dev/zero และไปยัง /dev/null พร้อมซิงค์ ล็อควินาทีหลังจากเขียนที่ประมาณ 185MB/s ในหนึ่ง scp จุดข้อมูลอื่น: เครื่องอื่นที่มี 20.04.2 ทำสิ่งเดียวกันในการเขียน RAID-0 ด้วยไดรฟ์ nvme สองตัวที่เสถียรก่อนและหลังทำการโจมตีไดรฟ์ nvme ฉันเริ่มสงสัยอย่างมากว่ามีบางอย่างผิดปกติกับรหัสการโจมตีและ/หรือการโต้ตอบกับ xfs อาจลอง Rocky หรือ Alma ต่อไป
heynnema avatar
ru flag
คุณสามารถบูตเป็น Ubuntu Live 21.04 และทดสอบการเขียนลงดิสก์อีกครั้งได้หรือไม่
liels avatar
ar flag
@heynnema ดูเหมือนว่าจะทำงานได้ดีภายใต้ 21.04 สด ฉันส่งประมาณเทราไบต์ไปยังอาร์เรย์ที่ 700-800MB/s และไม่มีสัญญาณของปัญหา ต้องมีปัญหากับรหัสการจู่โจมหรือ xfs หรือบางอย่างใน 20.04.2 ฉันคิดว่าสิ่งที่เจ็บปวดน้อยที่สุด ณ จุดนี้คือการอัปเกรดเป็นเวอร์ชันนั้นและรอ 22.04 LTS การรายงานข้อผิดพลาดเกิดขึ้นกับ ubuntu-bug ในกรณีนี้คือเคอร์เนลสำหรับ 20.04.2 ใช่ไหม
heynnema avatar
ru flag
ข่าวดี! ดังนั้นคุณจะอัปเดตเป็น 21.04 ใช่ไหม
liels avatar
ar flag
@heynnema. การอัปเดตเป็น 20.10 กำลังเกิดขึ้นในขณะนี้ จะย้ายไปยัง 21.04 ถัดไป
Score:0
ธง es

ดังนั้นฉันมีปัญหาเดียวกันกับคุณ

11 ซอฟต์แวร์ดิสก์ การตั้งค่า RAID6 ผ่าน mdadm ด้วยพาร์ติชัน XFS ดิสก์ที่แนบมาผ่านคำสั่งผสมของ mobo SATA และพอร์ต Broadcom HBA SATA

บน Ubuntu 20.04.3 LTS ฉันจะทำให้ระบบสมบูรณ์ค้างเมื่อใดก็ตามที่ฉันมีแบนด์วิธสูงพอในการเขียนในช่วงเวลาสั้นพอ

เพื่อขจัดปัญหาเกี่ยวกับอุปกรณ์หรือเครือข่ายอื่นๆ ฉันพบการเขียนไฟล์ขยะขนาด 1TB ไปยังอาร์เรย์ผ่านทาง dd if=/dev/zero of=testfile bs=1024 count=1024000000 สถานะ=ความคืบหน้า เพื่อเป็นวิธีที่น่าเชื่อถือที่สุดในการทำให้เกิดปัญหาซ้ำ

วิธีแก้ไขคืออัปเกรดเป็น Ubuntu 21.10. Ubuntu 21.04 ใช้เวลาในการหยุดนานขึ้นเล็กน้อย แต่ก็ยังค้างอยู่ บน Ubuntu 21.10 ฉันสามารถทดสอบไฟล์เต็ม 1TB ได้ 3 ครั้งโดยไม่มีปัญหา ข้อบกพร่องใด ๆ ที่ทำให้เกิดสิ่งนี้ได้รับการแก้ไขในที่สุด

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา