Score:1

บล็อกอุปกรณ์เต็มทันที ไม่สามารถระบุไฟล์เดียวว่าเป็นผู้ร้ายและ SMART ไม่แสดงข้อผิดพลาดของไดรฟ์

ธง et

ติดตั้ง

  • อูบุนตู 20.04
  • เดลล์ พาวเวอร์เอดจ์ R820
  • [PERC H710] 2x ไดรฟ์เสมือน (บูต RAID-1, ไดรฟ์ทำงาน RAID-0)
  • ทุกอย่างเรียบร้อยดีเป็นเวลา 6 เดือน
  • ไม่นำหน้าแม้แต่น้อย จู่ๆ ก็ขับเต็มที่

รายละเอียด...

เครื่องนี้ใช้สำหรับวางแผน Chia (สกุลเงินดิจิทัล) - ใช้งานได้นานหลายเดือนโดยไม่มีปัญหา

ฉันสังเกตเห็นว่ากระบวนการวางแผนล้มเหลว (เบลดบิต) - ซึ่งค่อนข้างแปลก อาจเกิดขึ้นทุกๆ 2 เดือนครั้ง - ดังนั้นฉันจึงเริ่มทำการสำรองข้อมูลและเริ่มรับทันที อุปกรณ์เต็ม ประเภทของข้อผิดพลาด

ฉันยิงออกไปอย่างรวดเร็ว df -h เพื่อดูว่าเกิดอะไรขึ้น และได้สิ่งนี้:

ขนาดระบบไฟล์ที่ใช้ Avail Use% Mounted on
อูเดฟ 252G 0 252G 0% /เดฟ
tmpfs 51G 2.9M 51G 1% /รัน
/dev/sda2 549G 512G 8.7G 99% /
tmpfs 252G 4.0K 252G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /รัน/ล็อค
tmpfs 252G 0 252G 0% /sys/fs/cgroup
/dev/sda1 511M 5.3M 506M 2% /บูต/efi
tmpfs 51G 0 51G 0% /รัน/ผู้ใช้/1000
<...สนิป ...>

/dev/sda2 เป็นไดรฟ์สำหรับบูต - จริง ๆ แล้วเป็นดิสก์เสมือน RAID-1 (2 ดิสก์) ที่จัดการโดยการ์ด H710 RAID ในเซิร์ฟเวอร์ แต่ฉันไม่คิดว่ามันจะเกี่ยวข้องมากนัก

โดยทั่วไป ไดรฟ์นี้เต็ม 3% มีเฉพาะ Ubuntu Server 20.04 ที่สามารถบู๊ตได้เท่านั้นและไม่มีอะไรอื่น

ฉันต้องลบไฟล์ tmp ในรูทและไฟล์ขยะอื่น ๆ อีกสองสามไฟล์เพื่อเพิ่มพื้นที่ว่างให้เพียงพอเพื่อให้สิ่งต่าง ๆ กลับมาทำงานได้อีกครั้ง แต่มันใกล้จะเต็มแล้ว

ฉันทำตามเคล็ดลับ "ค้นหาไฟล์ที่ใหญ่ที่สุดบนเซิร์ฟเวอร์ของคุณ" นับไม่ถ้วนจากที่นี่และในเว็บ เป็นต้น อันนี้ด้วยคำสั่ง sudo du -a / 2>/dev/null | เรียง -n -r | หัว -n 20 กำลังกลับมา:

$ sudo du -a / 2>/dev/null | เรียง -n -r | หัว -n 20
[sudo] รหัสผ่านสำหรับผู้ใช้: 
1010830919685 /
1010823681740 /ลบ
<...SNIP...>

โอเค มีอะไรใหญ่โตรออยู่ / เห็นได้ชัดว่า? ง่ายๆ ไม่แสดงความสนใจในนั้น:

$ ls -lFa /
รวม 84
drwxr-xr-x 20 รูท รูท 4096 12 ม.ค. 17:45 น./
drwxr-xr-x 20 รูท 4096 12 ม.ค. 17:45 ../
lrwxrwxrwx 1 รูทรูท 7 ส.ค. 24 08:41 bin -> usr/bin/
drwxr-xr-x 4 รูทรูท 4096 6 ม.ค. 06:22 บูต /
drwxr-xr-x 2 รูทรูท 4096 28 ก.ย. 14:04 น. cdrom/
drwxr-xr-x 21 รูท รูท 6920 5 ม.ค. 16:05 ผู้พัฒนา/
drwxr-xr-x 105 รูทรูท 4096 5 ม.ค. 01:54 เป็นต้น/
drwxr-xr-x 3 รูทรูท 4096 28 ก.ย. 14:18 น. บ้าน/
lrwxrwxrwx 1 รูทรูท 7 ส.ค. 24 08:41 lib -> usr/lib/
lrwxrwxrwx 1 รูทรูท 9 ส.ค. 24 08:41 lib32 -> usr/lib32/
lrwxrwxrwx 1 รูทรูท 9 ส.ค. 24 08:41 lib64 -> usr/lib64/
lrwxrwxrwx 1 รูทรูท 10 ส.ค. 24 08:41 libx32 -> usr/libx32/
drwx------ 2 รูทรูท 16384 28 ก.ย. 14:03 หายไป + พบ /
drwxr-xr-x 2 รูทรูท 4096 24 ส.ค. 08:42 น. สื่อ /
-rw-r--r-- 1 รูทรูท 6678 9 ม.ค. 00:59 น. MegaSAS.log
drwxr-xr-x 64 รูทรูท 4096 5 ม.ค. 01:48 น./
drwxr-xr-x 3 รูทรูท 4096 30 พ.ย. 18:14 เลือก /
dr-xr-xr-x 1356 รูทรูท 0 3 มกราคม 04:40 proc/
drwx------ 7 รูท รูท 4096 30 พ.ย. 18:07 รูท/
drwxr-xr-x 34 รูท รูท 1100 12 ม.ค. 08:04 run/
lrwxrwxrwx 1 รูทรูท 8 ส.ค. 24 08:41 sbin -> usr/sbin/
drwxr-xr-x 9 รูทรูท 4096 28 ก.ย. 22:06 น. snap/
drwxr-xr-x 2 รูท 4096 24 ส.ค. 08:42 srv/
dr-xr-xr-x 13 รูทรูท 0 3 ม.ค. 04:40 น. sys/
drwxrwxrwt รูท 13 รูท 4096 12 ม.ค. 17:15 tmp/
drwxr-xr-x 15 รูทรูท 4096 24 ส.ค. 08:46 usr/
drwxr-xr-x 13 รูทรูท 4096 24 ส.ค. 08:47 น. var/

โดยใช้ sudo ncdu -x / (ลิงค์) ไม่แสดงอะไรที่น่าสนใจพอ:

    2.4 GiB [############] /usr                                                                                                                                                                                                                 
    1.5 GiB [###### ] /var
  732.5 MiB [## ] /บ้าน
  202.8 MiB [ ] /บูต
    5.5 ไมล์ [ ] /opt
    5.4 MiB [ ] / ฯลฯ
    1.9 MiB [ ] /รูท
  168.0 กิโลไบต์ [ ] /tmp
<...SNIP...>

พื้นที่ใช้งานประมาณ 510GB นี้อยู่ที่ไหน

ยิงออก sudo lsof | ลบ grep แล้ว เพื่อดูว่ามีไฟล์ขนาดยักษ์ติดอยู่หรือไม่ ให้สิ่งนี้แก่ฉัน:

SystemD-J 1134 ROOT 36U Reg 8,2 134217728 5246838 /var/log/journal/771D7F1ADDF64A7B930191976176149E/SYSTEM@AE2F8B2397C441F8C441F856
unattende 3932 root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (ลบแล้ว)
unattende 3932 3943 gmain root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (ลบแล้ว)

ตกลงดังนั้นมันจึงเก็บไฟล์เจอร์นัลขนาด 134mb แต่นั่นก็ไม่ได้อธิบายว่าทำไมจู่ๆ ถึงมีไดรฟ์ถึง 510GB

ฉันได้ลองค้นหาเพิ่มเติมบางอย่าง เช่น อันนี้และส่งผลให้ไม่เกิดประโยชน์อะไรเช่นกัน

ในที่สุดฉันก็ใช้ เมกาคลี เพื่อตรวจสอบข้อมูล SMART จากไดรฟ์ 2 ตัวในอาร์เรย์ RAID-0 และมีรายงานข้อผิดพลาด 0 รายการ ดังนั้นจึงดูเหมือนว่าอาร์เรย์ไม่ได้รับความเสียหาย

ความคิดหรือเคล็ดลับเพิ่มเติมใด ๆ ที่ฉันอาจพยายามค้นหาว่าสิ่งใดที่ดูดพื้นที่นั้น

อัปเดต #1 - ฉันสังเกตเห็นเมื่อฉันพิมพ์ สูงสุด นั่น หนังสัตว์ / แคช เกือบจะเท่ากับขนาดของ GB ที่ถูกใช้ในรูทไดรฟ์ ฉันรู้ว่าช่องว่างนั้นไม่นับเป็น ใช้แล้วแต่ฉันตัดสินใจที่จะปิดอย่างรวดเร็ว:

sudo sh -c "/usr/bin/echo 3 > /proc/sys/vm/drop_caches"

ซึ่งใช้เวลาประมาณ 3 นาทีในการเรียกใช้ แต่ในที่สุดก็กลับมา - สูงสุด ตอนนี้แสดงให้เห็น หนังสัตว์ / แคช เป็น < 1k, BUT df -h ไม่แสดงการเปลี่ยนแปลงในการใช้งานดิสก์

ฉันหวังว่ามันจะเป็นไฟล์แคชลึกลับบนดิสก์หรืออะไรทำนองนั้น

et flag
อัปเดต 2 - ในกรณีที่ฉัน "ซ่อน" ไฟล์ขนาดใหญ่จากตัวฉันเองโดยการติดตั้งทับ ฉัน `เมานต์ -o ผูก' รูท dir ของฉันเป็น `/tmp/fake-root` เพื่อดูใน ROOT และไดเร็กทอรี `/ mnt ' เพียงแค่ใส่บางอย่างอยู่ในนั้น ... ไม่พบอะไรเลย เคล็ดลับนี้มาจาก: https://unix.stackexchange.com/a/198543/509866
et flag
อัปเดต 3 - ไล่ออก `sudo find / -type f -printf ' %s %p\n' 2>&1 | grep -v 'การอนุญาตถูกปฏิเสธ' | เรียงลำดับ -nr | head -10` และน่าเสียดายที่นอกเหนือจากการบอกว่า `/proc/kcore` เหมือนกับ 100 EB มันไม่ได้แสดงไฟล์ขนาดใหญ่อื่น ๆ ที่ฉันไม่รู้จัก

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา