ติดตั้ง
- อูบุนตู 20.04
- เดลล์ พาวเวอร์เอดจ์ R820
- [PERC H710] 2x ไดรฟ์เสมือน (บูต RAID-1, ไดรฟ์ทำงาน RAID-0)
- ทุกอย่างเรียบร้อยดีเป็นเวลา 6 เดือน
- ไม่นำหน้าแม้แต่น้อย จู่ๆ ก็ขับเต็มที่
รายละเอียด...
เครื่องนี้ใช้สำหรับวางแผน Chia (สกุลเงินดิจิทัล) - ใช้งานได้นานหลายเดือนโดยไม่มีปัญหา
ฉันสังเกตเห็นว่ากระบวนการวางแผนล้มเหลว (เบลดบิต) - ซึ่งค่อนข้างแปลก อาจเกิดขึ้นทุกๆ 2 เดือนครั้ง - ดังนั้นฉันจึงเริ่มทำการสำรองข้อมูลและเริ่มรับทันที อุปกรณ์เต็ม
ประเภทของข้อผิดพลาด
ฉันยิงออกไปอย่างรวดเร็ว df -h
เพื่อดูว่าเกิดอะไรขึ้น และได้สิ่งนี้:
ขนาดระบบไฟล์ที่ใช้ Avail Use% Mounted on
อูเดฟ 252G 0 252G 0% /เดฟ
tmpfs 51G 2.9M 51G 1% /รัน
/dev/sda2 549G 512G 8.7G 99% /
tmpfs 252G 4.0K 252G 1% /dev/shm
tmpfs 5.0M 0 5.0M 0% /รัน/ล็อค
tmpfs 252G 0 252G 0% /sys/fs/cgroup
/dev/sda1 511M 5.3M 506M 2% /บูต/efi
tmpfs 51G 0 51G 0% /รัน/ผู้ใช้/1000
<... SNIP ...>
/dev/sda2
เป็นไดรฟ์สำหรับบูต - จริง ๆ แล้วเป็นดิสก์เสมือน RAID-1 (2 ดิสก์) ที่จัดการโดยการ์ด H710 RAID ในเซิร์ฟเวอร์ แต่ฉันไม่คิดว่ามันจะเกี่ยวข้องมากนัก
โดยทั่วไป ไดรฟ์นี้เต็ม 3% มีเฉพาะ Ubuntu Server 20.04 ที่สามารถบู๊ตได้เท่านั้นและไม่มีอะไรอื่น
ฉันต้องลบไฟล์ tmp ในรูทและไฟล์ขยะอื่น ๆ อีกสองสามไฟล์เพื่อเพิ่มพื้นที่ว่างให้เพียงพอเพื่อให้สิ่งต่าง ๆ กลับมาทำงานได้อีกครั้ง แต่มันใกล้จะเต็มแล้ว
ฉันทำตามเคล็ดลับ "ค้นหาไฟล์ที่ใหญ่ที่สุดบนเซิร์ฟเวอร์ของคุณ" นับไม่ถ้วนจากที่นี่และในเว็บ เป็นต้น อันนี้ด้วยคำสั่ง sudo du -a / 2>/dev/null | เรียง -n -r | หัว -n 20
กำลังกลับมา:
$ sudo du -a / 2>/dev/null | เรียง -n -r | หัว -n 20
[sudo] รหัสผ่านสำหรับผู้ใช้:
1010830919685 /
1010823681740 /ลบ
<...SNIP...>
โอเค มีอะไรใหญ่โตรออยู่ /
เห็นได้ชัดว่า? ง่ายๆ ล
ไม่แสดงความสนใจในนั้น:
$ ls -lFa /
รวม 84
drwxr-xr-x 20 รูท รูท 4096 12 ม.ค. 17:45 น./
drwxr-xr-x 20 รูท 4096 12 ม.ค. 17:45 ../
lrwxrwxrwx 1 รูทรูท 7 ส.ค. 24 08:41 bin -> usr/bin/
drwxr-xr-x 4 รูทรูท 4096 6 ม.ค. 06:22 บูต /
drwxr-xr-x 2 รูทรูท 4096 28 ก.ย. 14:04 น. cdrom/
drwxr-xr-x 21 รูท รูท 6920 5 ม.ค. 16:05 ผู้พัฒนา/
drwxr-xr-x 105 รูทรูท 4096 5 ม.ค. 01:54 เป็นต้น/
drwxr-xr-x 3 รูทรูท 4096 28 ก.ย. 14:18 น. บ้าน/
lrwxrwxrwx 1 รูทรูท 7 ส.ค. 24 08:41 lib -> usr/lib/
lrwxrwxrwx 1 รูทรูท 9 ส.ค. 24 08:41 lib32 -> usr/lib32/
lrwxrwxrwx 1 รูทรูท 9 ส.ค. 24 08:41 lib64 -> usr/lib64/
lrwxrwxrwx 1 รูทรูท 10 ส.ค. 24 08:41 libx32 -> usr/libx32/
drwx------ 2 รูทรูท 16384 28 ก.ย. 14:03 หายไป + พบ /
drwxr-xr-x 2 รูทรูท 4096 24 ส.ค. 08:42 น. สื่อ /
-rw-r--r-- 1 รูทรูท 6678 9 ม.ค. 00:59 น. MegaSAS.log
drwxr-xr-x 64 รูทรูท 4096 5 ม.ค. 01:48 น./
drwxr-xr-x 3 รูทรูท 4096 30 พ.ย. 18:14 เลือก /
dr-xr-xr-x 1356 รูทรูท 0 3 มกราคม 04:40 proc/
drwx------ 7 รูท รูท 4096 30 พ.ย. 18:07 รูท/
drwxr-xr-x 34 รูท รูท 1100 12 ม.ค. 08:04 run/
lrwxrwxrwx 1 รูทรูท 8 ส.ค. 24 08:41 sbin -> usr/sbin/
drwxr-xr-x 9 รูทรูท 4096 28 ก.ย. 22:06 น. snap/
drwxr-xr-x 2 รูท 4096 24 ส.ค. 08:42 srv/
dr-xr-xr-x 13 รูทรูท 0 3 ม.ค. 04:40 น. sys/
drwxrwxrwt รูท 13 รูท 4096 12 ม.ค. 17:15 tmp/
drwxr-xr-x 15 รูทรูท 4096 24 ส.ค. 08:46 usr/
drwxr-xr-x 13 รูทรูท 4096 24 ส.ค. 08:47 น. var/
โดยใช้ sudo ncdu -x /
(ลิงค์) ไม่แสดงอะไรที่น่าสนใจพอ:
2.4 GiB [############] /usr
1.5 GiB [###### ] /var
732.5 MiB [## ] /บ้าน
202.8 MiB [ ] /บูต
5.5 ไมล์ [ ] /opt
5.4 MiB [ ] / ฯลฯ
1.9 MiB [ ] /รูท
168.0 กิโลไบต์ [ ] /tmp
<...SNIP...>
พื้นที่ใช้งานประมาณ 510GB นี้อยู่ที่ไหน
ยิงออก sudo lsof | ลบ grep แล้ว
เพื่อดูว่ามีไฟล์ขนาดยักษ์ติดอยู่หรือไม่ ให้สิ่งนี้แก่ฉัน:
SystemD-J 1134 ROOT 36U Reg 8,2 134217728 5246838 /var/log/journal/771D7F1ADDF64A7B930191976176149E/SYSTEM@AE2F8B2397C441F8C441F856
unattende 3932 root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (ลบแล้ว)
unattende 3932 3943 gmain root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (ลบแล้ว)
ตกลงดังนั้นมันจึงเก็บไฟล์เจอร์นัลขนาด 134mb แต่นั่นก็ไม่ได้อธิบายว่าทำไมจู่ๆ ถึงมีไดรฟ์ถึง 510GB
ฉันได้ลองค้นหาเพิ่มเติมบางอย่าง เช่น อันนี้และส่งผลให้ไม่เกิดประโยชน์อะไรเช่นกัน
ในที่สุดฉันก็ใช้ เมกาคลี
เพื่อตรวจสอบข้อมูล SMART จากไดรฟ์ 2 ตัวในอาร์เรย์ RAID-0 และมีรายงานข้อผิดพลาด 0 รายการ ดังนั้นจึงดูเหมือนว่าอาร์เรย์ไม่ได้รับความเสียหาย
ความคิดหรือเคล็ดลับเพิ่มเติมใด ๆ ที่ฉันอาจพยายามค้นหาว่าสิ่งใดที่ดูดพื้นที่นั้น
อัปเดต #1 - ฉันสังเกตเห็นเมื่อฉันพิมพ์ สูงสุด
นั่น หนังสัตว์ / แคช
เกือบจะเท่ากับขนาดของ GB ที่ถูกใช้ในรูทไดรฟ์ ฉันรู้ว่าช่องว่างนั้นไม่นับเป็น ใช้แล้ว
แต่ฉันตัดสินใจที่จะปิดอย่างรวดเร็ว:
sudo sh -c "/usr/bin/echo 3 > /proc/sys/vm/drop_caches"
ซึ่งใช้เวลาประมาณ 3 นาทีในการเรียกใช้ แต่ในที่สุดก็กลับมา - สูงสุด
ตอนนี้แสดงให้เห็น หนังสัตว์ / แคช
เป็น < 1k, BUT df -h
ไม่แสดงการเปลี่ยนแปลงในการใช้งานดิสก์
ฉันหวังว่ามันจะเป็นไฟล์แคชลึกลับบนดิสก์หรืออะไรทำนองนั้น