เพื่อนร่วมบ้านแนะนำให้ฉันใช้ btrfs แทนสิ่งที่ฉันทำมาจนถึงตอนนี้ ซึ่งใช้ mdadm กับไดรฟ์ที่โคลน และเพิ่มไดรฟ์พิเศษในอาร์เรย์เพื่อ "โคลน" การสำรองข้อมูล ระบบมีสามไดรฟ์ ทุกรุ่นแตกต่างกัน:
- /dev/sda: TOSHIBA HDWQ140
- /dev/sdb: HGST HUS724040AL
- /dev/sdc: WDC WDS250G2B0B
ฉันได้ติดตั้ง btrfs แล้ว แต่ตอนนี้มันทำงานมาเกือบปีแล้ว และฉันพบว่าฉันควรจะมีงาน cron ทุกสัปดาห์เพื่อ "ขัด" มันฉันเริ่มพยายามตั้งค่าสคริปต์สำหรับสิ่งนี้ แม้ว่ามันจะดูเหมือนเป็นระบบ DIY ที่โง่เขลาที่คุณต้อง google สคริปต์ (ยอดฮิตที่ฉันพบคือจากปี 2014) และติดตั้งเพื่อให้ระบบไฟล์ของคุณทำงาน
ขณะที่ฉันกำลังดำเนินการทั้งหมดนี้ ฉันพบไฟล์บางไฟล์ที่จำเป็นต้องย้าย... ฉันจะข้ามรายละเอียดที่เต็มไปด้วยเลือด แต่การย้ายไฟล์จากระบบไฟล์ btrfs หนึ่งไปยังอีกระบบหนึ่งแล้วย้อนกลับมาสร้าง "อินพุต/เอาต์พุต" ทุกประเภท ข้อผิดพลาด" (ไม่เคยเห็นด้วย ext4) และแม้แต่อัญมณีนี้:
4 มกราคม 21:19:19 เคอร์เนลโฮสต์: [9771285.171522] พยายามเข้าถึงเกินจุดสิ้นสุดของอุปกรณ์
4 มกราคม 21:19:19 เคอร์เนลโฮสต์: [9771285.171522] sda1: rw=1, want=70370535518208, limit=7814035087
4 มกราคม 21:19:19 เคอร์เนลโฮสต์: [9771285.171529] ข้อผิดพลาด BTRFS (อุปกรณ์ sda1): bdev /dev/sda1 ข้อผิดพลาด: wr 1, rd 0, flush 0, เสียหาย 5, gen 0
ฉันถือว่าสิ่งเหล่านี้เกี่ยวข้องกัน แต่นี่คือสิ่งที่โง่จริง ฉันได้รับข้อผิดพลาด checksum ไม่ใช่แค่ในไฟล์ที่นั่งอยู่ประมาณหนึ่งปี แต่กับไฟล์ที่ฉันคัดลอกอย่างแท้จริงเมื่อไม่กี่ชั่วโมงก่อน ไปยังไดรฟ์ทางกายภาพอื่น. นอกจากนี้ เกือบทั้งหมดอยู่ในไฟล์ขนาดมหึมา (เช่น อิมเมจ DVD iso) หากนั่นเป็นข้อบ่งชี้ถึงสิ่งใด
ใช่ ฉันอาจเห็นความล้มเหลวของไดรฟ์สามตัวพร้อมๆ กัน หรือ btrfs เพียงแค่ทำให้ไฟล์ของฉันเสียหายแทนฉัน
นอกจากนี้ ทุกโพสต์จากกลุ่มคนที่มีความรู้ btrfs ยังรวมถึงข้อความเล็กๆ น้อยๆ ที่น่ารัก "อืม คุณควรกู้คืนสิ่งนั้นจากข้อมูลสำรอง... ทำ มีแบ็คอัพไม่ใช่เหรอ" งั้นบอกฉันทีว่าคุณใช้อะไรสำรองฮาร์ดไดรฟ์ขนาด 4TB เพราะฉันเขียนมันลงแผ่น DVD ไม่ได้ และถ้าฮาร์ดไดรฟ์ไม่น่าเชื่อถือขนาดนี้ แล้วการสำรองข้อมูลไปยังฮาร์ดไดรฟ์มีประโยชน์อย่างไร?
คำถามที่จริงจังมาก:
- ข้อผิดพลาด checksum เหล่านี้เป็นเรื่องปกติและคาดหวังไว้หรือไม่?
- เหตุใดฉันจึงเห็นในไฟล์ที่คัดลอกเฉพาะวันนี้
- การขัดผิวเป็นประจำจะเพียงพอต่อการป้องกันสิ่งนี้หรือไม่?
- ฉันควรซื้อฮาร์ดไดร์ฟใหม่และโยนฮาร์ดไดร์ฟทั้งหมดที่อยู่ในเครื่องทิ้งไปเพราะใช้งานไม่ได้จริงหรือ?
- ยังไง ทำ คุณแนะนำให้สำรองไดรฟ์ข้อมูลขนาดหลายเทราไบต์หรือไม่
อัปเดต 2022-01-07: ฉันวิ่งแล้ว สมาร์ทคอนโทรล ในไดรฟ์ทั้งหมดและรายงานเหล่านี้ไม่มีปัญหาเลย Raw UDMA_CRC_Error_Count เป็น 0 สำหรับไดรฟ์ทั้งหมด พยายามกู้คืนไฟล์ที่เสียหาย... ไฟล์ tar ที่คัดลอกไปยังเครื่องล้มเหลวหลังจากไฟล์สองสามไฟล์มีข้อผิดพลาด I/O ไม่รู้จริงๆว่าเกิดอะไรขึ้นที่นี่:
- หากไดรฟ์หรือสายเคเบิลไม่ดี สิ่งนี้จะแสดงใน SMART ใช่ไหม
- ถ้าซีพียูหรือหน่วยความจำไม่ดี ระบบก็จะทำงานได้อย่างไม่มีที่ติ? (ปัจจุบันขึ้น 115 วันโดยไม่มีปัญหาชัดเจน)?
- หากนี่เป็นบั๊กข้ามกระดานกับ btrfs มันจะไม่เกิดขึ้นทั่วอินเทอร์เน็ตเหรอ
ดังนั้นปัญหาที่แท้จริงอาจอยู่ที่ไหน