Score:0

ฉันจะทดสอบการ์ด SAS Controller ของฉันได้อย่างไร

ธง by

ฉันต้องการทดสอบการ์ด Dell SAS Controller ของฉัน ฉันเห็นข้อผิดพลาดมากเกินไปในการติดตั้ง Raidz2 ตั้งแต่เดือนกรกฎาคมปีที่แล้ว กว่าจะเป็นจริง ราวกับว่ารถคันหนึ่งคันแล้วคันเล่าทำให้รถหมุนออกจากราง

ฉันมี "dell" 9207-8l ที่ควรจะเป็น ฉันได้รับจาก ebay ในเดือนกรกฎาคม/สิงหาคม 2020 https://www.ebay.com/itm/132663136462 ฉันไม่สามารถป้อนการกำหนดค่าของมันได้ มันบอกว่ากด Ctrl + C เพื่อเข้าสู่ config ฉันได้ลองซ้ายและขวา crtl บวก c และด้วย C (ตัวพิมพ์ใหญ่) ตั้งแต่ตัวสะกดตัวพิมพ์ใหญ่ มันบอกว่าจะเข้าสู่การกำหนดค่าหลังจากการตั้งค่า แต่ไม่เคยทำ เพียงแค่ไปที่ bios if เดล ถูกกดหรือบูทอย่างอื่น

ฉันรัน zfs-on-linux บน rhelx64 เมื่อวานเอาเค้กไป ฉันต้องดึงอุปกรณ์ 2TB (6) ออกมาและสร้าง LVM 3TB 3 เครื่องเพื่อรองรับระบบที่ล้มเหลวในขณะที่ต้องผ่าน RMA นรก

# สถานะ zpool                                                                               
สระว่ายน้ำ: nas
สถานะ: DEGRADED สถานะ: อุปกรณ์อย่างน้อยหนึ่งเครื่องกำลังถูก Resilvered สระว่ายน้ำจะ
        ทำงานต่อไปได้อาจอยู่ในสภาพเสื่อมโทรม
การกระทำ: รอให้ resilver เสร็จสิ้น
  สแกน: กำลังดำเนินการ Resilver ตั้งแต่วันพุธที่ 1 ธันวาคม 05:41:15 2021
        665G สแกนที่ 24.5M/s, 640G สแกนที่ 23.6M/s, รวม 9.78T
        สีเงิน 182G, เสร็จ 6.40%, เหลืออีก 4 วัน 16:52:09 น.
การกำหนดค่า:

        ชื่อ รัฐ อ่าน เขียน CKSUM
        ลดลง 0 0 0
          Raidz2-0 ลดลง 0 0 0
            scsi-35000c50093a9052f DEGRADED 0 0 52 มีข้อผิดพลาดมากเกินไป
            แทนที่-1 เสื่อมโทรม 0 0 52
              scsi-35000c50084818db7 ออฟไลน์ 0 0 0
              lvzfs2-lvzfsvol2 ออนไลน์ 0 0 0 (คืนค่า)
            scsi-35000c50093a9182b ลดลง 235 636 52 มีข้อผิดพลาดมากเกินไป
            scsi-350000c0f01e5dabc DEGRADED 0 0 60 มีข้อผิดพลาดมากเกินไป
            scsi-35000c5008491a803 DEGRADED 0 0 53 มีข้อผิดพลาดมากเกินไป (resilvering)
            แทนที่-5 ลดลง 0 0 52
              scsi-35000c50084889cf3 ออฟไลน์ 0 0 0
              lvzfs1-lzfsvol1 ออนไลน์ 0 0 0 (รีซิลเวอร์)
            scsi-35000c50093a8dfe7 ลดลง 0 0 52 มีข้อผิดพลาดมากเกินไป
        อะไหล่
          lvzfs3-lvzfsvol3 ประโยชน์

ข้อผิดพลาด: ตรวจพบข้อผิดพลาดถาวรในไฟล์ต่อไปนี้:

        <ข้อมูลเมตา>:<0x0>
รูท@เมอร์ลิน ~$

การหมุนเวียนนี้เกิดขึ้นในช่วงหนึ่งหรือสองเดือนที่ผ่านมา ไม่ทางใดก็ทางหนึ่ง สิ่งที่ดูดีในช่วงเวลาสั้น ๆ เมื่อไดรฟ์ถัดไปล้มเหลวหรือไดรฟ์ที่รู้จักก่อนหน้านี้ล้มเหลว (dd dev/zero'd) ล้มเหลวอีกครั้ง

มันทำให้ฉันแทบบ้าและทำให้ฉันกลัวในเวลาเดียวกัน เนื่องจากข้อมูลนี้สำคัญที่สุด ภาพถ่ายครอบครัวย้อนกลับไปในปี 1970 และก่อนหน้านั้น ฯลฯ...

ช่วยด้วย?

แก้ไข: ฉันเพิ่มความคิดเห็นเกี่ยวกับสิ่งที่ฉันใช้ไดรฟ์จริงๆ ที่นี่ https://www.reddit.com/r/audiophile/comments/bxw38m/bass_vibrations_and_computer_hard_drives/hnvbyj0/ เนื่องจากฉันกังวลด้วยว่า HardHouse และ Tidy Tracks กำลังโยกไดรฟ์ออกจากกันด้วยซับวูฟเฟอร์สองสามตัว จะพิจารณาย้ายเซิร์ฟเวอร์ออกจากสำนักงานไปที่โรงรถ ฉันยังสร้างพูล zfs ใหม่โดยใช้พอร์ต sata และไดรฟ์ 2Tb เก่าได้ และยังไม่มีปัญหาใดๆ ยังคงอยู่ในช่วงกลางของนรกแม้ว่าฉันจะปรับและแม้แต่ย้ายชุดข้อมูลบางส่วนไปยังกลุ่มอื่น

root@merlin ~$ สถานะ zpool
  สระ: บาก
 สถานะ: ออนไลน์
  สแกน: ไม่มีการร้องขอ
การกำหนดค่า:

        ชื่อ รัฐ อ่าน เขียน CKSUM
        บากออนไลน์ 0 0 0
          ata-WDC_WD20EZRX-19D8PB0_WD-WCC4M0428332 ออนไลน์ 0 0 0
          ata-WDC_WD2000FYYZ-01UL1B1_WD-WCC1P0891973 ออนไลน์ 0 0 0

ข้อผิดพลาด: ไม่มีข้อผิดพลาดของข้อมูลที่ทราบ

  สระว่ายน้ำ: nas
 สถานะ: เสื่อมโทรม
สถานะ: อุปกรณ์อย่างน้อยหนึ่งเครื่องกำลังถูก Resilvered สระว่ายน้ำจะ
        ทำงานต่อไปได้อาจอยู่ในสภาพเสื่อมโทรม
การกระทำ: รอให้ resilver เสร็จสิ้น
  สแกน: กำลังดำเนินการ Resilver ตั้งแต่วันจันทร์ที่ 6 ธันวาคม 11:08:12 2021
        7.84T สแกนที่ 37.5M/s, 7.84T ออกที่ 37.5M/s, รวม 9.78T
        สีเงิน 3.39T, เสร็จ 80.16%, 0 วัน 15:03:25 เหลือ
การกำหนดค่า:

การกำหนดค่า:

        ชื่อ รัฐ อ่าน เขียน CKSUM
        ลดลง 0 0 0
          Raidz2-0 ลดลง 0 0 0
            scsi-35000c50093a9052f DEGRADED 0 0 0 มีข้อผิดพลาดมากเกินไป
            แทนที่-1 ออนไลน์ 0 0 0
              scsi-35000c50084818db7 ออนไลน์ 0 0 0 (คืนค่า)
              lvzfs2-lvzfsvol2 ออนไลน์ 0 0 0 (คืนค่า)
            แทนที่-2 เสื่อมโทรม 0 0 0
              17084797086424522076 UNAVAIL 0 0 0 ถูก /dev/disk/by-id/scsi-35000c50093a9182b-part1
              scsi-350000c0f012efb7c ออนไลน์ 0 0 0 (สีเงิน)
            scsi-350000c0f01e5dabc DEGRADED 0 0 0 มีข้อผิดพลาดมากเกินไป (resilvering)
            scsi-35000c5008491a803 DEGRADED 0 0 0 มีข้อผิดพลาดมากเกินไป
            แทนที่-5 ลดลง 0 0 0
              scsi-35000c50084889cf3 DEGRADED 0 0 0 มีข้อผิดพลาดมากเกินไป (resilvering)
              lvzfs1-lzfsvol1 DEGRADED 0 0 0 มีข้อผิดพลาดมากเกินไป (resilvering)
            scsi-35000c50093a8dfe7 ลดลง 0 0 0 มีข้อผิดพลาดมากเกินไป

ข้อผิดพลาด: ข้อมูลผิดพลาด 2 รายการ ใช้ '-v' สำหรับรายการ

FYI มีข้อผิดพลาด checksum แต่ถูกล้างหลังจากรีบูต

ข้อผิดพลาดมีน้อยมาก ฉันประทับใจอย่างมากเกี่ยวกับความทนทานของ ZFS ซึ่งเป็นเหตุผลที่ฉันใช้มันต่อไปสำหรับการสำรองข้อมูลหลักของฉัน ดีกว่าสำรองลงดิสก์แผ่นเดียว..

ข้อผิดพลาดอีกอย่างที่ฉันทำ ฉันมีไดรฟ์ใหม่ 5 ไดรฟ์อยู่ที่นี่เป็นเวลาเกือบหนึ่งสัปดาห์แล้ว แต่ฉันใช้มันไม่ได้จนกว่า LVM vols จะเสร็จสิ้นการ resilvering เนื่องจากฉันเกือบจะเกิดข้อผิดพลาดของข้อมูล ฉันจึงต้องการให้มันเสร็จสิ้นก่อน ยิงตัวเองใน โดยไม่รอให้ไดร์ฟมาถึงทางไปรษณีย์ ก่อนที่ฉันจะวิ่งแทนที่การดำเนินการอย่างส่งเดช โดยไม่รู้ว่าต้องใช้เวลาหลายสัปดาห์กว่าจะเสร็จสิ้นการดำเนินการ Resilver เหล่านี้ทั้งหมด บ้าไปแล้ว!

ฉันได้ทำการคำนวณสำหรับการจัดเก็บธารน้ำแข็ง (0.004/GB) แล้ว ซึ่งจะมีค่าใช้จ่าย $20 ต่อเดือนสำหรับ 5TB ไม่ใช่ตัวเลือก หากฉันต้องการข้อมูลนั้น ให้ลืมข้อมูลนั้นไปกับต้นทุนขาออก นอกจากนี้ ฉันยังสนุกกับสิ่งนี้มาก โดยใช้ ZFS บนโฮมเซิร์ฟเวอร์สำหรับสิ่งนี้ ไดรฟ์อาร์เรย์ก่อนหน้านี้มีอายุ 8 ปีเมื่อถูกถอดออก และฉันใช้เฉพาะไดรฟ์ที่เสียซึ่งรู้จักในอาร์เรย์ทั้งหมด และยังคงจัดการเพื่อ z2 ไปสู่ความสำเร็จได้ ฉันคิดว่าไดรฟ์ที่ปรับปรุงใหม่หรือไดรฟ์ที่ต่ออายุใหม่จะช่วยแก้ปัญหานี้ได้ ขออภัย เดาว่าฉันระบาย ฉันอยากฟังเพิ่มเติมเกี่ยวกับสิ่งที่ฉันอาจทำผิดแม้ว่า...

อย่างไรก็ตาม ฉันได้ให้บริษัทจ่ายเงิน (เซิร์ฟเวอร์ลดราคาในกรณีนี้) สำหรับการเปลี่ยนไดรฟ์รุ่นต่างๆ IBM ไม่มีการปรับปรุงใหม่สำหรับฉันอีกต่อไป กำลังจะทดสอบ HGST เนื่องจากที่ผ่านมาได้ผลดีสำหรับฉัน

วางใจได้ การ์ด SAS ใหม่จะมาถึงหากการ์ดเหล่านั้นแสดงปัญหา เมื่อความบ้าระห่ำนี้สิ้นสุดลง หากเป็นเช่นนั้น ฉันต้องทำการสำรองข้อมูลเต็มรูปแบบอีกครั้งหากไม่ ซึ่งใช้เวลานานเกือบเท่าตัว Resilver ... อย่างน้อยฉันก็ได้ย้ายข้อมูลสดออกจากอาร์เรย์แล้ว ดังนั้นจะไม่มีการสูญเสียใดๆ เกิดขึ้น เว้นแต่ฉันจะทำไดรฟ์หลักหาย ในระบบอื่นในระหว่างทั้งหมด นี่.... ฉันเดาว่าฉันสามารถพูดได้ว่าข้อมูลมีความสำคัญอย่างยิ่ง แต่ฉันยังมีสำเนาของมันอยู่ แต่ตอนนี้ฉันสามารถทนต่อการสูญเสียได้ ชี้แจงส่วนที่ "สำคัญ" เป็นเรื่องเร่งด่วนหากอาร์เรย์ ZFS เริ่มแสดงข้อผิดพลาด เนื่องจากมีเพียงไดรฟ์เดียวที่นี่และที่นั่นซึ่งมีสำเนาหลัก

Score:3
ธง cn

ฉันต้องการทดสอบการ์ด Dell SAS Controller ของฉัน

เรียบง่าย. แทนที่ด้วยอันอื่น แล้วคุณรู้หรือไม่ว่าการ์ดมีปัญหา

ไม่มี? เราจะกลับไปที่ "ความเป็นมืออาชีพ" และ "แนวทางปฏิบัติที่ดีที่สุด" ในกฎของไซต์ได้หรือไม่ ขอให้บริษัทดำเนินการ (และชำระเงิน) การทดสอบการเปลี่ยนเป็นเพียงวิธีเดียว (และมีประสิทธิภาพมากที่สุด) เพื่อให้แน่ใจว่าไม่มีชิ้นส่วนใดทำงานผิดปกติ

เนื่องจากข้อมูลนี้มีความสำคัญมากที่สุด รูปถ่ายครอบครัวย้อนกลับไปในปี 1970 และ ก่อน ฯลฯ...

นอกจากนี้ยังนอกหัวข้อที่นี่ ...

...มันไม่สำคัญสำหรับคุณเลย ฉันไปโดย "เอาเงินใส่ปาก" ถ้าสิ่งนี้สำคัญสำหรับคุณ มันจะถูกสำรองไว้ ฉันหมายความว่าฉันเรียนรู้ที่โรงเรียน - เมื่อกว่า 30 ปีที่แล้ว - การสำรองข้อมูลเป็นสิ่งที่ต้องคิดและต้องทำ ดังนั้น อย่ามาด้วยความ "สำคัญ" เมื่อท้ายที่สุดแล้วคุณปฏิเสธที่จะทำในสิ่งที่คนอื่นทำกับข้อมูลสำคัญ เริ่มใช้การสำรองข้อมูล - บริการต้นทุนต่ำที่มีอยู่มากมาย

Brian Thomas avatar
by flag
ขอบคุณ การแทนที่ไม่ได้มีประโยชน์ทั้งหมด ฉันพิจารณาแล้วว่า ภรรยากำลังขี่ก้นในวันคริสต์มาสแล้ว กำลังพูดถึงการสูญหายของข้อมูลที่นี่ .. บางครั้งคุณก็จ่ายเงินไม่ได้ถ้าคุณรู้ว่าฉันหมายถึงอะไร .. อย่างไรก็ตาม ในการสำรองข้อมูลของคุณ นี่คือตัวสำรอง!! ฉันเล่นเร็ว ฉันไม่อยากสูญเสียข้อมูลหลักของฉัน (ในไดรฟ์เดียว) ในขณะเดียวกันฉันก็แก้ไขอาร์เรย์ ฉันประหลาดใจเสมอเมื่อมีคนพูดว่าโยนเงินให้ พิจารณาแล้วเชื่อผมเถอะครับ...ผมยินดีให้คำแนะนำว่าไม่มีวิธีอื่นนอกจากเปลี่ยนแล้วจริงหรือ? คงต้องสาดเสียเทเสีย...อุ๊ย...
cn flag
"ขอบคุณ การแทนที่ไม่ได้ช่วยอะไรเลย" - ใช่ โอเค ดังนั้น ในโลกของคุณ การมีแผนผังและห้องแล็บอิเล็กทรอนิกส์และการทดสอบการเชื่อมต่อบัดกรีทุกจุด และการเรียกใช้อุปกรณ์ทดสอบเชิงตรรกะบนชิปทั้งหมดจะเป็นประโยชน์หรือไม่ วิธีแบบมืออาชีพ (จำเป็นตามกฎของไซต์ ไม่ว่าจะช่วยคุณหรือไม่ก็ตาม) เป็นวิธีที่มีประสิทธิภาพ: เปลี่ยน ตรวจสอบ แล้วคุณจะรู้ว่าต้องไปหาที่ไหน และราคาถูกกว่าการทดสอบจริงเป็นเวลาหลายวันกับห้องแล็บมาก เพียงแค่คุณมาตระหนักว่าสายเคเบิลเป็นเรื่องไร้สาระ หรือแหล่งจ่ายไฟของคุณ นี่ไม่ใช่การทุ่มเงินด้วยซ้ำ - สำคัญ เตรียมอุปกรณ์ทดแทนให้พร้อม
cn flag
หากนั่นคือข้อมูลสำรองของคุณ ให้ตรวจสอบความเป็นจริงและเริ่มใช้บริการสำรองข้อมูล AWS, Azure, Backblaze มีบริการที่ค่อนข้างดีซึ่งรับประกันได้มากกว่า Raid ที่ใช้ SAS ระดับล่าง
Brian Thomas avatar
by flag
ชำระค่าสมัครรายเดือนแทน? หึหึ แบ่งปันกับข้อมูลขนาดใหญ่? psshhhh .. ฉันอยู่ในสาขา SRE แล้ว ฉันแนะนำให้คุณรู้จัก ZFS บนโฮมเซิร์ฟเวอร์เป็นข้อมูลสำรอง ... ฉันค่อนข้างเชื่อว่าการ์ดนี้เป็นการ์ดตั้งแต่ตอนนี้ไดรฟ์เกือบทั้งหมดแสดงอาการไม่ดี ฉันจะนั่งใหม่ ฉันไม่ได้พูดถึงการทดสอบในห้องปฏิบัติการเช่นกัน ฉันกำลังถามว่ามีวิธีอื่นที่ใช้ซอฟต์แวร์ในการทดสอบหรือไม่ ซึ่งฉันไม่อาจรู้ได้

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา