ใช้ git lfs เพื่อจัดการข้อมูลในเซิร์ฟเวอร์จัดเก็บข้อมูล

WilhelmM

25/7/23 14:41

ฉันเป็นส่วนหนึ่งของทีมวิจัยฟิสิกส์ขนาดเล็ก (10-15 คน) ซึ่งเพิ่งได้รับเซิร์ฟเวอร์เก็บข้อมูลและฉันจะรับผิดชอบในการตั้งค่า ด้วยเหตุนี้ ฉันจึงต้องคิดวิธีที่ดีที่สุดในการจัดระเบียบข้อมูลที่เราจะสร้างขึ้น

เมื่อค้นคว้าวิธีที่ดีที่สุดในการทำเช่นนี้ ฉันได้พบกับ git lfs เราใช้ GitLab (เวอร์ชันคลาวด์) เพื่อควบคุมเวอร์ชันโค้ดของเราและแบ่งปันระหว่างเราได้อย่างง่ายดาย ดังนั้นจึงเหมาะสมที่จะสร้างที่เก็บ "ข้อมูล" ซึ่งไฟล์ส่วนใหญ่จะเป็นไฟล์ไบนารี จัดเก็บและติดตามผ่าน lfsอย่างไรก็ตาม ดูเหมือนว่ามันจะอัปโหลดไฟล์ไปยังเซิร์ฟเวอร์ของ GitLab ซึ่งเอาชนะจุดประสงค์ทั้งหมดของคอมพิวเตอร์เก็บข้อมูล (นอกจากนี้ เราจะต้องซื้อพื้นที่เก็บข้อมูลจากพวกเขาด้วย)

วิธีแก้ปัญหาดูเหมือนว่าเราจะปรับใช้ GitLab รุ่นชุมชนบนเซิร์ฟเวอร์จัดเก็บข้อมูลของเรา ตอนนี้คำถามของฉันมาถึง:

นั่นเป็นวิธีเดียวเหรอ? ฉันต้องการจะบอก GitLab ว่าไฟล์ของเราถูกเก็บไว้ที่อื่น และ git repo ชี้ให้เห็นว่า "ที่อื่น" เป็นเซิร์ฟเวอร์เก็บข้อมูลของเราหรือไม่
ถ้าฉันต้องปรับใช้ GitLab's CE การบำรุงรักษาเซิร์ฟเวอร์นั้นยากแค่ไหน สถานการณ์ในอุดมคติของฉันคือไม่ต้องบำรุงรักษาเลย เช่น ตั้งค่าครั้งเดียวและตราบใดที่ไม่มีใครอัปเดต OS ก็จะไม่พัง (ดูความคิดเห็นด้านล่าง)
ในกรณีที่ข้อมูลเสียหาย ข้อมูลจะถูกจัดเก็บในลักษณะที่ผู้อื่นสามารถเรียกค้นได้ง่ายหรือไม่ กล่าวคือ ข้อมูลจะไม่ถูกบีบอัดเป็น binary blob ซึ่งคุณต้องการให้เซิร์ฟเวอร์เรียกใช้เพื่อดึงข้อมูล ตามหลักการแล้ว ฉันควรจะสามารถอ่านข้อมูลจากภายในเซิร์ฟเวอร์ที่มีบริการทำงานอยู่ได้ เนื่องจากเราอาจทำการวิเคราะห์ข้อมูลภายในคอมพิวเตอร์เครื่องนี้

ความคิดเห็นเกี่ยวกับจุดที่ 2: ฉันรู้ว่าการไม่ทำการอัปเดตตามปกติอาจทำให้ช่องโหว่ด้านความปลอดภัย อย่างไรก็ตาม ข้อมูลที่จัดเก็บไม่มีข้อมูลที่ละเอียดอ่อน เราไม่จัดการกับข้อมูลส่วนบุคคลและการรั่วไหลหรือการสูญหายของข้อมูลจะมีผลเพียงเล็กน้อยเท่านั้น ในทางกลับกัน ฉันเป็น post-doc และอาจต้องออกจากกลุ่มเมื่อใดก็ได้เพื่อรับตำแหน่งถาวร เนื่องจากกลุ่มนี้มุ่งเน้นไปที่การวิจัยทางฟิสิกส์ คนอื่นๆ ที่มาหลังจากฉันออกไปอาจไม่มีทักษะที่จำเป็นในการดูแลเซิร์ฟเวอร์ ดังนั้นจึงจำเป็นต้องมีระบบในการจัดการข้อมูลที่ไม่ต้องการการบำรุงรักษาเพียงเล็กน้อยหรือไม่มีเลย

0 + 0

อิมมี่

กิทแล็บ

Score:0

Server

Sekenre

6/8/23 16:14

คุณมีสองตัวเลือกในใจของฉัน

เรียกใช้ Gitlab ชุมชนที่โฮสต์เองบนเซิร์ฟเวอร์ที่เก็บข้อมูลของคุณ และใช้ git-lfs กับสิ่งนั้น
ใช้ git-ภาคผนวก

Git-annex ติดตามตำแหน่งไฟล์ใน git แต่เนื้อหาไฟล์จริงสามารถเก็บไว้ในแบ็กเอนด์ที่หลากหลาย เช่น; rsync, s3, บัพ หนึ่งในนั้นที่คุณสามารถตั้งค่าบนเซิร์ฟเวอร์ที่เก็บข้อมูลของคุณ: https://git-annex.branchable.com/special_remotes/

แก้ไขเพื่อตอบคำถามของคุณเกี่ยวกับ Gitlab CE Admin เราใช้มันสำหรับทีมพัฒนาขนาดเล็กที่มี 10 คน และประมาณ 100 repos หากคุณไม่ได้ใช้การผสานรวมอย่างต่อเนื่องของ Gitlab ผู้ดูแลระบบควรจะง่ายมาก

0 + 0

Kulap

คำถามนี้เป็นภาษาอื่นๆ:

EN: Using git lfs to manage data in storage server

TH: ใช้ git lfs เพื่อจัดการข้อมูลในเซิร์ฟเวอร์จัดเก็บข้อมูล

RO: Folosind git lfs pentru a gestiona datele pe serverul de stocare

RU: Использование git lfs для управления данными на сервере хранения

VI: Sử dụng git lfs để quản lý dữ liệu trong máy chủ lưu trữ

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา