ฉันเป็นส่วนหนึ่งของทีมวิจัยฟิสิกส์ขนาดเล็ก (10-15 คน) ซึ่งเพิ่งได้รับเซิร์ฟเวอร์เก็บข้อมูลและฉันจะรับผิดชอบในการตั้งค่า ด้วยเหตุนี้ ฉันจึงต้องคิดวิธีที่ดีที่สุดในการจัดระเบียบข้อมูลที่เราจะสร้างขึ้น
เมื่อค้นคว้าวิธีที่ดีที่สุดในการทำเช่นนี้ ฉันได้พบกับ git lfs เราใช้ GitLab (เวอร์ชันคลาวด์) เพื่อควบคุมเวอร์ชันโค้ดของเราและแบ่งปันระหว่างเราได้อย่างง่ายดาย ดังนั้นจึงเหมาะสมที่จะสร้างที่เก็บ "ข้อมูล" ซึ่งไฟล์ส่วนใหญ่จะเป็นไฟล์ไบนารี จัดเก็บและติดตามผ่าน lfsอย่างไรก็ตาม ดูเหมือนว่ามันจะอัปโหลดไฟล์ไปยังเซิร์ฟเวอร์ของ GitLab ซึ่งเอาชนะจุดประสงค์ทั้งหมดของคอมพิวเตอร์เก็บข้อมูล (นอกจากนี้ เราจะต้องซื้อพื้นที่เก็บข้อมูลจากพวกเขาด้วย)
วิธีแก้ปัญหาดูเหมือนว่าเราจะปรับใช้ GitLab รุ่นชุมชนบนเซิร์ฟเวอร์จัดเก็บข้อมูลของเรา ตอนนี้คำถามของฉันมาถึง:
- นั่นเป็นวิธีเดียวเหรอ? ฉันต้องการจะบอก GitLab ว่าไฟล์ของเราถูกเก็บไว้ที่อื่น และ git repo ชี้ให้เห็นว่า "ที่อื่น" เป็นเซิร์ฟเวอร์เก็บข้อมูลของเราหรือไม่
- ถ้าฉันต้องปรับใช้ GitLab's CE การบำรุงรักษาเซิร์ฟเวอร์นั้นยากแค่ไหน สถานการณ์ในอุดมคติของฉันคือไม่ต้องบำรุงรักษาเลย เช่น ตั้งค่าครั้งเดียวและตราบใดที่ไม่มีใครอัปเดต OS ก็จะไม่พัง (ดูความคิดเห็นด้านล่าง)
- ในกรณีที่ข้อมูลเสียหาย ข้อมูลจะถูกจัดเก็บในลักษณะที่ผู้อื่นสามารถเรียกค้นได้ง่ายหรือไม่ กล่าวคือ ข้อมูลจะไม่ถูกบีบอัดเป็น binary blob ซึ่งคุณต้องการให้เซิร์ฟเวอร์เรียกใช้เพื่อดึงข้อมูล ตามหลักการแล้ว ฉันควรจะสามารถอ่านข้อมูลจากภายในเซิร์ฟเวอร์ที่มีบริการทำงานอยู่ได้ เนื่องจากเราอาจทำการวิเคราะห์ข้อมูลภายในคอมพิวเตอร์เครื่องนี้
ความคิดเห็นเกี่ยวกับจุดที่ 2: ฉันรู้ว่าการไม่ทำการอัปเดตตามปกติอาจทำให้ช่องโหว่ด้านความปลอดภัย อย่างไรก็ตาม ข้อมูลที่จัดเก็บไม่มีข้อมูลที่ละเอียดอ่อน เราไม่จัดการกับข้อมูลส่วนบุคคลและการรั่วไหลหรือการสูญหายของข้อมูลจะมีผลเพียงเล็กน้อยเท่านั้น ในทางกลับกัน ฉันเป็น post-doc และอาจต้องออกจากกลุ่มเมื่อใดก็ได้เพื่อรับตำแหน่งถาวร เนื่องจากกลุ่มนี้มุ่งเน้นไปที่การวิจัยทางฟิสิกส์ คนอื่นๆ ที่มาหลังจากฉันออกไปอาจไม่มีทักษะที่จำเป็นในการดูแลเซิร์ฟเวอร์ ดังนั้นจึงจำเป็นต้องมีระบบในการจัดการข้อมูลที่ไม่ต้องการการบำรุงรักษาเพียงเล็กน้อยหรือไม่มีเลย