Score:0

เทคโนโลยีที่ดีสำหรับการดำเนินการเป็นชุดขนาดใหญ่ในไฟล์ S3 จำนวนมากใน AWS Batch พร้อมอินสแตนซ์ Spot

ธง lb

ฉันมีข้อมูลตัวอักษรจำนวนมหาศาลที่จัดเก็บไว้ในไฟล์หลายล้านไฟล์บน S3 เป็นเรื่องปกติมากที่ฉันต้องการดำเนินการบางอย่างกับทุกไฟล์เหล่านั้น ซึ่งใช้เฉพาะไฟล์นั้นและสร้างไฟล์ใหม่จากไฟล์นั้น โดยปกติแล้ว ฉันใช้ DataBricks ของบริษัทในการทำสิ่งนี้ แต่มันถูกล็อกไว้มาก ทำให้ยากต่อการปรับใช้โค้ดที่ซับซ้อนที่นั่น

ฉันกำลังพิจารณาใช้ AWS Batch กับอินสแตนซ์ Spot เพื่อเป็นทางเลือกแทน DataBricks สำหรับงานบางอย่างเหล่านี้ ฉันต้องการใช้โหนดหลายโหนดอย่างแน่นอน เนื่องจากโหนดเดียวที่ใหญ่ที่สุดนั้นค่อนข้างไม่สามารถทำงานให้เสร็จภายในกรอบเวลาที่เหมาะสมได้ แน่นอนว่ามีเทคโนโลยีเช่น Apache Spark ที่ออกแบบมาสำหรับการประมวลผลแบบกระจาย แต่ฉัน (ก) ไม่มั่นใจในความสามารถของตัวเองในการตั้งค่าคลัสเตอร์ Spark ของตัวเอง และ (ข) ไม่เชื่อว่า Spark จำเป็นสำหรับระบบง่ายๆ งานคอมพิวเตอร์แบบกระจาย โดยพื้นฐานแล้ว ทั้งหมดที่ฉันต้องการคือให้โหนดสื่อสารว่าไฟล์ใดที่พวกเขากำลังวางแผนจะทำงาน สิ่งที่ทำเสร็จแล้ว และเมื่อปิดการรักษาข้อมูลทั้งหมดนั้นไว้ในฐานข้อมูลคงเป็นเรื่องง่ายหากน่าเบื่อ และฉันไม่จำเป็นต้องแปลข้อมูลทั้งหมดของฉันเป็นระบบไฟล์แบบกระจายอื่น

มีเทคโนโลยีที่ดีสำหรับกรณีการใช้งานประเภทนี้หรือไม่?

Tim avatar
gp flag
Tim
คุณพูดถึง AWS Batch งานวิจัยของคุณบอกอะไรคุณเกี่ยวกับว่ามันเหมาะสมกับกรณีการใช้งานของคุณหรือไม่?
Zorgoth avatar
lb flag
โอ้จุดที่ดี ฉันเพิ่งรู้หลังจากค้นหาว่างานหลายโหนดไม่รองรับอินสแตนซ์ Spot ดูเหมือนว่าฉันจะถูกบังคับให้ส่งงานโหนดเดียวหลายงาน ถ้าฉันจะใช้งาน ซึ่งค่อนข้างน่าสนใจน้อยกว่า

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา