ฉันมีข้อมูลตัวอักษรจำนวนมหาศาลที่จัดเก็บไว้ในไฟล์หลายล้านไฟล์บน S3 เป็นเรื่องปกติมากที่ฉันต้องการดำเนินการบางอย่างกับทุกไฟล์เหล่านั้น ซึ่งใช้เฉพาะไฟล์นั้นและสร้างไฟล์ใหม่จากไฟล์นั้น โดยปกติแล้ว ฉันใช้ DataBricks ของบริษัทในการทำสิ่งนี้ แต่มันถูกล็อกไว้มาก ทำให้ยากต่อการปรับใช้โค้ดที่ซับซ้อนที่นั่น
ฉันกำลังพิจารณาใช้ AWS Batch กับอินสแตนซ์ Spot เพื่อเป็นทางเลือกแทน DataBricks สำหรับงานบางอย่างเหล่านี้ ฉันต้องการใช้โหนดหลายโหนดอย่างแน่นอน เนื่องจากโหนดเดียวที่ใหญ่ที่สุดนั้นค่อนข้างไม่สามารถทำงานให้เสร็จภายในกรอบเวลาที่เหมาะสมได้ แน่นอนว่ามีเทคโนโลยีเช่น Apache Spark ที่ออกแบบมาสำหรับการประมวลผลแบบกระจาย แต่ฉัน (ก) ไม่มั่นใจในความสามารถของตัวเองในการตั้งค่าคลัสเตอร์ Spark ของตัวเอง และ (ข) ไม่เชื่อว่า Spark จำเป็นสำหรับระบบง่ายๆ งานคอมพิวเตอร์แบบกระจาย โดยพื้นฐานแล้ว ทั้งหมดที่ฉันต้องการคือให้โหนดสื่อสารว่าไฟล์ใดที่พวกเขากำลังวางแผนจะทำงาน สิ่งที่ทำเสร็จแล้ว และเมื่อปิดการรักษาข้อมูลทั้งหมดนั้นไว้ในฐานข้อมูลคงเป็นเรื่องง่ายหากน่าเบื่อ และฉันไม่จำเป็นต้องแปลข้อมูลทั้งหมดของฉันเป็นระบบไฟล์แบบกระจายอื่น
มีเทคโนโลยีที่ดีสำหรับกรณีการใช้งานประเภทนี้หรือไม่?