เทคโนโลยีที่ดีสำหรับการดำเนินการเป็นชุดขนาดใหญ่ในไฟล์ S3 จำนวนมากใน AWS Batch พร้อมอินสแตนซ์ Spot

Zorgoth

23/9/23 15:44

ฉันมีข้อมูลตัวอักษรจำนวนมหาศาลที่จัดเก็บไว้ในไฟล์หลายล้านไฟล์บน S3 เป็นเรื่องปกติมากที่ฉันต้องการดำเนินการบางอย่างกับทุกไฟล์เหล่านั้น ซึ่งใช้เฉพาะไฟล์นั้นและสร้างไฟล์ใหม่จากไฟล์นั้น โดยปกติแล้ว ฉันใช้ DataBricks ของบริษัทในการทำสิ่งนี้ แต่มันถูกล็อกไว้มาก ทำให้ยากต่อการปรับใช้โค้ดที่ซับซ้อนที่นั่น

ฉันกำลังพิจารณาใช้ AWS Batch กับอินสแตนซ์ Spot เพื่อเป็นทางเลือกแทน DataBricks สำหรับงานบางอย่างเหล่านี้ ฉันต้องการใช้โหนดหลายโหนดอย่างแน่นอน เนื่องจากโหนดเดียวที่ใหญ่ที่สุดนั้นค่อนข้างไม่สามารถทำงานให้เสร็จภายในกรอบเวลาที่เหมาะสมได้ แน่นอนว่ามีเทคโนโลยีเช่น Apache Spark ที่ออกแบบมาสำหรับการประมวลผลแบบกระจาย แต่ฉัน (ก) ไม่มั่นใจในความสามารถของตัวเองในการตั้งค่าคลัสเตอร์ Spark ของตัวเอง และ (ข) ไม่เชื่อว่า Spark จำเป็นสำหรับระบบง่ายๆ งานคอมพิวเตอร์แบบกระจาย โดยพื้นฐานแล้ว ทั้งหมดที่ฉันต้องการคือให้โหนดสื่อสารว่าไฟล์ใดที่พวกเขากำลังวางแผนจะทำงาน สิ่งที่ทำเสร็จแล้ว และเมื่อปิดการรักษาข้อมูลทั้งหมดนั้นไว้ในฐานข้อมูลคงเป็นเรื่องง่ายหากน่าเบื่อ และฉันไม่จำเป็นต้องแปลข้อมูลทั้งหมดของฉันเป็นระบบไฟล์แบบกระจายอื่น

มีเทคโนโลยีที่ดีสำหรับกรณีการใช้งานประเภทนี้หรือไม่?

0 + 0

การประมวลผลแบบแบทช์

อเมซอนเว็บบริการ

คอมพิวเตอร์กระจาย

Tim

23/9/23 19:57

คุณพูดถึง AWS Batch งานวิจัยของคุณบอกอะไรคุณเกี่ยวกับว่ามันเหมาะสมกับกรณีการใช้งานของคุณหรือไม่?

ตอบกลับ

Zorgoth

23/9/23 20:05

โอ้จุดที่ดี ฉันเพิ่งรู้หลังจากค้นหาว่างานหลายโหนดไม่รองรับอินสแตนซ์ Spot ดูเหมือนว่าฉันจะถูกบังคับให้ส่งงานโหนดเดียวหลายงาน ถ้าฉันจะใช้งาน ซึ่งค่อนข้างน่าสนใจน้อยกว่า

ตอบกลับ

Kulap

คำถามนี้เป็นภาษาอื่นๆ:

EN: Good technology for a large-scale batch operation on many S3 files in AWS Batch with Spot instances

TH: เทคโนโลยีที่ดีสำหรับการดำเนินการเป็นชุดขนาดใหญ่ในไฟล์ S3 จำนวนมากใน AWS Batch พร้อมอินสแตนซ์ Spot

RO: Tehnologie bună pentru o operațiune pe lot la scară largă pe multe fișiere S3 în AWS Batch cu instanțe Spot

RU: Хорошая технология для крупномасштабной пакетной обработки множества файлов S3 в AWS Batch with Spot instances.

VI: Công nghệ tốt cho hoạt động hàng loạt quy mô lớn trên nhiều tệp S3 trong AWS Batch với phiên bản Spot

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา