คำแนะนำสำหรับกรอบการประมวลผลแบบกระจายที่ไม่ได้วิเคราะห์

Kishan M Mohan

30/9/23 04:15

ใครช่วยแนะนำเครื่องมือ เฟรมเวิร์ก หรือบริการเพื่อให้ทำงานด้านล่างได้เร็วขึ้น

ป้อนข้อมูล : ข้อมูลเข้าบริการคือไฟล์ CSV ซึ่งประกอบด้วยตัวระบุและคอลัมน์รูปภาพหลายคอลัมน์ที่มีแถวมากกว่าล้านแถว

วัตถุประสงค์: เพื่อตรวจสอบว่าคอลัมน์รูปภาพของแถวใดตรงกับความละเอียดขั้นต่ำหรือไม่ และสร้างคอลัมน์บูลีนใหม่สำหรับทุกแถวตามผลลัพธ์

จริง - หากรูปภาพในแถวตรงกับความละเอียดขั้นต่ำ

เท็จ - หากไม่มีรูปภาพในแถวที่ตรงกับความละเอียดขั้นต่ำ

การดำเนินการในปัจจุบัน: สคริปต์ Python พร้อมหมีแพนด้าและการประมวลผลหลายตัวที่ทำงานบน VM ขนาดใหญ่ (60 Core CPU) ซึ่งใช้เวลาประมาณ 4 - 5 ชั่วโมง เนื่องจากนี่เป็นงานประจำงวด เราจึงกำหนดเวลาและจัดการด้วย Cloud Workflow และ Celery Backend

หมายเหตุ: เรากำลังต้องการลดค่าใช้จ่ายเนื่องจากเวลาทำงานของเซิร์ฟเวอร์อยู่ที่ประมาณ 4-6 ชั่วโมงต่อวัน ดังนั้น 60 Core CPU 24*7 จึงเป็นการสิ้นเปลืองทรัพยากรจำนวนมาก

สำรวจตัวเลือกแล้ว:

เราได้ตัด Cloud Run ออกเนื่องจากข้อจำกัดของหน่วยความจำ ซีพียู และระยะหมดเวลา
Apache Beam กับ Cloud Dataflow ดูเหมือนว่าจะมีการสนับสนุนน้อยกว่าสำหรับปริมาณงานที่ไม่ใช่การวิเคราะห์ และการใช้งาน Dataframe กับ Apache Beam ก็ยังดูบั๊กอยู่
Spark และ Dataproc ดูเหมือนจะดีสำหรับปริมาณงานด้านการวิเคราะห์ แม้ว่าตัวเลือกแบบไร้เซิร์ฟเวอร์จะเป็นที่ต้องการมาก

ฉันควรมองไปทางไหน

0 + 0

คอมพิวเตอร์กระจาย

ข้อมูลใหญ่

google-cloud-platform

apache-จุดประกาย

Kulap

คำถามนี้เป็นภาษาอื่นๆ:

EN: Suggestion for Non Analytical Distributed Processing Frameworks

TH: คำแนะนำสำหรับกรอบการประมวลผลแบบกระจายที่ไม่ได้วิเคราะห์

RO: Sugestie pentru cadre de procesare distribuită neanalitică

RU: Предложение по неаналитическим платформам распределенной обработки

VI: Đề xuất cho các khung xử lý phân tán phi phân tích

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา