ใครช่วยแนะนำเครื่องมือ เฟรมเวิร์ก หรือบริการเพื่อให้ทำงานด้านล่างได้เร็วขึ้น
ป้อนข้อมูล : ข้อมูลเข้าบริการคือไฟล์ CSV ซึ่งประกอบด้วยตัวระบุและคอลัมน์รูปภาพหลายคอลัมน์ที่มีแถวมากกว่าล้านแถว
วัตถุประสงค์: เพื่อตรวจสอบว่าคอลัมน์รูปภาพของแถวใดตรงกับความละเอียดขั้นต่ำหรือไม่ และสร้างคอลัมน์บูลีนใหม่สำหรับทุกแถวตามผลลัพธ์
จริง - หากรูปภาพในแถวตรงกับความละเอียดขั้นต่ำ
เท็จ - หากไม่มีรูปภาพในแถวที่ตรงกับความละเอียดขั้นต่ำ
การดำเนินการในปัจจุบัน: สคริปต์ Python พร้อมหมีแพนด้าและการประมวลผลหลายตัวที่ทำงานบน VM ขนาดใหญ่ (60 Core CPU) ซึ่งใช้เวลาประมาณ 4 - 5 ชั่วโมง เนื่องจากนี่เป็นงานประจำงวด เราจึงกำหนดเวลาและจัดการด้วย Cloud Workflow และ Celery Backend
หมายเหตุ: เรากำลังต้องการลดค่าใช้จ่ายเนื่องจากเวลาทำงานของเซิร์ฟเวอร์อยู่ที่ประมาณ 4-6 ชั่วโมงต่อวัน ดังนั้น 60 Core CPU 24*7 จึงเป็นการสิ้นเปลืองทรัพยากรจำนวนมาก
สำรวจตัวเลือกแล้ว:
- เราได้ตัด Cloud Run ออกเนื่องจากข้อจำกัดของหน่วยความจำ ซีพียู และระยะหมดเวลา
- Apache Beam กับ Cloud Dataflow ดูเหมือนว่าจะมีการสนับสนุนน้อยกว่าสำหรับปริมาณงานที่ไม่ใช่การวิเคราะห์ และการใช้งาน Dataframe กับ Apache Beam ก็ยังดูบั๊กอยู่
- Spark และ Dataproc ดูเหมือนจะดีสำหรับปริมาณงานด้านการวิเคราะห์ แม้ว่าตัวเลือกแบบไร้เซิร์ฟเวอร์จะเป็นที่ต้องการมาก
ฉันควรมองไปทางไหน