Score:0

คำแนะนำสำหรับกรอบการประมวลผลแบบกระจายที่ไม่ได้วิเคราะห์

ธง us

ใครช่วยแนะนำเครื่องมือ เฟรมเวิร์ก หรือบริการเพื่อให้ทำงานด้านล่างได้เร็วขึ้น

ป้อนข้อมูล : ข้อมูลเข้าบริการคือไฟล์ CSV ซึ่งประกอบด้วยตัวระบุและคอลัมน์รูปภาพหลายคอลัมน์ที่มีแถวมากกว่าล้านแถว

วัตถุประสงค์: เพื่อตรวจสอบว่าคอลัมน์รูปภาพของแถวใดตรงกับความละเอียดขั้นต่ำหรือไม่ และสร้างคอลัมน์บูลีนใหม่สำหรับทุกแถวตามผลลัพธ์

จริง - หากรูปภาพในแถวตรงกับความละเอียดขั้นต่ำ

เท็จ - หากไม่มีรูปภาพในแถวที่ตรงกับความละเอียดขั้นต่ำ

การดำเนินการในปัจจุบัน: สคริปต์ Python พร้อมหมีแพนด้าและการประมวลผลหลายตัวที่ทำงานบน VM ขนาดใหญ่ (60 Core CPU) ซึ่งใช้เวลาประมาณ 4 - 5 ชั่วโมง เนื่องจากนี่เป็นงานประจำงวด เราจึงกำหนดเวลาและจัดการด้วย Cloud Workflow และ Celery Backend

หมายเหตุ: เรากำลังต้องการลดค่าใช้จ่ายเนื่องจากเวลาทำงานของเซิร์ฟเวอร์อยู่ที่ประมาณ 4-6 ชั่วโมงต่อวัน ดังนั้น 60 Core CPU 24*7 จึงเป็นการสิ้นเปลืองทรัพยากรจำนวนมาก

สำรวจตัวเลือกแล้ว:

  1. เราได้ตัด Cloud Run ออกเนื่องจากข้อจำกัดของหน่วยความจำ ซีพียู และระยะหมดเวลา
  2. Apache Beam กับ Cloud Dataflow ดูเหมือนว่าจะมีการสนับสนุนน้อยกว่าสำหรับปริมาณงานที่ไม่ใช่การวิเคราะห์ และการใช้งาน Dataframe กับ Apache Beam ก็ยังดูบั๊กอยู่
  3. Spark และ Dataproc ดูเหมือนจะดีสำหรับปริมาณงานด้านการวิเคราะห์ แม้ว่าตัวเลือกแบบไร้เซิร์ฟเวอร์จะเป็นที่ต้องการมาก

ฉันควรมองไปทางไหน

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา