Score:0

การตั้งค่าสถาปัตยกรรมสำหรับวิเคราะห์โฟลว์ของข้อมูลสตรีมเวลาจากหลายแหล่ง

ธง sl

ข้อใดเป็นแนวทางปฏิบัติที่ดีที่สุดในแง่ของ AWS สำหรับสิ่งต่อไปนี้:

  • อุปกรณ์การแพทย์ IOT จำนวนมากรวบรวมข้อมูลที่ประมาณ 256kปล
  • ข้อมูลเป็นข้อมูลอนุกรมเวลา (เมทริกซ์ของ [ช่อง X ตัวอย่าง] อาจมีตัวอย่างนับล้านและช่องหลายสิบช่อง)
  • ข้อมูลจะถูกบันทึกไว้ในไฟล์ใน S3 และแต่ละเซสชันจะถูกบันทึกในฐานข้อมูลด้วยข้อมูลเมตา จนถึงตอนนี้เรากำลังใช้ RDS สำหรับสิ่งนี้
  • ชุดข้อมูลแต่ละชุดมีขนาดประมาณ 5GB
  • เรามีสิทธิ์เข้าถึงชุดข้อมูลและต้องการเรียกใช้โฟลว์การวิเคราะห์:
    • เข้าถึงไฟล์ข้อมูล
    • ขั้นตอนการวิเคราะห์:
      • รันโค้ด (เวอร์ชันที่จัดการ) ที่ยอมรับไฟล์ข้อมูลและสร้างผลลัพธ์ (ไฟล์อื่นหรือ JSON)
      • ลงทะเบียนขั้นตอนการวิเคราะห์ในบางฐานข้อมูล (ซึ่ง?) และลงทะเบียนผลลัพธ์ (หากมีการสร้างไฟล์ ให้ลงทะเบียนตำแหน่งที่ตั้ง)
    • ทำการวิเคราะห์อีก N ขั้นตอนในลักษณะที่คล้ายกัน ขั้นตอนการวิเคราะห์อาจขึ้นอยู่กับแต่ละขั้นตอน แต่ก็สามารถดำเนินการคู่ขนานกันได้
    • ผลลัพธ์ของขั้นตอนที่ N คือผลลัพธ์สุดท้ายของโฟลว์การวิเคราะห์

แนวคิดคือให้วิธีง่ายๆ ในการรันโค้ดบนข้อมูลใน AWS โดยไม่ต้องดาวน์โหลดไฟล์จริง และเก็บบันทึกการวิเคราะห์ที่ดำเนินการกับข้อมูล

มีแนวคิดใดบ้างที่จะใช้บริการและฐานข้อมูลใด จะส่งข้อมูลไปรอบๆ ได้อย่างไร? อะไรคืออินเทอร์เฟซที่ใช้งานง่ายสำหรับนักวิทยาศาสตร์ข้อมูลที่ทำงานกับ Python เป็นต้น

ฉันมีความคิดดังต่อไปนี้:

  • ขั้นตอนการวิเคราะห์เป็นที่เก็บโค้ดที่มีการจัดการใน CodeCommit (สามารถเป็นคอนเทนเนอร์ได้)
  • นักวิทยาศาสตร์ข้อมูลกำหนดโฟลว์ (ในรูปแบบ JSON)
  • เมื่อนักวิทยาศาสตร์ข้อมูลออกคำสั่งให้โฟลว์ของเขาถูกดำเนินการ
  • โฟลว์ถูกลงทะเบียนเป็นรายการในฐานข้อมูล
  • ผู้จัดการโฟลว์กระจายโฟลว์ระหว่างเอเจนต์การดำเนินการ
  • เอเจนต์คือกลไกที่รับโฟลว์ ดึงข้อมูลและคอนเทนเนอร์ และดำเนินการโฟลว์
  • แต่ละเอเจนต์ลงทะเบียนแต่ละขั้นตอนในโฟลว์ลงในฐานข้อมูล

ตัวอย่างขั้นตอนการวิเคราะห์:

  1. การกรอง
  2. การติดฉลากของสิ่งประดิษฐ์ในข้อมูล (การประทับเวลา)
  3. การคำนวณพารามิเตอร์ทางสถิติ
Score:2
ธง cn

ดูเหมือนว่าคุณต้องการใช้ Elastic MapReduce เพื่อทำการวิเคราะห์ ซึ่งเป็นบริการจัดการข้อมูลขนาดใหญ่คุณควรจะสามารถใช้ EMR Notebooks ในการวิเคราะห์ได้ การรับข้อมูลน่าจะดีที่สุดด้วยบางอย่างเช่น Kinesis นอกจากนี้ยังมีบริการ IoT เฉพาะจำนวนมาก แต่บริการเหล่านั้นไม่ใช่ความเชี่ยวชาญของฉัน

นี่เป็นคำถามที่ค่อนข้างกว้างและเปิดกว้าง - คุณกำลังถามว่า 'ฉันจะสร้างแพลตฟอร์มการวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างไร' ซึ่งเป็นคำถามที่ซับซ้อน! ฉันขอแนะนำให้คุณอ่านข้อมูลบริการที่ระบุไว้ด้านบนและดูว่าบริการเหล่านั้นตรงกับความต้องการของคุณหรือไม่ หรือให้บริษัทของคุณติดต่อ AWS เพื่อรับบริการระดับมืออาชีพ ไม่ต้องเสียเงินสักบาท!

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา