ข้อใดเป็นแนวทางปฏิบัติที่ดีที่สุดในแง่ของ AWS สำหรับสิ่งต่อไปนี้:
- อุปกรณ์การแพทย์ IOT จำนวนมากรวบรวมข้อมูลที่ประมาณ 256kขปล
- ข้อมูลเป็นข้อมูลอนุกรมเวลา (เมทริกซ์ของ [ช่อง X ตัวอย่าง] อาจมีตัวอย่างนับล้านและช่องหลายสิบช่อง)
- ข้อมูลจะถูกบันทึกไว้ในไฟล์ใน S3 และแต่ละเซสชันจะถูกบันทึกในฐานข้อมูลด้วยข้อมูลเมตา จนถึงตอนนี้เรากำลังใช้ RDS สำหรับสิ่งนี้
- ชุดข้อมูลแต่ละชุดมีขนาดประมาณ 5GB
- เรามีสิทธิ์เข้าถึงชุดข้อมูลและต้องการเรียกใช้โฟลว์การวิเคราะห์:
- เข้าถึงไฟล์ข้อมูล
- ขั้นตอนการวิเคราะห์:
- รันโค้ด (เวอร์ชันที่จัดการ) ที่ยอมรับไฟล์ข้อมูลและสร้างผลลัพธ์ (ไฟล์อื่นหรือ JSON)
- ลงทะเบียนขั้นตอนการวิเคราะห์ในบางฐานข้อมูล (ซึ่ง?) และลงทะเบียนผลลัพธ์ (หากมีการสร้างไฟล์ ให้ลงทะเบียนตำแหน่งที่ตั้ง)
- ทำการวิเคราะห์อีก N ขั้นตอนในลักษณะที่คล้ายกัน ขั้นตอนการวิเคราะห์อาจขึ้นอยู่กับแต่ละขั้นตอน แต่ก็สามารถดำเนินการคู่ขนานกันได้
- ผลลัพธ์ของขั้นตอนที่ N คือผลลัพธ์สุดท้ายของโฟลว์การวิเคราะห์
แนวคิดคือให้วิธีง่ายๆ ในการรันโค้ดบนข้อมูลใน AWS โดยไม่ต้องดาวน์โหลดไฟล์จริง และเก็บบันทึกการวิเคราะห์ที่ดำเนินการกับข้อมูล
มีแนวคิดใดบ้างที่จะใช้บริการและฐานข้อมูลใด จะส่งข้อมูลไปรอบๆ ได้อย่างไร?
อะไรคืออินเทอร์เฟซที่ใช้งานง่ายสำหรับนักวิทยาศาสตร์ข้อมูลที่ทำงานกับ Python เป็นต้น
ฉันมีความคิดดังต่อไปนี้:
- ขั้นตอนการวิเคราะห์เป็นที่เก็บโค้ดที่มีการจัดการใน CodeCommit (สามารถเป็นคอนเทนเนอร์ได้)
- นักวิทยาศาสตร์ข้อมูลกำหนดโฟลว์ (ในรูปแบบ JSON)
- เมื่อนักวิทยาศาสตร์ข้อมูลออกคำสั่งให้โฟลว์ของเขาถูกดำเนินการ
- โฟลว์ถูกลงทะเบียนเป็นรายการในฐานข้อมูล
- ผู้จัดการโฟลว์กระจายโฟลว์ระหว่างเอเจนต์การดำเนินการ
- เอเจนต์คือกลไกที่รับโฟลว์ ดึงข้อมูลและคอนเทนเนอร์ และดำเนินการโฟลว์
- แต่ละเอเจนต์ลงทะเบียนแต่ละขั้นตอนในโฟลว์ลงในฐานข้อมูล
ตัวอย่างขั้นตอนการวิเคราะห์:
- การกรอง
- การติดฉลากของสิ่งประดิษฐ์ในข้อมูล (การประทับเวลา)
- การคำนวณพารามิเตอร์ทางสถิติ