วันนี้ฉันกำลังอ่านเกี่ยวกับบริษัทเทคโนโลยีรายใหญ่ที่วางแผนจะนำระบบใหม่มาใช้เพื่อตรวจหาและรายงาน CSAM ในรูปภาพของผู้ใช้โดยอัตโนมัติ โดยรวมแล้ว ระบบตามที่อธิบายไว้ในข้อมูลสรุปทางเทคนิค 12 หน้าดูเหมือนจะได้รับการออกแบบมาค่อนข้างดี และอาจใกล้เคียงกับที่คุณจะได้รับความเป็นส่วนตัวอย่างแท้จริง ในขณะที่ยังอนุญาตให้มีการสอดแนมเนื้อหาได้
ดังที่ได้กล่าวไปแล้ว แฮ็กเกอร์ในตัวฉันอดไม่ได้ที่จะรู้สึกตื่นตระหนกเล็กน้อยเมื่อได้ยินเกี่ยวกับข้อยกเว้นของสิ่งที่อาจเป็นการเข้ารหัสแบบ end-to-end (ไม่ใช่ว่าที่เก็บข้อมูลรูปภาพของพวกเขาโฆษณาว่าเข้ารหัสแบบ end-to-end เพื่อเริ่มต้น ด้วย อย่างไรก็ตาม ภาพรวมทางเทคนิคระบุว่าภาพถ่ายทั้งหมดเข้ารหัสด้วย aเกณฑ์แตกได้âคีย์ที่สร้างขึ้นแบบสุ่มโดยอุปกรณ์ของผู้ใช้) ดังนั้น ฉันจึงมาที่นี่เพื่อสรุปสิ่งที่ฉันเห็นว่าเป็นการโจมตีที่สมจริงที่สุดในการรับประกันความแข็งแกร่งของการเข้ารหัส/ความเป็นส่วนตัวของระบบนี้ และเพื่อ (หวังว่าจะ) ได้เรียนรู้ว่าทำไมฉันถึงคิดผิดหรือสิ่งที่ฉันมองข้ามไป
สมมติว่าบริษัทนี้เคยประสบกับการละเมิดข้อมูล ซึ่งเป็นสถานการณ์ที่ไม่น่าจะเกิดขึ้นตั้งแต่แรก แต่ไม่เคยเกิดขึ้นมาก่อน ผลจากการละเมิดข้อมูลนี้ รูปภาพของผู้ใช้จำนวนมาก (ในรูปแบบเข้ารหัส) จึงรั่วไหลหากมีการเข้ารหัสแบบ end-to-end จริง สิ่งนี้จะไม่เป็นข้อกังวลด้านความเป็นส่วนตัวที่สำคัญ เนื่องจากภาพถ่ายทั้งหมดจะถูกเข้ารหัสด้วยกุญแจที่รู้จักเฉพาะในอุปกรณ์ของผู้ใช้ปลายทางเท่านั้น และดังนั้นจึงไม่สามารถถอดรหัสได้จริงโดยใครก็ตามบน อินเทอร์เน็ต.
อย่างไรก็ตาม ในระบบใหม่นี้ ฉันเข้าใจว่ารูปถ่ายหรืออย่างน้อยก็ของพวกเขา อนุพันธ์ทางสายตา (ซึ่งฉันไม่สามารถหาคำจำกัดความได้ ฉันกำลังสันนิษฐาน คล้ายกับภาพขนาดย่อ) จะถูกเข้ารหัสสองครั้ง โดยชั้นนอกจะถูกเข้ารหัสด้วยคีย์ที่ได้มาจาก NeuralHash ของภาพถ่าย
NeuralHash ถูกอธิบายว่าเป็นอัลกอริทึมการแฮชที่สามารถให้แฮชเดียวกันสำหรับรูปภาพเดียวกัน แม้ว่ารูปภาพนั้นจะผ่านการครอบตัด ปรับขนาด ปรับแต่งสี บีบอัด ฯลฯ
หากต้องการอ้างอิงส่วนหนึ่งของบทสรุปทางเทคนิค:
จุดประสงค์หลักของแฮชคือเพื่อให้แน่ใจว่ารูปภาพที่เหมือนกันและดูคล้ายกันจะส่งผลให้เกิดแฮชเดียวกัน และรูปภาพที่ต่างกันจะทำให้แฮชต่างกัน ตัวอย่างเช่น รูปภาพที่ได้รับการครอบตัดหรือปรับขนาดเล็กน้อยควรถือว่าเหมือนกับต้นฉบับและมีแฮชเหมือนกัน
วิธีนี้ยอดเยี่ยมในทางทฤษฎี เพราะมันหมายความว่ารูปภาพทั้งหมด (ที่ไม่ซ้ำใคร) ที่ถ่ายโดยผู้ใช้จะถูกเข้ารหัสด้วยความลับที่รัดกุมและไม่ซ้ำใคร ทำให้เป็นส่วนตัวและปลอดภัย
แต่จะเกิดอะไรขึ้นเมื่อผู้ใช้เก็บภาพที่ไม่ซ้ำใคร ตัวอย่างเช่น ภาพหน้าจอจากเว็บไซต์ยอดนิยม มีมที่เผยแพร่ทางอินเทอร์เน็ต เป็นต้น? อะไรจะหยุดผู้โจมตีจากการสร้าง NeuralHash ของมีมยอดนิยม การได้มาซึ่งคีย์ จากนั้นบังคับให้ข้อมูลที่รั่วไหลออกมาอย่างโหดเหี้ยมจนกว่าจะถอดรหัสรายการได้สำเร็จ ด้วยเหตุนี้จึงตรวจสอบเนื้อหาภายในคลังภาพบนคลาวด์ของผู้ใช้รายใดรายหนึ่ง และลดระดับความเป็นส่วนตัวของผู้ใช้
หรืออีกตัวอย่างหนึ่ง สมมติว่าเป็นผู้โจมตี รัก แอปเปิ้ลและต้องการหารูปถ่ายของแอปเปิ้ลจริงๆอะไรจะหยุดพวกเขาไม่ให้ AI สร้างภาพถ่ายสองสามล้านรูปของแอปเปิ้ล แฮชมัน สืบหากุญแจ แล้วบังคับการรั่วไหลขนาดใหญ่อย่างโหดเหี้ยมจนกว่าจะพบผลที่ตรงกัน ไม่สามารถมีได้ นั่น การเรียงสับเปลี่ยนของแอปเปิ้ลหลายๆ ลูก ทำได้หรือเปล่า? แน่นอนว่าคุณจะไม่พบรูปถ่ายของ Apple ทั้งหมด แต่ฉันคิดว่าอย่างน้อยคุณก็จะได้รับ บาง การแข่งขันที่ถอดรหัสได้
บริษัทนี้เปิดเผยในเอกสารฉบับหนึ่งว่ามีโอกาสไม่เป็นศูนย์ที่จะเกิดผลบวกปลอมเมื่อพูดถึงแมตช์ ดังนั้นพวกเขาจึงแนะนำการแชร์เกณฑ์ความลับ (เช่น ต้องมีแมตช์หลายแมตช์กับ " ฐานข้อมูลก่อนที่ระดับการเข้ารหัสภายในจะถูกทำลาย ... เพิ่มเติมในตอนต่อไป) เพื่อลดโอกาสที่จะเกิดผลบวกลวงให้เหลือหนึ่งในล้านล้าน มีโอกาสน้อยกว่า 1 ในล้านล้านที่จะมีการจับคู่ที่ผิดพลาดกับภาพใด ๆ อย่างเห็นได้ชัด เมื่อพิจารณาจากภาพถ่ายที่อยู่ในช่วงที่บังคับไม่ได้ สำหรับผม โดยเฉพาะอย่างยิ่งถ้าคุณรู้อยู่แล้วว่าคุณต้องการภาพถ่ายประเภทใด
ในหมายเหตุสุดท้าย มีชั้นในของการเข้ารหัสเกณฑ์ซึ่งโดยพื้นฐานแล้วต้องการให้ชั้นนอกของภาพถ่ายหลายภาพถูกถอดรหัสก่อนที่จะสามารถสร้างคีย์เพื่อถอดรหัสชั้นในได้ แต่อีกครั้ง ขึ้นอยู่กับขนาดเกณฑ์ (ซึ่งต้องค่อนข้างต่ำ เนื่องจากต้องน้อยกว่าจำนวนจริงของ CSAM ที่บางคนอาจมีได้) ดูเหมือนจะไม่ใช่อุปสรรคใหญ่: คุณแค่ต้องหา ผู้ใช้ที่มี เช่น มีมทั่วไปสิบรายการที่จัดเก็บไว้ในคลังเก็บรูปภาพบนคลาวด์ทั้งหมด และตอนนี้คุณได้สร้างคีย์นั้นแล้ว ตามรายงานระบุว่ามีการใช้คีย์เดียวกัน ทั้งหมด ภาพถ่ายของผู้ใช้สำหรับการเข้ารหัสชั้นแรกนั้น
ในตอนท้ายของวัน ฉันเห็นการรับประกันความปลอดภัยและความเป็นส่วนตัวของระบบนี้ในกรณีที่ข้อมูลรั่วไหลจากสิ่งหนึ่งซึ่งเป็นสิ่งสำคัญ: NeuralHash
หาก NeuralHash มีอัตรา False Positive สูงพอ และสามารถวิศวกรรมย้อนกลับหรือรั่วไหลหรือเปิดเผยต่อสาธารณะได้ (หากยังไม่ได้ดำเนินการ) บริษัทเทคโนโลยีรายใหญ่แห่งนี้จะรับประกันผู้ใช้ได้จริงหรือไม่ว่าภาพถ่ายส่วนตัวของพวกเขาจะยังคงอยู่โดยไม่มีเงื่อนไข ส่วนตัวตราบเท่าที่พวกเขาไม่ใช่ CSAM? การป้องกันการเข้ารหัสใดที่ฉันมองข้ามไป ซึ่งทำให้การโจมตีแบบที่ฉันอธิบายไว้ข้างต้นเป็นไปไม่ได้ ฉันพลาดอะไรไป คุณเห็นข้อบกพร่องอื่น ๆ ที่อาจเกิดขึ้นหรือไม่?
อัปเดต: ฉันไม่แน่ใจว่าการระบุชื่อบริษัทเป็นการเฉพาะนั้นเป็นที่ยอมรับหรือไม่ ดังนั้นฉันจึงตัดสินใจทำผิดพลาดโดยไม่ระมัดระวังและไม่ทำเช่นนั้น ดังที่กล่าวไว้ ฉันเห็นความคิดเห็นสองสามข้อที่ขอแหล่งที่มา ดังนั้น นี่คือ. ฉันหวังว่านี่จะช่วยได้!
การเพิ่มผู้ดูแล (2021-08-19): มีรายละเอียดทางเทคนิคใน Abhishek Bhowmick, Dan Boneh, Steve Myers: ระบบ Apple PSI - โปรโตคอลความปลอดภัยและการวิเคราะห์. เป็นหนึ่งในหลายเอกสารที่ลิงก์อยู่ที่ด้านล่างของ หน้านี้.