Score:0

การสูญเสียความเป็นส่วนตัวเป็นตัวแปรสุ่มหรือไม่?

ธง us

หนังสือ "มาตรฐาน" (Dwork & Roth, 2014) ให้คำจำกัดความของการสูญเสียความเป็นส่วนตัวไว้ดังนี้ (น. 18)

ปริมาณ

$$ \mathcal{L}^{(\xi)}_{\mathcal{M}(x) || \mathcal{M}(y)} = \ln \left( \frac{\Pr[\mathcal{M}(x) = \xi]}{\Pr[\mathcal{M}(y) = \xi]} \ขวา) $$

เป็นสิ่งสำคัญสำหรับเรา เราเรียกมันว่า การสูญเสียความเป็นส่วนตัว เกิดจากการสังเกต $\xi$. [...] เช่นเคย พื้นที่ความน่าจะเป็นอยู่เหนือเหรียญของกลไก $\คณิตศาสตร์แคล{M}$.

มันไม่ได้บอกว่ามันเป็นตัวแปรสุ่ม

จากมุมมองของฉัน มันเป็นเพียงฟังก์ชันที่มีค่าจริง $\mathcal{L}: (\mathcal{M} \times x \times y \times \xi) \to \mathbb{R}$ ขณะที่มันส่งออกบันทึกอัตราส่วนของความน่าจะเป็นสองค่า (ตัวเลขระหว่าง 0 และ 1)

"พื้นที่ความน่าจะเป็นมากกว่าเหรียญ" ค่อนข้างสับสน แต่ฉันเดาว่าที่นี่หมายถึง $\Pr[.]$ ฟังก์ชั่นตั้งแต่ $\คณิตศาสตร์แคล{M}$ คือความหนาแน่นของความน่าจะเป็นหรือการแจกแจงแบบไม่ต่อเนื่อง

อย่างไรก็ตามในหลาย ๆ ที่ที่ฉันได้พบ ตัวแปรสุ่มการสูญเสียความเป็นส่วนตัว, เช่น. ที่นี่:

Abadi, M. , Chu, A. , Goodfellow, I. , McMahan, H. B. , Mironov, I. , Talwar, K. , & Zhang, L. (2016) การเรียนรู้เชิงลึกด้วยความเป็นส่วนตัวที่แตกต่าง การดำเนินการของการประชุม ACM SIGSAC ประจำปี 2559 เรื่องความปลอดภัยของคอมพิวเตอร์และการสื่อสาร 308â318 https://doi.org/10.1145/2976749.2978318

การสูญเสียความเป็นส่วนตัวเป็นตัวแปรสุ่มที่ขึ้นอยู่กับสัญญาณรบกวนที่เพิ่มเข้ามาในอัลกอริทึม [...] เราจะคำนวณช่วงเวลาบันทึกของตัวแปรสุ่มที่สูญเสียความเป็นส่วนตัวแทน ซึ่งเขียนแบบเส้นตรง จากนั้นเราใช้ช่วงเวลาที่ถูกผูกไว้ ร่วมกับอสมการมาร์คอฟมาตรฐาน เพื่อให้ได้ขอบเขตท้าย นั่นคือการสูญเสียความเป็นส่วนตัวในแง่ของความเป็นส่วนตัวที่แตกต่างกัน

หรือที่นี่:

http://www.gautamkamath.com/CS860notes/lec5.pdf

คำจำกัดความ 2. ให้ $Y$ และ $Z$ เป็นสองตัวแปรสุ่ม ตัวแปรสุ่มการสูญเสียความเป็นส่วนตัว $\mathcal{L}_{Y||Z}$ เป็น [...]

คำถามของฉันคือ: หากการสูญเสียความเป็นส่วนตัวเป็นตัวแปรสุ่ม มันต้องมีการแจกแจงความน่าจะเป็นที่สอดคล้องกัน นั่นคือรวมเข้ากับ 1 แต่นี่ดูเหมือนจะไม่ใช่กรณีทั่วไปของบันทึกอัตราส่วนของ PDF สองไฟล์ (Laplace, Gaussian ) หรือการแจกแจงแบบไม่ต่อเนื่อง (กลไกเลขชี้กำลัง ฯลฯ) นอกจากนี้ยังไม่เคยกล่าวถึงเป็นเงื่อนไขสำหรับการสูญเสียความเป็นส่วนตัว

ดังนั้น: ฉันพลาดอะไรไปหรือเป็นเพียงชื่อที่ทำให้เข้าใจผิด (ผิดความหมาย)

kodlu avatar
sa flag
โปรดทราบว่านี่เป็นฟังก์ชันคลาสสิกจากทฤษฎีความน่าจะเป็น ซึ่งย้อนหลังไปถึงต้นศตวรรษที่ 20 เป็นอย่างน้อย ความเป็นไปได้ของบันทึก
Daniel S avatar
ru flag
@kodlu ฉันคิดว่ามันเป็นสิ่งที่ดีและทัวริงที่เป็นคนแรกที่จัดระเบียบและทำให้การใช้ลอการิทึมเป็นทางการ แบบสำรวจของ Good เกี่ยวกับพัฒนาการของสิ่งที่เขาเรียกว่า "น้ำหนักของหลักฐาน" นั้นอ่านได้ดี: https://www.waterboards.ca.gov/water_issues/programs/tmdl/docs/303d_policydocs/207.pdf
John Doe avatar
us flag
ขอบคุณ แต่ฉันไม่เข้าใจว่าทำไมความเป็นไปได้ในการบันทึกจึงเกี่ยวข้องกับการสูญเสียความเป็นส่วนตัวที่นี่... ฉันรู้จากการเรียนรู้ของเครื่องเพื่อรับความน่าจะเป็นของข้อมูลที่กำหนดพารามิเตอร์ของโมเดล (และรับบันทึกหรือลบเพื่อการคำนวณที่ง่ายขึ้น เช่น การย่อขนาดให้เล็กสุด ).
Score:1
ธง ru

เป็นหน้าที่ของการสังเกตของคุณ $\xi$ดังนั้น หากการสังเกตของคุณมาจากการแจกแจงความน่าจะเป็นที่เหมาะสม (เช่น การสังเกตนั้นมีค่าที่เป็นไปไม่ได้สำหรับ $ม(x)$ และ $ม(ย)$ ไม่เกิดขึ้น) มันเป็นตัวแปรสุ่ม โดยปกติเราจะพิจารณากรณีที่การสังเกตนำมาจากการจับคู่การกระจาย $ม(x)$ หรือ $ม(ย)$. โปรดทราบว่าตัวฟังก์ชันเองไม่ได้แสดงถึงการแจกแจงความน่าจะเป็น ดังนั้นจึงไม่จำเป็นต้องรวม/รวมเป็น 1

ตัวอย่างอาจช่วยได้ที่นี่ สมมติว่าฉันมีลูกเต๋าสี่ด้าน 2 ลูก ซึ่งหนึ่งในนั้น (พูดว่า die $x$) สร้าง 1, 2, 3, 4 ด้วยความน่าจะเป็น 1/4, 1/4, 1/6, 1/3 ตามลำดับและอื่นๆ (พูดว่า die $y$) สร้างความน่าจะเป็น 1/4, 1/4, 1/3, 1/6 ตามลำดับ การเอาไป $\xi$ เป็นจำนวนที่ทอยด้วยลูกเต๋าและใช้ลอการิทึมในฐาน 2 นั่นเอง $\mathcal L(\xi)$ รับค่าที่เป็นไปได้สามค่าตาม $\mathcal L(1)=0$, $\mathcal L(2)=0$, $\mathcal L(3)=-1$ และ $\mathcal L(4)=1$.

ถ้ารีดตายก็ตาย $x$ แล้ว $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/6$ และ $\mathbb P(\mathcal L(\xi)=1)=1/3$. เรายืนยันว่าความน่าจะเป็นรวมกันเป็น 1

ในทำนองเดียวกันหากการรีดตายนั้นตาย $y$ แล้ว $\mathbb P(\mathcal L(\xi)=0)=1/2$, $\mathbb P(\mathcal L(\xi)=-1)=1/3$ และ $\mathbb P(\mathcal L(\xi)=1)=1/6$.

โปรดทราบว่าการสูญเสียความเป็นส่วนตัวที่คาดไว้ในกรณีแรกคือ 1/6 และในกรณีที่สองคือ -1/6 ในทั้งสองกรณี เป็นการวัดข้อมูลที่คาดหวัง (เป็นบิต) ที่สนับสนุนความเชื่อที่ว่า $x$ ตายรีดได้ต่อม้วนตาย

John Doe avatar
us flag
ขอบคุณสำหรับตัวอย่าง! มัน *เป็น* ตัวแปรสุ่มแน่นอน! มันแปลงจำนวนจริงเป็นจำนวนจริง (the $\xi$ param) และกระจายตาม $\mathcal{M}(x)$
John Doe avatar
us flag
...ซึ่งตอนนี้ก็สมเหตุสมผลเมื่อต้องคำนวณไดเวอร์เจนซ์ (เช่นในตัวอย่างของคุณ = มันไม่ใช่แค่ไดเวอร์เจนซ์ KL ใช่ไหม)
Daniel S avatar
ru flag
ความคาดหวังของการสูญเสียความเป็นส่วนตัวเมื่อ $\xi$ ถูกสุ่มตัวอย่างจาก $M(x)$ นั้นเป็น KL-divergence แน่นอน ตัวแปรสุ่มมีข้อมูลมากกว่าที่คาดไว้

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา