รับชุดที่สั่งซื้อ $S$ ของจำนวนเต็มบวก (เช่น $S=\{503, 503, 520, 551...N\}$) ฉันต้องการเปิดเผยอันดับเปอร์เซ็นไทล์ (เช่น 503 อยู่ในเปอร์เซ็นไทล์ 10 อันดับแรก) สำหรับแต่ละองค์ประกอบของชุดย่อยที่อยู่ติดกันของ $S$ (เช่น. $\{s_i,s_{i+1},... s_k\} \;|\; ฉัน \ge 0, k \lt N$). อย่างไรก็ตาม ฉันไม่ต้องการรั่วไหลข้อมูลที่สามารถใช้อนุมานได้อย่างมีประสิทธิภาพ $N$.
ใช้สูตรคำนวณอันดับเปอร์เซ็นไทล์ของคะแนนที่กำหนดจาก วิกิพีเดีย:
$$P = \frac{\text{# ค่าด้านล่างคะแนน } s - (0.5 \times \text{# ของคะแนนที่มีค่า }s)}{N}$$
เราน่าจะแก้ได้สำหรับ $N$ ด้วยสองเปอร์เซ็นไทล์ $p_1$ และ $p_2$ และจำนวนคะแนนระหว่างกัน $n$ โดยใช้สูตรนี้
$$
N = \frac{n}{p_2-p_1}
$$
เพื่อเป็นการสาธิต ให้ชุดข้อมูลที่สร้างขึ้นแบบสุ่มของ $N$ ของ $10,000$ และค่านิยม
$p_1=0.0751, p_2 = 0.0951 \text{ และ } n=200$
$$N = \frac{200}{0.0951-0.0751}=10,000$$
มีอะไรที่สามารถทำได้เพื่อรักษาความถูกต้องให้มากที่สุดเท่าที่จะเป็นไปได้ในขณะที่ป้องกันการกำหนดที่มีประสิทธิภาพของ $N$ (สิ่งที่ต้องการ ความเป็นส่วนตัวที่แตกต่างกัน)? หากเป็นไปได้ ฉันคิดว่าฉันจะต้องแนะนำการสุ่มบางอย่าง แต่ฉันไม่แน่ใจว่าจะกำหนดได้อย่างไรว่าต้องใช้เท่าไร