Score:0

การเปิดเผยเปอร์เซ็นต์ไทล์ของชุดข้อมูลที่สั่งซื้อโดยไม่เปิดเผยขนาด

ธง br
N J

รับชุดที่สั่งซื้อ $S$ ของจำนวนเต็มบวก (เช่น $S=\{503, 503, 520, 551...N\}$) ฉันต้องการเปิดเผยอันดับเปอร์เซ็นไทล์ (เช่น 503 อยู่ในเปอร์เซ็นไทล์ 10 อันดับแรก) สำหรับแต่ละองค์ประกอบของชุดย่อยที่อยู่ติดกันของ $S$ (เช่น. $\{s_i,s_{i+1},... s_k\} \;|\; ฉัน \ge 0, k \lt N$). อย่างไรก็ตาม ฉันไม่ต้องการรั่วไหลข้อมูลที่สามารถใช้อนุมานได้อย่างมีประสิทธิภาพ $N$.

ใช้สูตรคำนวณอันดับเปอร์เซ็นไทล์ของคะแนนที่กำหนดจาก วิกิพีเดีย:

$$P = \frac{\text{# ค่าด้านล่างคะแนน } s - (0.5 \times \text{# ของคะแนนที่มีค่า }s)}{N}$$

เราน่าจะแก้ได้สำหรับ $N$ ด้วยสองเปอร์เซ็นไทล์ $p_1$ และ $p_2$ และจำนวนคะแนนระหว่างกัน $n$ โดยใช้สูตรนี้

$$ N = \frac{n}{p_2-p_1} $$

เพื่อเป็นการสาธิต ให้ชุดข้อมูลที่สร้างขึ้นแบบสุ่มของ $N$ ของ $10,000$ และค่านิยม

$p_1=0.0751, p_2 = 0.0951 \text{ และ } n=200$

$$N = \frac{200}{0.0951-0.0751}=10,000$$

มีอะไรที่สามารถทำได้เพื่อรักษาความถูกต้องให้มากที่สุดเท่าที่จะเป็นไปได้ในขณะที่ป้องกันการกำหนดที่มีประสิทธิภาพของ $N$ (สิ่งที่ต้องการ ความเป็นส่วนตัวที่แตกต่างกัน)? หากเป็นไปได้ ฉันคิดว่าฉันจะต้องแนะนำการสุ่มบางอย่าง แต่ฉันไม่แน่ใจว่าจะกำหนดได้อย่างไรว่าต้องใช้เท่าไร

ph flag
คำอธิบายร้อยแก้วของคุณพูดถึง "X อยู่ในเปอร์เซ็นไทล์ที่ 10 อันดับแรก" ในขณะที่ตัวอย่างของคุณให้คำตอบเป็นทศนิยม 4 ตำแหน่ง คุณต้องการสนับสนุนรุ่นใด
br flag
N J
@ bmm6o ความแม่นยำของจำนวนเต็มนั้นใช้ได้ (เช่น เปอร์เซ็นไทล์ที่ 29)

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา