Score:1

เว็บไซต์บล็อกคำขอของฉันจากเซิร์ฟเวอร์ linux ubuntu

ธง us

ฉันเป็นวิศวกร Java ที่ไม่มีประสบการณ์ dev opsเมื่อเร็ว ๆ นี้ฉันเล่นกับเซิร์ฟเวอร์ linux ubuntu เป็นครั้งแรกและใช้นักเทียบท่ากับโครงการซีลีเนียมของฉันและประสบปัญหานี้:

ฉันพยายามขูด HTML จากเว็บไซต์ แต่การโทรของฉันถูกบล็อก และฉันได้รับ 403 การตอบกลับที่ต้องห้าม ฉันพยายามขดเว็บไซต์เดียวกันและได้รับการตอบสนองเหมือนกัน

นอกจากนี้ ฉันถูกบล็อกเฉพาะในเครื่อง Linux ทุกอย่างทำงานใน dev โลคัล env ด้วยอิมเมจนักเทียบท่าเดียวกัน ดังนั้นฉันจึงคิดว่า "เซิร์ฟเวอร์มีข้อบกพร่อง"

ความคิดใดที่เซิร์ฟเวอร์ Linux ของฉันขาดหายไปที่นี่ ฉันอาจไม่มีใบรับรองบางประเภทหรือมีปัญหาเกี่ยวกับคอร์ ความคิดใดที่ฉันสามารถลองได้บ้าง (เพื่อการเรียนรู้เท่านั้น)

สายขดที่นี่

in flag
ส่งเว็บเบราว์เซอร์และแอป curl และ Java ผ่านพร็อกซี เช่น mitmproxy และตรวจสอบคำขอ โดยเฉพาะส่วนหัว ฉันแน่ใจว่าจะเห็นความแตกต่างที่ทำให้เว็บเซิร์ฟเวอร์ส่งการตอบกลับที่แตกต่างกัน
cn flag
Bob
ไม่เกี่ยวกับหัวข้อสำหรับ ServerFault การได้รับซีลีเนียมและคำสั่ง curl ให้ทำงานนั้นเป็น StackOverflow มากกว่าแต่เป็นไปได้มากที่สุด: ไซต์พยายามตรวจจับสแครปเปอร์และใช้กลไก เช่น คุกกี้และเซสชันเพื่อระบุผู้ใช้/เบราว์เซอร์แบบโต้ตอบจริง
us flag
@Bob ฉันจะบอกว่ามันเป็น ServerFault เพราะมันใช้งานได้กับเครื่องโลคัลของฉันที่มีอิมเมจนักเทียบท่าเดียวกัน
us flag
@Robert ขอบคุณสำหรับคำแนะนำของคุณ ฉันจะตรวจสอบและอัปเดตคำถามนี้
in flag
ความผิดพลาดของเซิร์ฟเวอร์ไม่ได้อยู่ในหัวข้อสำหรับ ServerFault หากนี่คือเซิร์ฟเวอร์ของคุณที่คุณกำลังพยายามขูด โปรดระบุการกำหนดค่าเซิร์ฟเวอร์และไฟล์บันทึก แล้วเราจะพยายามช่วยเหลือคุณ หากนี่ไม่ใช่เซิร์ฟเวอร์ของคุณ ก็ไม่เกี่ยวกับหัวข้อนี้ และในกรณีนี้ ฉันจะหยุดทำในสิ่งที่คุณกำลังทำอยู่ ตอนนี้คุณเพิ่งได้รับ 403 การแจ้งครั้งต่อไปอาจมาจากทนายความ
us flag
อย่างที่ฉันบอกไป ฉันเป็น noob ในเรื่องนี้และฉันสามารถให้ไฟล์กำหนดค่าใด ๆ ที่คุณคิดว่าสามารถช่วยได้ โดยพื้นฐาน ณ จุดนี้ ฉันไม่รู้ว่าฉันไม่รู้อะไร ไม่รู้ว่าสิ่งนี้อาจผิดกฎหมาย แต่ฉันไม่คิดว่าการโทรเพียงไม่กี่ครั้งในหนึ่งวันอาจนำไปสู่ผลที่ตามมา ฉันไม่มีเซิร์ฟเวอร์ที่ใช้งานอยู่และการโทรสแปม แน่นอน ตอนนี้ฉันระมัดระวังมากขึ้นและจะทำการวิจัยเกี่ยวกับเรื่องนี้ด้วย ฉันอยากจะพูดถึงด้วยว่าจุดประสงค์หลักของฉันคือการเรียนรู้ผ่านการฝึกฝน และฉันไม่มีเป้าหมายอื่นใดนอกจากการทำความเข้าใจว่า "ฉันถูกจดจำและปิดกั้นได้อย่างไร" ขอบคุณ
Score:1
ธง cn

ฉันเชื่อว่าคุณกำลังถูกจำกัดอัตราหรือบล็อกโดยเว็บไซต์ ถ้าฉันเรียกใช้คำสั่ง curl เดียวกันจากแล็ปท็อป ฉันจะได้หน้าเว็บกลับมา

อย่าลืมเคารพ โรบ็อต.txt หากคุณกำลังทำการขูดเว็บ

us flag
ไม่รู้เกี่ยวกับ robots.txt การค้นพบที่ยอดเยี่ยม ขอบคุณ ฉันไม่มีความคิดเกี่ยวกับการจำกัดอัตรา แต่ฉันคิดว่าไม่ใช่เพราะตั้งแต่เริ่มต้นหลังจากการปรับใช้การโทรครั้งแรกถูกบล็อก

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา