Score:0

wget: แก้ไขลิงก์เสียขณะรวบรวมข้อมูลก่อนเข้าชม

ธง in

สถานการณ์:
ฉันต้องการจำลองเว็บไซต์เก่า เว็บไซต์นี้อยู่บน https://example.com/website/. เว็บไซต์ใช้ลิงค์ที่สมบูรณ์เพื่อ http://www.example.com/website/.

ปัญหา:
ไม่ว่าด้วยเหตุผลใด wget ก็ไม่สามารถไปถึงได้ https://www.example.com (โฟลเดอร์ www.) การเชื่อมต่อจะหมดเวลา - ไม่รู้ว่าทำไมมันใช้งานได้ดีในเบราว์เซอร์ (ไม่สามารถขด btw ได้)

การแก้ปัญหาที่เป็นไปได้:

  • ให้ wget เขียนลิงก์ใหม่ก่อนที่จะติดตามในขณะที่ยังรวบรวมข้อมูลอยู่
  • ทำให้ wget ทำงานร่วมกับ www. โฟลเดอร์

เพื่อให้ .www ใช้งานได้ ฉันลองตั้งค่า user-agent เป็น FF แล้ว: --header="Accept: text/html" --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0" แต่นั่นไม่ได้ผล

ดังนั้นฉันจึงต้องเขียนลิงก์ในเว็บไซต์นั้นใหม่ในขณะที่รวบรวมข้อมูล

in flag
ไม่สามารถทำได้ด้วย wget บริสุทธิ์ ค้นหาสาเหตุที่หมดเวลา
us flag
ดังนั้นลิงก์ไปยัง `https:` หรือ `http:` URLs .. คุณกำลังพูดถึงทั้งสองอย่าง
in flag
ฉันไม่รู้ว่าฉันจะรู้ได้อย่างไรว่าทำไม www. ไม่ได้ผล. การดีบัก wget/curl ไม่ได้บอกใบ้ ลิงก์ไปยัง http: แต่นั่นไม่สำคัญจริงๆ เนื่องจาก HSTS บังคับใช้ https: เซิร์ฟเวอร์ทำงานได้ดีกับ https และบน www โฟลเดอร์ ถ้าฉันเรียกใช้คำสั่ง wget เดียวกันจากพีซีที่บ้าน มันจะดาวน์โหลดทุกอย่างตามที่คาดไว้ (ในคำถามของฉัน ฉันเรียกใช้ wget จากเซิร์ฟเวอร์ของฉัน - แต่ก็ไม่ใช่บล็อก IP เพราะสิ่งที่ไม่ใช่ www. ใช้งานได้ (ฉันมักจะรวบรวมข้อมูล `https: //example.com/site/` โดยไม่มีปัญหา))

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา