Score:1

การเลือกสตริงหลายส่วนในหลาม

ธง us

ฉันมีไฟล์บันทึกดังต่อไปนี้:

12-02-2022 15:18:22 +0330 SOCK5.6699 00000 user144 97.251.107.125:38605 1.1.1.1:443 51766 169369 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:27 +0330 SOCK5.6699 00094 user156 32.99.193.2:51242 1.1.1.1:443 715 388 0 เชื่อมต่อ 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40048 1.1.1.1:443 18105 29029 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40070 1.1.1.1:443 674 26805 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:24 +0330 SOCK5.6699 00000 user143 112.199.63.119:60682 1.1.1.1:443 475 445 0 เชื่อมต่อ 1.1.1.1:443
12-02-2022 15:20:37 +0330 SOCK5.6699 00000 user105 191.184.66.98:40102 1.1.1.1:443 12913 18780 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:42 +0330 SOCK5.6699 00000 user143 112.199.63.119:60688 1.1.1.1:443 4530 34717 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:44 +0330 SOCK5.6699 00000 user127 212.167.145.49:2972 1.1.1.1:443 827 267 0 CONNECT 1.1.1.1:443

เป้าหมายของฉันคือการแตกไฟล์บันทึกนี้สองส่วน:

  1. ชื่อผู้ใช้
  2. ที่อยู่ IP ของแหล่งที่มาของผู้ใช้

ด้านล่างนี้คือตัวอย่างบางส่วนของข้อมูลที่จำเป็น

12-02-2022 15:18:22 +0330 SOCK5.6699 00000 ผู้ใช้144 97.251.107.125:38605 1.1.1.1:443 51766 169369 0 เชื่อมต่อ 1.1.1.1:443

ดังนั้นฉันจึงเขียนสคริปต์ Python เพื่อแยกทั้งสองรายการและเก็บไว้ในรายการแยกต่างหาก จากนั้นรวมเข้าด้วยกันด้วยฟังก์ชัน zip

นำเข้า pprint
คอลเลกชันนำเข้า

iplist=[]
สำหรับ l ในข้อมูล:
    ip_port=l[53:71]
    iplist.append(ip_port.split(':')[0])


รายชื่อผู้ใช้=[]
สำหรับคุณในข้อมูล:
    ผู้ใช้ = คุณ [42:52]
    userlist.append(user.replace(" ", ""))

a=list(zip(iplist,รายชื่อผู้ใช้))
most_ip=collections.Counter(a).most_common(5)
pprint.pprint(most_ip)

รหัสนี้ใช้งานได้ดีและฉันสามารถรับ ip ที่ใช้สูงสุดพร้อมชื่อผู้ใช้ที่เกี่ยวข้อง ต้องบอกด้วยว่าฉันไม่ได้ใช้ อีกครั้ง โมดูลเนื่องจากเป็นรายการ IP ที่สอง (IP ปลายทางซึ่งเป็น 1.1.1.1- ซึ่งฉันไม่สนใจ)

คำถาม: มีวิธีอื่น (ที่เรียบร้อยกว่านี้) มากกว่าวิธีที่ฉันเขียนโค้ดหรือไม่

dirkt avatar
in flag
คุณสามารถใช้ "ตัด" (เครื่องมือบรรทัดคำสั่ง)
Zareh Kasparian avatar
us flag
@dirkt นี่เป็นคำสั่งที่ใช้ Linux / unix ฉันพยายามใช้ Python เนื่องจากฉันต้องการใช้สคริปต์กับระบบที่ไม่มี Unix บางระบบเช่นกัน
cn flag
นี่น่าจะเหมาะกว่าสำหรับ StackOverflow เนื่องจากเป็นเรื่องเกี่ยวกับการเขียนโปรแกรม ไม่แน่ใจว่าจะเป็นคำตอบสำหรับปัญหาที่แท้จริงของคุณหรือไม่ แต่มีเครื่องมือมากมายสำหรับแยกวิเคราะห์บันทึก เช่น ยูทิลิตี้ Elastic FileBeats และอื่น ๆ อีกมากมาย คุณยังสามารถดูที่ PyGrok
cn flag
นอกจากนี้ คุณกำลังทำซ้ำ 2 ครั้งผ่านข้อมูลที่ช้า ทำอย่างใดอย่างหนึ่ง แยกแต่ละบรรทัดในช่องว่าง ดึงเขตข้อมูลที่คุณต้องการด้วยดัชนี และเพิ่มลงในพจนานุกรม คุณจะทำได้ในครึ่งเวลา
Zareh Kasparian avatar
us flag
@ shearn89 ขอบคุณ shearn89 คุณพูดถึงประเด็นที่ดี ฉันได้แก้ไขรหัสของฉันแล้ว มันดูเรียบง่ายและชัดเจนขึ้นมากในตอนนี้
Score:1
ธง pm

มีความสามารถมากมายในการเพิ่มประสิทธิภาพโค้ดใหม่ของคุณ สองสิ่งที่ดึงดูดใจฉันมากที่สุด:

อย่าดำเนินการ split() มากกว่าหนึ่งครั้งสำหรับแต่ละบรรทัดของบันทึก เพียงดำเนินการ split() หนึ่งครั้งและเก็บผลลัพธ์ไว้ในตัวแปร เนื่องจากการเรียกใช้ฟังก์ชันนี้แต่ละครั้งต้องใช้เวลาพอสมควร (แม้จะไม่มาก แต่จะเพิ่มค่า ข้อมูลที่คุณประมวลผลมากขึ้น)

s = i.split(' ')
ip=s[6].split(':')[0]
ผู้ใช้=s[5]

ทำไมต้องสร้างสองรายการแล้วซิปเข้าด้วยกันในภายหลัง เพียงเก็บสิ่งอันดับไว้ในรายการโดยตรง:

ล = []
สำหรับฉันในข้อมูล:
   s = i.split(' ')
   ip=s[6].split(':')[0]
   ผู้ใช้=s[5]
   l.append(ทูเพิล((ip, user)))
top_used=collections.Counter(l).most_common(5)
Zareh Kasparian avatar
us flag
ขอบคุณสำหรับรหัสของคุณ การมี tuple ในกรณีนี้เป็นเพียงการเร่งความเร็วของรหัสเท่านั้น
Misc08 avatar
pm flag
@ZarehKasparian แน่นอนว่าการสร้างสิ่งอันดับโดยตรงเป็นการเร่งความเร็วของโค้ด เนื่องจากคุณไม่จำเป็นต้องใช้ฟังก์ชัน zip อีกต่อไป ซึ่งโดยพื้นฐานแล้วเป็นการสร้างสิ่งอันดับจากสองรายการนั้น ดู https://docs.python.org/3/library/ functions.html#zip
Score:1
ธง us

ด้วยคำแนะนำของ "shearn89" ฉันได้แก้ไขรหัสของฉันดังต่อไปนี้:

ง่ายกว่ามากด้วยการวนซ้ำเพียงครั้งเดียว

รายชื่อผู้ใช้=[]
iplist=[]
สำหรับฉันในข้อมูล:
    ip=i.split(' ')[6].split(':')[0]
    ผู้ใช้=i.split(' ')[5]
    iplist.append(ไอพี)
    userlist.append(ผู้ใช้)

top_used=collections.Counter(zip(iplist,userlist)).most_common(5)
pprint.pprint (top_used)

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา