ฉันมีไฟล์ข้อความที่มีบรรทัดข้อมูลลำดับโปรตีนและลำดับที่เกี่ยวข้อง
>4YDY_1|โซ่ A, C[auth B]|DARPIN 44C12V5|โครงสร้างสังเคราะห์ (32630)
MRGSHHHHHHGSDLGKKLLEAARAGQDDEVRILMANGADVNALDDSGYTPLHLAAEDGHLEIVEVLLKHGADVNAADRLGDTPLHLAAFVGHLEIVEVLLKAGADVNAVDLAGVTPLHVAAFYGHLEIVEVLLKGADVNAQDKFGKTPADIAADNGHEDIAEVLQKLN
สำหรับโซ่เหล่านี้มีลำดับ
ฉันต้องการเรียกใช้ไฟล์ทุกบรรทัดและเก็บเฉพาะ ID และเชนแรก ลบหมายเลขเอนทิตีซึ่งอยู่หลัง ID (_1) ใส่เครื่องหมายจุลภาคระหว่าง ID และเชน e ลบสิ่งอื่น ๆ ใน เส้น. การดำเนินการนี้ควรทำหนึ่งบรรทัดใช่และหนึ่งไม่ใช่ นอกจากนี้ยังมีบางลำดับ (ตัวอักษรในบรรทัดที่สอง) ซึ่งมีตัวอักษรน้อยกว่า 50 ตัว ฉันต้องการลบทุกลำดับที่มีตัวอักษรน้อยกว่า 50 ตัวพร้อมกับ ID ซึ่งเป็นบรรทัดด้านบน
เพื่อให้ชัดเจน นี่คือผลลัพธ์ที่ฉันกำลังมองหาสำหรับทุกลำดับในไฟล์:
>4YDY:อ
MRGSHHHHHHGSDLGKKLLEAARAGQDDEVRILMANGADVNALDDSGYTPLHLAAEDGHLEIVEVLLKHGADVNAADRLGDTPLHLAAFVGHLEIVEVLLKAGADVNAVDLAGVTPLHVAAFYGHLEIVEVLLKGADVNAQDKFGKTPADIAADNGHEDIAEVLQKLN
ขอบคุณล่วงหน้า.