เรามีเวิร์กสเตชันในกลุ่มของเราที่มีเมนบอร์ด KNPA-U16 และ GPU AMD RX560 ซึ่งใช้งานได้เกือบตลอดเวลา ระบบปฏิบัติการคือ Kubuntu 20.04 และเคอร์เนลเวอร์ชัน 5.8.0-59
ตอนนี้ปัญหาปรากฏขึ้นเมื่อเราไม่ได้ใช้เวิร์กสเตชันเป็นระยะเวลาหนึ่งและพยายามเข้าถึงก่อน มีพฤติกรรมดังนี้
หน้าจอปรากฏขึ้นในช่วงเวลาสั้น ๆ (แตกต่างกันไประหว่าง ~0-10 วินาที) และกว่าจะดับลง อย่างที่บอกว่าเวลาแตกต่างกันไป ครั้งหนึ่งฉันสามารถเข้าสู่ระบบได้ก่อนที่หน้าจอจะมืด ไม่มีความเป็นไปได้อีกต่อไปที่จะปลุกมันขึ้นมาหลังจากเหตุการณ์นั้น สามารถเข้าถึงได้ผ่าน ssh แม้ว่า
Kernel Log แสดงสิ่งต่อไปนี้:
09:27:51 เคอร์เนล PC3: [165861.461855] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 4
09:27:51 เคอร์เนล PC3: [165861.461858] {1}[Hardware Error]: ความรุนแรงของเหตุการณ์: ข้อมูล
09:27:51 เคอร์เนล PC3: [165861.461860] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: ข้อผิดพลาด 0 ประเภท: ร้ายแรง
09:27:51 เคอร์เนล PC3: [165861.461861] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: fru_text: PcieError
09:27:51 เคอร์เนล PC3: [165861.461862] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: section_type: ข้อผิดพลาด PCIe
09:27:51 เคอร์เนล PC3: [165861.461863] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: port_type: 4, พอร์ตรูท
09:27:51 เคอร์เนล PC3: [165861.461864] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: รุ่น: 0.2
09:27:51 เคอร์เนล PC3: [165861.461866] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: คำสั่ง: 0x0407 สถานะ: 0x0010
09:27:51 เคอร์เนล PC3: [165861.461867] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: device_id: 0000:20:03.1
09:27:51 เคอร์เนล PC3: [165861.461868] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: ช่อง: 7
09:27:51 เคอร์เนล PC3: [165861.461868] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: รอง _ บัส: 0x23
09:27:51 เคอร์เนล PC3: [165861.461869] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: vendor_id: 0x1022, device_id: 0x1453
09:27:51 เคอร์เนล PC3: [165861.461870] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: class_code: 060400
09:27:51 เคอร์เนล PC3: [165861.461871] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: สะพาน: สถานะรอง: 0x2000, การควบคุม: 0x001a
09:27:51 เคอร์เนล PC3: [165861.461872] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: aer_uncor_status: 0x00000000, aer_uncor_mask: 0x04500000
09:27:51 เคอร์เนล PC3: [165861.461873] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: aer_uncor_severity: 0x004e2030
09:27:51 เคอร์เนล PC3: [165861.461874] {1}[ข้อผิดพลาดของฮาร์ดแวร์]: ส่วนหัว TLP: 00000000 00000000 00000000 00000000
09:27:51 เคอร์เนล PC3: [165861.461933] pcieport 0000:20:03.1: AER: aer_status: 0x00000000, aer_mask: 0x04500000
09:27:51 เคอร์เนล PC3: [165861.461939] pcieport 0000:20:03.1: AER: aer_layer=Transaction Layer, aer_agent=Receiver ID
09:27:51 เคอร์เนล PC3: [165861.461941] pcieport 0000:20:03.1: AER: aer_uncor_severity: 0x004e2030
09:27:51 เคอร์เนล PC3: [165861.461945] amdgpu 0000:23:00.0: AER: ไม่สามารถกู้คืนได้ (ไม่มีการเรียกกลับที่ตรวจพบข้อผิดพลาด)
09:27:51 เคอร์เนล PC3: [165861.461947] snd_hda_intel 0000:23:00.1: AER: ไม่สามารถกู้คืนได้ (ไม่มีการเรียกกลับที่ตรวจพบข้อผิดพลาด)
09:27:52 เคอร์เนล PC3: [165862.485806] pcieport 0000:20:03.1: AER: ลิงก์รูทพอร์ตถูกรีเซ็ตแล้ว
09:27:52 เคอร์เนล PC3: [165862.485854] pcieport 0000:20:03.1: AER: การกู้คืนอุปกรณ์สำเร็จ
09:28:02 เคอร์เนล PC3: [165866.837702] [drm:amdgpu_dm_commit_planes.constprop.0 [amdgpu]] *ข้อผิดพลาด* การรอรั้วหมดเวลา!
09:28:02 เคอร์เนล PC3: [165872.219438] [drm:amdgpu_job_timedout [amdgpu]] *ข้อผิดพลาด* ริง gfx หมดเวลา, ส่งสัญญาณ seq=841906, ปล่อย seq=841908
09:28:02 เคอร์เนล PC3: [165872.219526] [drm:amdgpu_job_timedout [amdgpu]] *ข้อผิดพลาด* ข้อมูลกระบวนการ: ประมวลผล sddm-greeter pid 88965 เธรด sddm-greet:cs0 pid 88969
09:28:02 เคอร์เนล PC3: [165872.219534] amdgpu 0000:23:00.0: amdgpu: เริ่มการรีเซ็ต GPU!
09:28:02 เคอร์เนล PC3: [165872.219865] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219865] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219870] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219870] ล้มเหลวในการส่งข้อความ 281 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219879] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219879] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219883] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219883] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219887] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219887] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219890] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219890] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219894] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219894] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219897] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219897] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219901] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219901] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219905] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219905] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219909] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219909] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219912] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219912] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219916] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219916] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219919] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219919] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219923] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219923] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219926] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219926] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219930] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219930] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219933] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219933] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219937] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219937] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219940] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219940] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219944] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219944] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219947] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219947] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219951] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219951] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219954] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219954] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219958] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219958] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219961] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219961] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219965] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219965] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219968] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219968] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219972] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219972] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219975] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219975] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219978] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219978] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219981] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219981] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219985] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219985] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219988] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219988] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219992] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219992] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.219995] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.219995] ล้มเหลวในการส่งข้อความ 261 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220169] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220169] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220173] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220173] ล้มเหลวในการส่งข้อความ 306 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220175] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220175] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220179] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220179] ล้มเหลวในการส่งข้อความ 5e ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220183] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220183] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220186] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220186] ล้มเหลวในการส่งข้อความ 145 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220190] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220190] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220195] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220195] ล้มเหลวในการส่งข้อความ 146 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220200] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220200] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220203] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220203] ล้มเหลวในการส่งข้อความ 148 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220207] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220207] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220210] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220210] ล้มเหลวในการส่งข้อความ 145 ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220215] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220215] ข้อความล่าสุดล้มเหลว ret คือ 65535
09:28:02 เคอร์เนล PC3: [165872.220219] amdgpu:
09:28:02 เคอร์เนล PC3: [165872.220219] ล้มเหลวในการส่งข้อความ 146 ret คือ 65535
09:28:22 เคอร์เนล PC3: [165892.248439] [drm:atom_op_jump [amdgpu]] *ข้อผิดพลาด* atombios ติดอยู่ในลูปนานกว่า 20 วินาทีในการยกเลิก
09:28:22 เคอร์เนล PC3: [165892.248505] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios ติดอยู่ที่การดำเนินการ D8DE (len 824, WS 0, PS 0) @ 0xDA5E
09:28:22 เคอร์เนล PC3: [165892.248569] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios ติดอยู่ขณะดำเนินการ D798 (len 326, WS 0, PS 0) @ 0xD888
09:28:22 เคอร์เนล PC3: [165892.248664] [drm:dce110_link_encoder_disable_output [amdgpu]] *ข้อผิดพลาด* dce110_link_encoder_disable_output: ไม่สามารถเรียกใช้ตารางคำสั่ง VBIOS!
เรามีปัญหามานานแล้ว (~ 1 ปี ปรากฏในบันทึกเหตุการณ์ SMBIOS) และลองบางสิ่ง:
- นำกราฟิกการ์ดออกจากสล็อต PCIe แล้วเสียบใหม่อีกครั้ง
- การติดตั้งเคอร์เนลใหม่
- การติดตั้งไดรเวอร์ที่เป็นกรรมสิทธิ์ของ amdgpu
- เราพบการปิดการตั้งค่าสลีปทั้งหมดใน Kubuntu
- ใช้ pcie_aspm=ปิด
- การใช้หน้าจออื่น (พอร์ต DVI / Display)
- การเปลี่ยนแปลงการตั้งค่า BIOS บางอย่างที่เกี่ยวข้องกับ PCIe
อย่างไรก็ตามดูเหมือนว่าเราจะไม่มีอะไรเปลี่ยนแปลงอะไรเลย สิ่งที่ทำให้ปัญหานี้ยากต่อการแก้ไขคือปัญหาจะปรากฏขึ้นก็ต่อเมื่อไม่ได้ใช้พีซีเป็นระยะเวลาหนึ่งเท่านั้น ดังนั้นจึงเป็นเรื่องที่เจ็บปวดมากที่จะทดสอบอะไร
ใครบ้างมีความคิดว่าข้อผิดพลาดอาจเกิดขึ้นหรือที่ใดที่เราสามารถเริ่มค้นหาตามบันทึกได้
อัปเดต เราทดสอบกราฟิกการ์ดในพีซีเครื่องอื่นที่ใช้ Windows และใช้งานได้ดี หลังจากนั้นเราติดตั้ง Win 10 บนพีซีเครื่องเดียวกันและมันก็ใช้งานได้โดยไม่มีปัญหา ดูเหมือนว่าจะเป็นการรวมกันของ GPU + เมนบอร์ด + นีออน KDE ดูเหมือนว่า Linux จะอนุญาตให้มีสถานะการประหยัดพลังงานบางอย่างที่ไม่เข้ากันกับเมนบอร์ด อย่างไรก็ตาม เราได้ค้นหาหลายครั้งและไม่พบตัวเลือกการไฮเบอร์เนตที่เราไม่ได้ปิด