Score:1

DELL R320, Xeon E5-2450 v1, Oracle Linux 8 ทำเครื่องหมาย clocksource 'tsc' ว่าไม่เสถียร หยุดทำงานแบบสุ่มภายใต้การโหลด

ธง cn

ฉันเพิ่งได้มาใช้ เดลล์ R320 กับ ซีออน E5-2450 v1เฟิร์มแวร์ทั้งหมดได้รับการอัปเดตเป็นเวอร์ชันล่าสุดโดยใช้ ตัวควบคุมวงจรชีวิต. ในรายงาน dmesg สำหรับบูต:

ไมโครโค้ด: ไมโครโค้ดอัปเดตตั้งแต่เนิ่นๆ จนถึงการแก้ไข 0x71a วันที่ = 2020-03-24 [ 12.384040] แหล่งที่มาของสัญญาณนาฬิกา: การเฝ้าดูการจับเวลาบน CPU9: การทำเครื่องหมายแหล่งที่มาของสัญญาณนาฬิกา 'tsc' ว่าไม่เสถียรเนื่องจากการเอียงนั้นใหญ่เกินไป: [  
12.395572] clocksource: 'hpet' wd_now: 3b1bb82 wd_last: 2e247ff mask: ffffffff [ 12.413476] clocksource: 'tsc' cs_now: 1c62267fd4b cs_last: 1c30b8dcf7f mask: ffffffffffffffff [ 12.425567 เครื่องหมาย TSC ชี้ไปที่ clocking
12.431666] TSC พบว่าไม่เสถียรหลังจากบู๊ต ส่วนใหญ่น่าจะเกิดจาก BIOS ที่เสีย ใช้ 'tsc=ไม่เสถียร'

แล้วถ้าฉันวิ่ง phoronix-test-suite stress-run stress-ng ระบบหลังจากประมาณ หนึ่งนาทีกลายเป็นไม่ตอบสนอง

ระหว่างการทดสอบ ฉันเห็นเหตุการณ์ watchdog จากอะแดปเตอร์เครือข่าย:

[ 705.412997] NETDEV WATCHDOG: eno1 (tg3): ส่งคิว 0 หมดเวลา
[705.412997] คำเตือน: CPU: 9 PID: 6812 ที่ net/sched/sch_generic.c:473 dev_watchdog+0x27d/0x281
[  705.412997] Modules linked in: xt_CHECKSUM ipt_REJECT nf_nat_tftp nft_objref nf_conntrack_tftp nft_fib_inet nft_fib_ipv4 nft_fib_ipv6 nft_fib nft_reject_inet nf_reject_ipv4 nf_reject_ipv6 nft_reject nft_ct nf_tables_set tun rfkill scsi_transport_iscsi ip_set xt_conntrack xt_multiport xt_nat xt_addrtype xt_mark xt_MASQUERADE nft_counter xt_comment nft_compat nft_chain_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 veth sunrpc iTCO_wdt intel_rapl_msr iTCO_vendor_support dcdbas intel_rapl_common sb_edac x86_pkg_temp_thermal intel_powerclamp coretemp kvm_intel vfat fat kvm irqbypass crct10dif_pclmul crc32_pclmul mgag200 ghash_clmulni_intel drm_vram_helper aesni_intel ttm crypto_simd cryptd glue_helper drm_kms_helper pcspkr drm syscopyarea sysfillrect sysimgblt fb_sys_fops lpc_ich i2c_algo_bit zfs(POE) joydev zunicode(POE) zzstd(OE) zlua(OE) mei_me zavl(POE) mei icp( POE) zcommon(POE) znvpair(POE) ipmi_ssif spl(OE) ioatdma dca ipmi_si ipmi_devintf ipmi_msghandler acpi_power_meter
[705.412997] sch_fq_codel ip_tables xfs libcrc32c sd_mod sg ahci libahci libata mpt3sas tg3 Raid_class scsi_transport_sas ฟิวส์ wmi
[ 705.412997] CPU: 9 PID: 6812 Comm: stress-ng Kdump: โหลดแล้ว เสีย: P OE 5.4.17-2136.300.7.el8uek.x86_64 #2
[ 705.412997] ชื่อฮาร์ดแวร์: Dell Inc. PowerEdge R320/0KM5PX, BIOS 2.4.2 29/01/2015
[ 705.412997 ] RIP: 0010:dev_watchdog+0x27d/0x281
[ 705.412997] รหัส: 48 85 c0 75 e6 eb a0 4c 89 e7 c6 05 9b 59 17 01 01 e8 c7 a9 fa ff 89 d9 4c 89 e6 48 c7 c7 68 3b 53 ac 48 89 c2 e8 เป็น f1 82 ff <0f> 0b eb 82 0f 1f 44 00 00 66 2e 0f 1f 84 00 00 00 00 00 66 66 66
[ 705.412997] RSP: 0000:ffffac6d003d0e50 EFLAGS: 00010282
[ 705.412997] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000006
[705.412997] RDX: 0000000000000007 RSI: 0000000000000092 RDI: ffff9e853f457d00
[705.412997] RBP: ffffac6d003d0e80 R08: 0000000000000514 R09: 00000000ffffffff
[705.412997] R10: 0000000000000000 R11: ffff9e851d84f3d0 R12: ffff9e850d8e4000
[705.412997] R13: 0000000000000005 R14: ffff9e850d8e4480 R15: ffff9e8537d377c0
[ 705.412997] FS: 00007fa4baba5740(0000) GS:ffff9e853f440000(0000) knlGS:0000000000000000
[ 705.412997] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[705.412997] CR2: 00007f54983fad0c CR3: 0000000b99992006 CR4: 00000000000606e0
[ 705.412997] การติดตามการโทร:
[705.412997] <IRQ>
[ 705.412997] ? pfifo_fast_enqueue+0x160/0x151
[ 705.412997] call_timer_fn+0x32/0x12c
[ 705.412997] run_timer_softirq+0x1a5/0x42e
[ 705.412997] __do_softirq+0xe1/0x2e7
[ 705.412997] ? hrtimer_interrupt+0x12a/0x222
[ 705.412997] irq_exit+0xf3/0xf8
[ 705.412997] smp_apic_timer_interrupt+0x79/0x130
[ 705.412997] apic_timer_interrupt+0xf/0x14
[ 705.412997] </IRQ>

ถ้าฉันเพิ่ม การบรรเทา = ปิด ไปยังพารามิเตอร์บรรทัดคำสั่งเคอร์เนลเมื่อบู๊ต ฟอโรนิกซ์ ใช้เวลา 4 ถึง 7 นาทีและระบบจะไม่ตอบสนองอีกครั้ง สิ่งเดียวกันนี้เกิดขึ้นกับแขกของ KVM ที่พยายามติดตั้ง เดเบียน 11 5 ครั้ง ติดตั้งค้างระหว่างการติดตั้งแพ็คเกจเริ่มต้นหรือแกะเคอร์เนล

หน้าจอหยุดข้อความ: https://ibb.co/k2Jk4QG

ไม่มีใครมีปัญหาที่คล้ายกัน? ขอบคุณ !

PS: เคอร์เนลปัจจุบัน 5.4.17-2136.300.7.el8uek.x86_64ยังพยายามด้วย 4.18.0-305.19.1.el8_4.x86_64 โดยไม่มีความแตกต่าง

John Greene avatar
cn flag
คุณเพิ่มแพ็คเกจไมโครโค้ดของ Intel ด้วยหรือไม่
valc avatar
cn flag
ใช่ฉันมี ยิ่งกว่านั้น - ฉันได้ตรวจสอบด้วยไมโครโค้ดก่อนหน้านี้ทั้งหมดที่พบใน [ฟอรัม win-raid](https://www.win-raid.com/t5709f47-OFFER-Intel-CPU-Microcode-Archives.html) ตอนนี้ฉันเปลี่ยนมาใช้เดเบียน 11 แล้ว ระบบเสถียรขึ้นเล็กน้อย การทดสอบ phoronix ยังคงทำให้ระบบพังได้ แต่หลังจากผ่านไป 15 นาที... ฉันสั่ง Xeon E5-2470v2 หวังว่ามันจะแก้ปัญหาได้ ฉันจะเพิ่มผลลัพธ์ในภายหลัง
John Greene avatar
cn flag
ฉันเห็นปัญหา spinlock สำหรับระดับตัวกำหนดตารางเวลาในระหว่างสถานะขัดจังหวะ จุดขัดข้องสอดคล้องกันระหว่างความพยายามที่ล้มเหลวแต่ละครั้งหรือไม่
John Greene avatar
cn flag
นอกจากนี้ฉันยังสังเกตเห็น sysvec_acpi ในเอาต์พุตข้อขัดข้องและ Dell BIOS มีอายุประมาณปี 2558 ดังนั้นฉันจะลองลบ ACPI บางส่วนที่บรรทัดเคอร์เนล
valc avatar
cn flag
ขอบคุณสำหรับการตอบกลับ ใช่ จุดผิดพลาดสอดคล้องกันระหว่างการทดสอบ ตาราง ACPI ใดที่คุณแนะนำให้ยกเลิก
John Greene avatar
cn flag
คุณสามารถทำ `dmidecode` สำหรับเวอร์ชัน BIOS ของ mobo และเฟิร์มแวร์ของ Dell mobo เป็นเวอร์ชันล่าสุดได้หรือไม่
John Greene avatar
cn flag
ในอดีต memtest จะเปิดเผย bitflips แปลก ๆ และนั่นคือความคิดของฉันในปัจจุบัน ฉันจะทำสิ่งต่อไปนี้: บูตเครื่อง distro ซีดีที่เก่ากว่าและดูว่าเป็นอย่างไร หากล้มเหลว แสดงว่าเป็นปัญหาด้านฮาร์ดแวร์ ไม่ว่าจะด้วยวิธีใด การเปลี่ยน HW ครั้งแรกจะเป็นการลดหน่วยความจำ DIMM ลดการเติมข้อมูลให้เหลือน้อยที่สุดแล้วลองอีกครั้ง หากล้มเหลวให้เปลี่ยนใหม่จนกว่าจะผ่าน
valc avatar
cn flag
สวัสดี โปรดหา [dmidecode](https://gist.github.com/ValentinChirikov/f5c3d3fc2cee63c240dcddda4cc50d6a#file-gistfile1-txt)
valc avatar
cn flag
ขณะนี้ฉันรอพัสดุที่มี E5-2470v2 แน่นอนฉันจะทำการทดสอบก่อนเปลี่ยน CPU และจะโพสต์ผลลัพธ์ที่นี่ ขอบคุณ !
John Greene avatar
cn flag
ฉันยังคิดว่าคุณควรยกเลิกการเติมข้อมูล MemChips และรับผลการส่งผ่านก่อนที่จะสลับ CPU
valc avatar
cn flag
ในที่สุดฉันก็ได้รับ E5-2470v2 switched CPU - และปัญหาทั้งหมดก็หายไป ไม่ค้าง ไม่มีปัญหากับ TSC phoronix stress-run stress-ng ผ่านโดยไม่มีปัญหา ขอบคุณสำหรับความมุ่งมั่น ฉันกำลังปิดปัญหา
John Greene avatar
cn flag
ยินดีด้วย! คุณเป็นคนที่สองที่มีปัญหา CPU ที่ฉันรู้จักกับ Xeon เสียงเหมือนตัวเก็บประจุแตกภายในซีพียูตาย
valc avatar
cn flag
ขอบคุณ ! ในขั้นต้นกรณีสำหรับการสลับซีพียูคือประสิทธิภาพ แต่ในความเป็นจริงดูเหมือนว่าซีพียูตายได้รับความเสียหายจริงๆ
Score:0
ธง cn

การเปลี่ยน CPU เป็น E5-2470v2 ช่วยแก้ปัญหาได้ ดูเหมือนว่า CPU รุ่นก่อนจะใช้งานไม่ได้

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา