Score:1

CPU ทำงานที่ร้อนขึ้นเมื่อไม่ได้ใช้งานเมื่อใช้พารามิเตอร์การบูตด้วง

ธง pl

ดังนั้นแล็ปท็อปของฉันจึง "หยุดทำงานล้มเหลว" แบบสุ่ม (ระบบไม่ตอบสนองโดยสิ้นเชิง เมาส์ค้าง นาฬิกาไม่เดินไปข้างหน้า คำสั่งแป้นพิมพ์ไม่มีผลกระทบใด ๆ และวิธีเดียวที่จะออกจากมันได้คือการรีบูตเครื่องอย่างหนักโดยใช้ปุ่มเปิด/ปิดเครื่อง) จาก ทุกไม่กี่นาทีถึงหลายชั่วโมงของการใช้คอมพิวเตอร์ของฉัน

โดยธรรมชาติแล้ว ฉันตรวจสอบปัญหาและพยายามหาทางแก้ไขหลังจากดูที่บันทึกของเคอร์เนล ฉันเห็นว่าเหตุการณ์ที่บันทึกล่าสุดก่อนการแช่แข็งคือ "ข้อผิดพลาดของฮาร์ดแวร์" หลายรายการ:

เคอร์เนล: mce: [ข้อผิดพลาดของฮาร์ดแวร์]: บันทึกเหตุการณ์การตรวจสอบเครื่อง

ดังนั้นฉันจึงค้นหาและพยายามหาวิธีแก้ไข และฉันก็พบ นี้ โพสต์. ซึ่งโดยทั่วไปจะบอกให้ฉันเพิ่มพารามิเตอร์การบู๊ตสองสามตัว และมันช่วยแก้ปัญหาได้ ฉันไม่ได้มีการบันทึกข้อผิดพลาดของฮาร์ดแวร์หรือการค้างแบบสุ่มอีกเลยตั้งแต่นั้นเป็นต้นมา นี่คือพารามิเตอร์การบู๊ต:

noapic pci=assign-busses apicmaintimer idle=โพลรีบูต=เย็น ยาก

แต่ปัญหาคือตอนนี้แล็ปท็อปของฉันไม่ทำงานที่อุณหภูมิสูงขึ้นเมื่อใช้พารามิเตอร์การบู๊ตเหล่านี้ ประมาณ 70 องศาเซลเซียส แทนที่จะเป็น 35-40 เห็นได้ชัดว่าฉันได้ตรวจสอบ System Monitor เพื่อดูว่ามีสิ่งใดที่ทำให้ CPU ใช้งาน แต่ก็ไม่มีอะไรเกิดขึ้น มันใช้ที่ใดก็ได้ระหว่าง 0 ถึง 3% ของการใช้งาน CPU ในทั้ง 4 เธรด ไม่มีอะไรผิดปกติ

และฉันรู้ว่าพารามิเตอร์การบู๊ตทำให้เกิดปัญหานี้ เพราะฉันได้ลองถอดมันออกแล้ว และหลังจากรีบูต พัดลมไม่หมุนดังและเดินเบาในอุณหภูมิปกติ แต่ข้อผิดพลาดของฮาร์ดแวร์กลับมาและการหยุดทำงานแบบสุ่มก็เช่นกัน

ฉันค่อนข้างเป็นมือใหม่ในเรื่อง Linux ดังนั้นฉันจึงไม่รู้ว่าพารามิเตอร์การบู๊ตเหล่านี้ทำอะไร ใครมีประสบการณ์ช่วยบอกฉันทีว่ามันกำลังทำอะไรอยู่ และทำไมพวกเขาถึงทำให้ CPU ของฉันร้อนขึ้นมาก

แก้ไข #1

ต้องขอบคุณความช่วยเหลือของ matigo และ Doug ฉันจึงได้รับแจ้งว่า ไม่ได้ใช้งาน = แบบสำรวจ พารามิเตอร์กำลังปิดใช้งานระบบที่ไม่ได้ใช้งานสำหรับ CPU ซึ่งเห็นได้ชัดว่าทำให้ CPU ร้อนขึ้นและสร้างความร้อนเหลือทิ้งมากขึ้น

เมื่อลบพารามิเตอร์การบู๊ตนั้น ข้อผิดพลาดของฮาร์ดแวร์จะกลับมา

ดังนั้นการค้างและข้อผิดพลาดของฮาร์ดแวร์ของฉันดูเหมือนจะเกี่ยวข้องกับวิธีที่ CPU สลับระหว่างสถานะไม่ได้ใช้งาน

CPU ของฉันคือ อินเทล คอร์ i7-7500U

นี่คือผลลัพธ์จากการวิ่ง เกรป /sys/devices/system/cpu/cpu0/cpuidle/state*/name:

/sys/devices/system/cpu/cpu0/cpuidle/state0/name:POLL
/sys/devices/system/cpu/cpu0/cpuidle/state1/name:C1
/sys/devices/system/cpu/cpu0/cpuidle/state2/name:C1E
/sys/devices/system/cpu/cpu0/cpuidle/state3/name:C3
/sys/devices/system/cpu/cpu0/cpuidle/state4/name:C6
/sys/devices/system/cpu/cpu0/cpuidle/state5/name:C7s
/sys/devices/system/cpu/cpu0/cpuidle/state6/name:C8
/sys/devices/system/cpu/cpu0/cpuidle/state7/name:C9
/sys/devices/system/cpu/cpu0/cpuidle/state8/name:C10

โดยพื้นฐานแล้ว สิ่งที่ฉันต้องการความช่วยเหลือคือสิ่งนี้ เพื่อกำจัดข้อผิดพลาดของฮาร์ดแวร์และการหยุดทำงานโดยไม่ปิดระบบ CPU ที่ไม่ได้ใช้งานโดยสมบูรณ์ หากเป็นไปได้

in flag
คุณใช้ Ubuntu เวอร์ชันใด ฉันมีปัญหาที่คล้ายกันกับ Lenovo W541 กับ 16.04 และ 18.04 การอัปเกรดเป็น 20.04 ทำให้อุณหภูมิขณะเดินเครื่องลดลง 30 องศา และปรับปรุงอุณหภูมิของ SSD ด้วยเช่นกัน
B.Tibell avatar
pl flag
@matigo ฉันใช้ Zorin OS 16 บน Ubuntu 20.04.3 และฉันมี HP 17x115dxฉันได้ลองใช้ distros ที่ใช้ Ubuntu หลายตัวแล้ว แต่ฉันมีปัญหาการค้างนี้กับพวกเขาทั้งหมด รวมถึง Ubuntu, Lubuntu, Zorin OS, Linux Mint และ Pop OS
in flag
Zorin นั้นนอกเรื่องไปมาก แต่ตัวเลือกการบู๊ตเหล่านั้นกำลังทำลายความสามารถของระบบในการจัดการการใช้พลังงานที่ไม่ได้ใช้งาน คุณอาจต้องการ [อ่านสิ่งนี้](https://www.kernel.org/doc/html/v5.0/admin-guide/pm/cpuidle.html) และตัดสินใจว่าพารามิเตอร์การบู๊ตนั้นคุ้มค่าหรือไม่ ...
B.Tibell avatar
pl flag
โอเค.. ขอบคุณ มีความคิดว่าอะไรที่อาจทำให้เกิดข้อผิดพลาดของฮาร์ดแวร์ และเหตุใดพารามิเตอร์การบู๊ตเหล่านี้จึงช่วยหยุดการทำงานเหล่านี้
Doug Smythies avatar
gn flag
โปรดแก้ไขคำถามของคุณและเพิ่มชื่อสถานะว่างของคุณ ทำ `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/name` เพิ่มยี่ห้อและรุ่นของโปรเซสเซอร์ด้วย
Score:0
ธง gn

พารามิเตอร์การบูต ไม่ได้ใช้งาน = แบบสำรวจ โดยทั่วไปจะปิดใช้งานระบบที่ไม่ได้ใช้งาน ทำให้ไม่ได้ใช้งานเป็นรอบการหมุนที่ไม่มีการดำเนินการ ใช่แล้ว คุณจะคาดหวังความร้อนที่สูญเสียไปมากกว่านี้ เพราะ CPU ไม่เคยเข้าสู่โหมดสลีป

นี่คือตัวอย่างจากเซิร์ฟเวอร์ทดสอบของฉันโดยใช้ turbostat:

doug@s19:~$ sudo turbostat --Summary --quiet --show Busy%,Bzy_MHz,IRQ,PkgWatt,PkgTmp,RAMWatt,GFXWatt,CorWatt --interval 15
ไม่ว่าง% Bzy_MHz IRQ PkgTmp PkgWatt CorWatt GFXWatt RAMWatt
0.01 938 558 36 1.34 0.68 0.00 0.89
0.02 800 455 36 1.33 0.67 0.00 0.89 <<< เปิดใช้งานสถานะว่างทั้งหมด
60.14 4799 109298 47 29.48 28.82 0.00 0.89 <<< ตัวอย่างการเปลี่ยนแปลง
99.76 4800 180297 47 47.24 46.59 0.00 0.89 <<< สถานะไม่ได้ใช้งานทั้งหมดถูกปิดใช้งาน ยกเว้นแบบสำรวจ
99.76 4800 180311 49 47.65 46.99 0.00 0.89
99.76 4800 180305 49 47.82 47.17 0.00 0.89

หมายเหตุ: ไดรเวอร์การปรับความถี่ของ CPU intel_pstate "เห็น" CPU ว่าไม่ว่าง แต่ top ไม่:

บน - 19:23:43 ขึ้น 7:14, 3 ผู้ใช้, โหลดเฉลี่ย: 0.00, 0.00, 0.00
งาน: ทั้งหมด 214, 1 วิ่ง, 213 นอน, 0 หยุด, 0 ซอมบี้
%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu4 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu5 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu6 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu7 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu8 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu9 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu10 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu11 : 0.0 us, 0.0 sy, 0.0 ni,100.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
MiB Mem : รวม 31936.7, 31137.0 ฟรี, 312.3 ใช้, 487.5 บัฟ/แคช
MiB Swap: รวม 2048.0, ฟรี 2048.0, ใช้ไป 0.0 31227.9 ประโยชน์ Mem
B.Tibell avatar
pl flag
หลังจากลบพารามิเตอร์ `idle=poll` ข้อผิดพลาดของฮาร์ดแวร์จะกลับมาและน่าจะเป็นการค้างแบบสุ่ม ข้อผิดพลาดของฮาร์ดแวร์เหล่านี้หมายความว่าอย่างไร และมีวิธีอื่นอีกไหมที่ฉันจะกำจัดพวกมันโดยไม่ต้องปิดระบบที่ไม่ได้ใช้งาน
Doug Smythies avatar
gn flag
คุณมีสถานะว่างกี่สถานะ ทำ `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/disable` จากนั้นเริ่มปิดการใช้งานทีละรายการเพื่อดูว่า MCE หายไปหรือไม่ Do (บอกว่าลึกที่สุดคือ 7) `echo 1 | sudo ที /sys/อุปกรณ์/ระบบ/cpu/cpu*/cpuidle/state7/disable' ความหมายที่แท้จริงของ MCEs อาจเป็นเรื่องยากที่จะระบุ ยี่ห้อและรุ่นของ CPU คืออะไร?
B.Tibell avatar
pl flag
ฉันมีสถานะว่าง 8 สถานะ ซีพียูเป็น Intel Core i7-7500U
Doug Smythies avatar
gn flag
ฉันจะลอง: ปิดใช้งานสถานะว่าง 2; หากไม่ได้ผล ให้ปิดใช้งานพารามิเตอร์การบูต HWP (intel_pstate=no_hwp)
B.Tibell avatar
pl flag
ลองทั้งสองอย่างและข้อผิดพลาดยังคงปรากฏขึ้น ฉันสังเกตเห็นว่าข้อผิดพลาดมักจะปรากฏขึ้นหลังจากที่ฉันหยุดงานที่ต้องใช้ CPU มาก และนั่นก็สอดคล้องกับเวลาที่ฉันค้างเกิดขึ้น เช่น ทันทีหลังจากออกจากเกม หรืองานที่ต้องใช้ทรัพยากรมากอื่นๆ
B.Tibell avatar
pl flag
ดังนั้นฉันจึงทดสอบว่าการปิดใช้งานสถานะไม่ได้ใช้งานหรือการเพิ่มพารามิเตอร์การบู๊ต (แน่นอนว่าหลังจากรีบูตเครื่อง) ช่วยได้ด้วยการรัน `stress --cpu 4` สักสองสามนาทีแล้วจึงสิ้นสุด แต่หลังจากตรวจสอบไฟล์บันทึก mce Hardware Error ก็ปรากฏขึ้น ทันทีที่ฉันจบการทดสอบความเครียด
Doug Smythies avatar
gn flag
ทดลองปิดใช้งานสถานะไม่ได้ใช้งาน ตัวอย่างเช่นทั้งหมดจากบางระดับและลึกกว่านั้น

โพสต์คำตอบ

คนส่วนใหญ่ไม่เข้าใจว่าการถามคำถามมากมายจะปลดล็อกการเรียนรู้และปรับปรุงความสัมพันธ์ระหว่างบุคคล ตัวอย่างเช่น ในการศึกษาของ Alison แม้ว่าผู้คนจะจำได้อย่างแม่นยำว่ามีคำถามกี่ข้อที่ถูกถามในการสนทนา แต่พวกเขาไม่เข้าใจความเชื่อมโยงระหว่างคำถามและความชอบ จากการศึกษาทั้ง 4 เรื่องที่ผู้เข้าร่วมมีส่วนร่วมในการสนทนาด้วยตนเองหรืออ่านบันทึกการสนทนาของผู้อื่น ผู้คนมักไม่ตระหนักว่าการถามคำถามจะมีอิทธิพลหรือมีอิทธิพลต่อระดับมิตรภาพระหว่างผู้สนทนา