酷睿13/14代臺(tái)式機(jī)CPU“縮缸”問題已解決:全面解析+解決方案
過去這幾個(gè)月,Intel酷睿13/14代臺(tái)式機(jī)處理器的“縮缸”事件可謂沸沸揚(yáng)揚(yáng)。借著Intel發(fā)布終極聲明的機(jī)會(huì),我們嘗試對(duì)該事件做個(gè)盤點(diǎn)、總結(jié)和分析。
本文引用地址:http://www.ex-cimer.com/article/202409/463332.htm電子工程專輯雖然并沒有全線追Intel酷睿13/14代臺(tái)式機(jī)處理器所謂的“縮缸”事件,不過此事還是在PC行業(yè)造成了相當(dāng)影響的,也算是此前大半年Intel負(fù)面新聞不斷的佐料之一了。
此事件最早可以追溯到今年上半年。部分用戶和企業(yè)機(jī)構(gòu)反應(yīng),酷睿13/14代處理器存在不穩(wěn)定的情況,可能在高頻點(diǎn)或高負(fù)載下,出現(xiàn)死機(jī)、藍(lán)屏等現(xiàn)象。部分媒體對(duì)“縮缸”的定義是,處理器“體質(zhì)縮水”,表現(xiàn)為CPU需要更高的電壓才能維持穩(wěn)定運(yùn)行。
因?yàn)樽罱麵ntel就此事件發(fā)布了應(yīng)該算是終極聲明和最終解決方法。趁此機(jī)會(huì),本文總結(jié)性質(zhì)地談?wù)勈录耙蚝蠊绻阋睬∏稍谟檬苡绊懙奶幚砥?,那么也能了解該怎么?yīng)對(duì)這波問題;順便聊聊我們對(duì)其中問題的看法。
“縮缸”事件前因后果
受到該事件影響的處理器,主要包括面向臺(tái)式機(jī)的酷睿13/14代i9和i7(也有說i5受影響的,只不過可能i5及更低型號(hào)發(fā)生問題的概率較低)——典型型號(hào)帶K(如酷睿i9-14900K, 酷睿i7-13700KF等),也就是核心數(shù)更多、頻率更高、可承載更高功耗的那一波。
未有筆記本CPU產(chǎn)品受影響的記錄。Intel也在聲明中強(qiáng)調(diào)了,除酷睿13/14代臺(tái)式機(jī)處理器外,沒有發(fā)現(xiàn)其他處理器產(chǎn)品受到該問題的影響。
這個(gè)問題持續(xù)發(fā)酵,可能有兩個(gè)關(guān)鍵點(diǎn):一是前兩個(gè)月,部分13/14代酷睿處理器的游戲玩家,在初次啟動(dòng)某些游戲,進(jìn)行shader編譯時(shí),發(fā)生編譯失敗的情況——這是典型的CPU高負(fù)載場景;另一,則是部分游戲公司及媒體下場研究和談?wù)?3/14代酷睿處理器可能存在的問題。
Intel在此期間給出了多輪回應(yīng),也相繼發(fā)布了一些BIOS更新嘗試解決問題——包括鎖PL2、控制CPU的運(yùn)行電壓、修復(fù)eTVB問題等策略...6月份,Intel提到會(huì)在7月底公布調(diào)查結(jié)果和解決方案。7月末我們也收到了Intel的官方聲明,提及經(jīng)過調(diào)查分析發(fā)現(xiàn),“確定是過高的運(yùn)行電壓導(dǎo)致部分13/14代酷睿處理器出現(xiàn)不穩(wěn)定情況”。
“...過高的運(yùn)行電壓由微代碼算法造成,而該算法向處理器發(fā)送了錯(cuò)誤的電壓請(qǐng)求?!甭暶髦羞€提到Intel會(huì)提供微代碼補(bǔ)丁修復(fù)過高電壓導(dǎo)致的根本問題。
8月份,Intel發(fā)布了針對(duì)酷睿13/14代臺(tái)式機(jī)處理器的0x129微碼更新。這份更新聲明中提到,分析發(fā)現(xiàn)跨多核的Vmin(最小運(yùn)行電壓)因?yàn)樯叩碾妷憾蠓嵘?。升高電壓事件(elevated voltage events)隨時(shí)間累積,就會(huì)致使Vmin提升。所以0x129微碼更新限制了電壓請(qǐng)求,緩解處理器的不穩(wěn)定。
不過當(dāng)時(shí)Intel仍然提到了還在做持續(xù)調(diào)查分析,主要是那些會(huì)發(fā)生Vmin偏移的場景。同期Intel針對(duì)受影響處理器提供了延保服務(wù),后文也會(huì)進(jìn)一步提到。
上面這些應(yīng)該是絕大部分關(guān)注此事件的讀者,對(duì)此的主流認(rèn)知。不過這次發(fā)布的“終極聲明”還是言簡意賅地給出了事件全貌的,下面嘗試仔細(xì)研讀。
終極聲明中導(dǎo)致不穩(wěn)定的“根因”
最近Intel發(fā)布有關(guān)此事件的終極聲明將此問題稱為“Vmin Shift Instability”(最低運(yùn)行電壓偏移),基于上述解釋應(yīng)該就很好理解了:即Vmin偏移所致的處理器及系統(tǒng)不穩(wěn)定——這個(gè)名稱也算得上是一種總結(jié)歸因。
一般我們說Vmin是處理器能夠運(yùn)行在100%穩(wěn)定狀態(tài)的最小電壓?!癡min shift”應(yīng)該是從6月份以來,所有問題的最終呈現(xiàn);當(dāng)然“Instability”不穩(wěn)定,就是用戶感受到的結(jié)果了。
在這份終極聲明中,Intel認(rèn)為,“Vmin Shift Instability”的根本原因是“IA內(nèi)核內(nèi)的時(shí)鐘樹電路”(a clock tree circuit within the IA core),“其在升高的電壓和溫度下容易受到可靠性老化的影響”?!斑@些情況會(huì)導(dǎo)致時(shí)鐘的占空比偏移和系統(tǒng)不穩(wěn)定(duty cycle shift of the clocks and observed system instability)”
所謂的時(shí)鐘樹電路,我們也問了一下Copilot,解釋是系統(tǒng)或硬件設(shè)計(jì)中的時(shí)鐘分布網(wǎng)絡(luò)。而所謂的時(shí)鐘分布網(wǎng)絡(luò)(clock distribution network),本身是數(shù)字電路中的一個(gè)系統(tǒng),提供從中央源到電路各部分的時(shí)鐘信號(hào)。
要打比方的話,可以將clock distribution想象成一棵樹,樹根就是時(shí)鐘源(如晶振),時(shí)鐘信號(hào)通往電路的不同組成部分——這個(gè)路徑也就是樹枝;樹葉就是最終目的地。時(shí)鐘分布的目標(biāo)是確保時(shí)鐘信號(hào)能夠同時(shí)抵達(dá)電路的各部分,最小化延遲和變量。此過程中有好幾個(gè)關(guān)鍵部件合作,確保時(shí)鐘信號(hào)的準(zhǔn)確傳遞。
從Intel的聲明來看,Vmin shift問題就與處理器核心內(nèi)的某時(shí)鐘樹電路有關(guān),該電路在升高的電壓和溫度下,會(huì)發(fā)生可靠性下降。隨后Intel又說,上述情況會(huì)導(dǎo)致“時(shí)鐘的占空比偏移和系統(tǒng)不穩(wěn)定”。這里的“時(shí)鐘的占空比偏移”(duty cycle shift of the clock)咋理解呢?
時(shí)鐘信號(hào)的duty cycle,指的應(yīng)該是時(shí)鐘信號(hào)激活狀態(tài)下的周期。而duty cycle shift也就是該周期的偏移和變化。比如說,如果duty cycle從50%偏移到60%,整體也就影響到了系統(tǒng)的時(shí)序和同步。最終導(dǎo)致了不穩(wěn)定。(理解差不多就是這樣,若Copilot存在模型幻覺或者我們理解有偏差,歡迎各位同學(xué)留言指正...
除了這,還原一下問題全貌
基于對(duì)這份聲明的理解,上述根因應(yīng)當(dāng)是導(dǎo)致Vmin Shift的核心原因。不過實(shí)際上,在過去幾個(gè)月間,基于先后發(fā)布的多個(gè)緩解方案,Intel對(duì)于酷睿13/14代臺(tái)式機(jī)處理器不穩(wěn)定問題有4個(gè)階段的研究和結(jié)果公布。
故此,終極聲明中,Intel也總結(jié)性地回顧了導(dǎo)致Vmin Shift的4個(gè)運(yùn)行場景。前3個(gè)問題,在此之前已經(jīng)修復(fù);而最后一階段,也是Intel在此次聲明中提及、本文前述的“根因”,并著手解決了由此帶來的另一個(gè)問題。下面就針對(duì)這4個(gè)階段或場景,一一談一談。
其一是主板供電設(shè)置“超出Intel建議設(shè)置”——這也是最早Intel在回應(yīng)該問題時(shí)給出的說法。主板廠商的BIOS設(shè)定中,可能出廠就解鎖PL2、自動(dòng)超頻,或者有各種核心性能強(qiáng)化方案,而沒有采用Intel的建議設(shè)置:比如之前測過的華碩主板,普遍自帶“多核心增強(qiáng)”選項(xiàng)。這里面可能就有增壓方案。
不過我們認(rèn)為這也合理,尤其旗艦主板市場競爭,誰都希望自家主板能跑出更好看的成績——在這種情況下,主板廠商都不得不卯足勁兒嘗試榨干處理器的每一點(diǎn)性能余量。且這一點(diǎn)可能也佐證了,部分媒體對(duì)于Intel酷睿13/14代臺(tái)式機(jī)CPU “出廠即灰燼”的說法。即Intel留給主板廠商的可操作余量其實(shí)不及以前那么多。
所以針對(duì)這一場景的緩解措施建議,就是在主板BIOS設(shè)置中采用Intel Default Settings默認(rèn)設(shè)置。
其二,“高溫下,eTVB微代碼算法”仍然允許酷睿13/14代i9臺(tái)式機(jī)處理器運(yùn)行在更高性能狀態(tài)下。eTVB的全稱是“Enhanced Thermal Velocity Boost”。
對(duì)Intel酷睿處理器比較熟悉的讀者應(yīng)該知道,TVB是香港的一家電視臺(tái)...是Intel于2018年引入的一項(xiàng)技術(shù),官方文檔解釋說是當(dāng)散熱和功耗預(yù)算仍有空間的情況下,釋放CPU額外的性能。一般認(rèn)為,TVB是一種官超方案,可基于某些負(fù)載,進(jìn)一步提升睿頻頻率,對(duì)游戲之類的應(yīng)用相當(dāng)有價(jià)值。
Intel此前對(duì)該問題的描述是eTVB可能錯(cuò)誤計(jì)算了頻率限制,讓處理器(高溫下仍)可在高頻狀態(tài)下運(yùn)行。簡單來說,也就是相關(guān)于eTVB的某個(gè)微碼算法出現(xiàn)錯(cuò)誤數(shù)值。6月份,Intel就發(fā)布了0x125微碼更新,解決該問題。
其三,“頻繁和持續(xù)請(qǐng)求高電壓的微代碼SVID算法可能導(dǎo)致最低運(yùn)行電壓偏移”(Microcode SVID algorithm requesting high voltages at a frequency and duration which can cause Vmin shift)...
首先所謂的“微代碼SVID算法”(microcode SVID algorithm)當(dāng)然就是處理器微碼的一部分,對(duì)應(yīng)算法用于管理和請(qǐng)求處理器的電壓,確保針對(duì)不同性能狀態(tài)給出正確的電壓。在基于負(fù)載和運(yùn)行狀態(tài)調(diào)節(jié)電壓的問題上,它對(duì)于維持處理器穩(wěn)定和高效還是比較關(guān)鍵的。
這句話的英文表意,應(yīng)該是指基于某種模式的高電壓請(qǐng)求(不管這里的frequency指的是核心頻率,還是請(qǐng)求高電壓的操作頻率),會(huì)導(dǎo)致Vmin shift。今年8月,Intel在發(fā)現(xiàn)該問題后發(fā)布了微碼0x129更新,“解決了處理器請(qǐng)求更高電壓的問題”。
其四,就是這次終極的微碼0x12B更新,嘗試解決“微代碼和BIOS代碼請(qǐng)求升高的核心電壓可能會(huì)導(dǎo)致最低運(yùn)行電壓偏移,特別是在空閑和/或輕度活動(dòng)期間”,應(yīng)當(dāng)也是伴隨前文提到的“根因”分析,所做的終極更新,“解決處理器在空閑和/或輕度活動(dòng)期間的電壓升高需要”。值得一提的是,0x12B也包含前述0x125與0x129更新。
從聲明來看,現(xiàn)階段Intel“正與合作伙伴共同努力,以推出相關(guān)的BIOS更新”。主板廠商應(yīng)該會(huì)在后續(xù)幾周發(fā)布對(duì)應(yīng)的BIOS更新。
解決方案,及一點(diǎn)想法和建議
另外,Intel也在聲明中提到,實(shí)測微碼補(bǔ)丁并不會(huì)對(duì)處理器性能產(chǎn)生多大程度的影響(performance impact is within run-to-run variation)。所以對(duì)于正在使用酷睿13/14代臺(tái)式機(jī)處理器的用戶而言,當(dāng)前要做的首先就是去主板廠商的官網(wǎng)看看,是否有對(duì)應(yīng)0x12B微碼更新的BIOS版本發(fā)布,并做及時(shí)更新。
但也需要明確,即如果使用的這些受影響的處理器長期處在Vmin shift問題狀態(tài)下,則過高的電壓最終會(huì)讓CPU及早走向老化。長期高溫高壓對(duì)芯片壽命會(huì)產(chǎn)生影響,算是個(gè)常識(shí)。
說具體些,如高壓會(huì)提升金屬互聯(lián)層的電流密度,長期致電遷移問題;還有所謂的Hot Carrier Injection熱載流子注入會(huì)降低晶體管性能;高溫隨時(shí)間持續(xù),導(dǎo)致PMOS晶體管的閾值電壓偏移;以及TDDB電介質(zhì)隨時(shí)間變化擊穿等等...
所以在保修政策方面,Intel也宣布“為受不穩(wěn)定問題影響的英特爾酷睿第13/14代盒裝/散裝臺(tái)式機(jī)處理器延長2年保修期”。已經(jīng)出現(xiàn)不穩(wěn)定問題(典型如碰到游戲shader編譯過程崩潰問題)的用戶,應(yīng)當(dāng)考慮申請(qǐng)售后。
最后談一點(diǎn)我們自己的想法。前兩個(gè)月正值縮缸問題影響最盛之時(shí),我們就猜測,應(yīng)當(dāng)是處理器過高的默認(rèn)電壓致不穩(wěn)定問題發(fā)生。主板廠商則在該問題的基礎(chǔ)上,基于對(duì)極限性能的渴求,又“助推”了一把。所以前期某些僅鎖定最高功率的做法,并不能解決問題。
部分使用undervolting方法來降壓超頻的用戶也反應(yīng),他們并沒有遭遇處理器不穩(wěn)定問題。感覺這也應(yīng)當(dāng)佐證了高溫高壓是關(guān)鍵。
雖然不清楚,這次公布的根因(核心內(nèi)的時(shí)鐘樹電路在升高的電壓和溫度下,發(fā)生時(shí)鐘duty cycle偏移),作為Vmin shift的根本原因,與此前包括eTVB, SVID微碼算法錯(cuò)誤在內(nèi)的問題,具體是什么樣的邏輯關(guān)系(猜測可能是微碼bug導(dǎo)致根因所致的Vmin shift問題進(jìn)一步惡化,放大了問題),但長期跑在高溫高壓狀態(tài),無疑就是不穩(wěn)定的問題關(guān)鍵所在。
這段故事落下帷幕,大概也能表現(xiàn)當(dāng)代芯片設(shè)計(jì)的變量之多、復(fù)雜性提升的現(xiàn)狀。EDA廠商過去這段時(shí)間的理念宣導(dǎo),及他們所說的新市場機(jī)會(huì),看起來還的確是那么回事…
評(píng)論