對於日常需要接觸並維護大量硬件的服務器管理員來說,這裡有個好消息——Linux6.1將能夠在發生SegmentationFault分段錯誤時,報告潛在有問題的CPU插槽/核心。當發現某個CPU/核心經常引發同樣問題的時候,這項新特性就能夠幫你更輕松的排查相關故障。
(截圖 via Kernel.org)
Phoronix 指出:當前正在 TIP 排隊的 x86 / cpu 分支合並窗口,將於 10 月份帶來一項改進。該補丁用於在分段錯誤發生時,記錄下有故障嫌疑的 CPU / 核心。
若經常發現某一顆處理器、或特定內核遇到 Segmentation Fault,打印下的內容將有助於排場插槽或 CPU 核心問題。Rik van Riel 在公告中寫道:
在規模足夠大的計算機群中,壞掉個別 CPU 還是相當常見的。按照設想,我們可通過內核代碼的運行來辨識,以找出在特定系統上不斷重復崩潰的 CPU 內核。
不過多年來,出現問題的 CPU 故障模式,並不是千篇一律的。有時你可能隻會揪出 bash、Python,或在在其它地方運行良好的各種系統守護程序中遇到分段錯誤。有鑒於此,通過將 printk() 添加到 show_signal_msg(),我們便可在遇到 Segmentation Fault 時,打印出有潛在故障的處理器插槽或內核等信息。
盡管這項工作仍不夠完美 —— 因為在故障發生和打印消息之間,任務可能還會在另一個 CPU 上被重新安排 —— 但這項工作已足夠幫助人們定位到哪幾個可能有內核損壞的 CPU 上。
如果一切順利,這個實用補丁將於今年晚些時候正式並入 Linux 6.1 。此外你可將它視作英特爾現場掃描(Intel In-Field Scan)、MCEs、EDAC 報告等解決方案的一個有力補充。