【Linux疑難雜症】kernel … BUG: soft lookup

更新於 發佈於 閱讀時間約 2 分鐘
raw-image

圖片來源...

前景提要

故事是這樣的,小明某一天在Linux系統上進行AI模型訓練時, 原本安心的去睡覺了, 沒想到一早起床想要看成功結果時, 竟然有一條可疑的LOG…。

kernel:[1270601.804083] watchdog: BUG: soft lockup - CPU#8 stuck for 27s! [kcompactd2:411]
raw-image

圖片來源...

這究竟是什麼狀況呢? 雖然只是警告訊息, 但好奇心強烈的小明一直想要得到一個答案, 因此我們就來協助它排除這個問題吧!

CPU軟鎖定(soft lockup)是怎麼發生的?

這是Linux內核的一個保護機制,用於檢測並回報發生了長時間未回應的核心任務或進程。

軟鎖定通常發生在某個任務或進程進入了無限循環或阻塞狀態,導致無法响应其他任務或中斷。當內核檢測到這種情況時,會生成一個錯誤訊息,以警告系統存在問題。

CPU負載時間過長、電壓不穩定、I/O問題…等, 需要逐一排查。

應該怎麼處理呢?

雖然我們可以將watchdog的時間間隔拉大, 就能夠暫時解決問題。

# 預設為10, 這邊我們拉到30
echo 30 > /proc/sys/kernel/watchdog_thresh

但這只是蒙蔽自己不看到問題而已, 最終還是得逐一排查才行, 有可能我們的系統已經在告訴我們有狀況需要注意了, 就如同身體發出警告一樣, 若我們只是屏蔽它, 那麼問題將會積少成多, 最終導致較難以處理的大問題。

以下是幾種可能原因:

  1. 不當的內核模組:某些內核模組可能不穩定或有錯誤,導致系統出現軟鎖定。
  2. 資源競爭:當多個任務或進程競爭訪問共享資源時,可能導致死鎖或軟鎖定。
  3. 低級硬體問題:硬體故障或兼容性問題可能導致軟鎖定。
  4. 運行時間過長的任務:某些任務在執行時耗時過長,可能觸發軟鎖定保護機制。

我們可以向這些方向進行排查。

結語

Linux系統雖然相對門檻較高, 但使用者也都非常樂意分享遇到的狀況以及處理方法,所以基本上都不用害怕這個系統, 而且處理效能相對較佳, 尤其我們開發雲服務的應用程式時就非常需要Linux的技能, 不妨好好的學習一番, 跟上時代的趨勢。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入?

歡迎加入一起練習寫作,賺取知識

avatar-img
119會員
268內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
常常我們收到PDF檔案時, 因為資安較為嚴謹的需求下, 通常牽涉到個人資料的部份都會進行加密保護, 但假如說這個檔案基本上沒有什麼資訊安全的疑慮之下, 多一道鎖好像有點多此一舉, 因此我們可以將這類檔案進行解鎖, 當然方法有很多種, 以Adobe…等工具可以進行這樣的操作, 但都需要額外安裝在我
圖片來源 相信視覺化報表對於資料科學來說是非常重要的一環, 透過圖表來呈現資料的樣態, 過程中分析模型訓練時, 觀察訓練的收斂趨勢是否如我們預期, 視覺化加速我們的判斷時間, 節省找問題的成本。 數據就如同鐵證一般, 當我們常常苦於為什麼訓練出來的A模型這麼差勁,但B模型卻非常好, 這中間發生了
在進入主題之前建議先行閱讀「【程式語言 - Go】來認識Google開發的程式語言…」,初步認識一下Go語言是什麼? 容不容易學習? 才能夠更快的體會此篇章的目的。 當我們在進行軟體開發時,常常會需要有背後的資料庫系統來儲存我們的資料,而資料庫系統也會隨著時代的演進,進行大幅度的更新,那在這樣
Golang(Go)是由Google開發的一種開源的、靜態型別的編程語言,目的在提供一個簡單、高效、安全以及易於擴展的程式語言,特別適用於並發和平行處理,Go語言設計上著重於開發者的生產力,並提供了現代化的語法和豐富的標準庫。 強調簡單易讀,讓我們回歸原始以最簡易的方式來撰寫程式,併發的特性讓日趨
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而操作的過程中相信也會有不少玩家會遇到這樣的狀況,因此將遇到的問題整理並分享解決方法,讓需要的朋友可以參考一下。 問題 Input type (torch.FloatTen
常常我們收到PDF檔案時, 因為資安較為嚴謹的需求下, 通常牽涉到個人資料的部份都會進行加密保護, 但假如說這個檔案基本上沒有什麼資訊安全的疑慮之下, 多一道鎖好像有點多此一舉, 因此我們可以將這類檔案進行解鎖, 當然方法有很多種, 以Adobe…等工具可以進行這樣的操作, 但都需要額外安裝在我
圖片來源 相信視覺化報表對於資料科學來說是非常重要的一環, 透過圖表來呈現資料的樣態, 過程中分析模型訓練時, 觀察訓練的收斂趨勢是否如我們預期, 視覺化加速我們的判斷時間, 節省找問題的成本。 數據就如同鐵證一般, 當我們常常苦於為什麼訓練出來的A模型這麼差勁,但B模型卻非常好, 這中間發生了
在進入主題之前建議先行閱讀「【程式語言 - Go】來認識Google開發的程式語言…」,初步認識一下Go語言是什麼? 容不容易學習? 才能夠更快的體會此篇章的目的。 當我們在進行軟體開發時,常常會需要有背後的資料庫系統來儲存我們的資料,而資料庫系統也會隨著時代的演進,進行大幅度的更新,那在這樣
Golang(Go)是由Google開發的一種開源的、靜態型別的編程語言,目的在提供一個簡單、高效、安全以及易於擴展的程式語言,特別適用於並發和平行處理,Go語言設計上著重於開發者的生產力,並提供了現代化的語法和豐富的標準庫。 強調簡單易讀,讓我們回歸原始以最簡易的方式來撰寫程式,併發的特性讓日趨
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而操作的過程中相信也會有不少玩家會遇到這樣的狀況,因此將遇到的問題整理並分享解決方法,讓需要的朋友可以參考一下。 問題 Input type (torch.FloatTen
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
有類說法:開悟是回到純粹存在的狀態,並不進行任何心智表層的運作。 在這個狀態,就像進入作業系統後台,除了硬體與基本開機程序之外,並不運行任何其它的,包括不進入作業系統/信念系統,也不連結資料庫,也不連網。 這時候,沒有時間、沒有記憶、沒有認知、沒有任何可執行的想法或活動,除了維持基本生命機能必須
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
李天明了解到大型電腦系統,譬如銀行系統,都設有反駭客小組,專門針對系統漏洞進行測試,確保系統的安全性。他認為,公司的ERP系統和其他核心系統也需要這樣一個小組來保障安全,特別是在最近發現了多處漏洞後,這種需求顯得尤為迫切。 李天明決定將這個建議告訴黃瑜。一天上午,他敲響了黃瑜辦公室的門,進
2024.05.10 ~ 05.22 的資安動態
Thumbnail
對於新手來說,使用Fedora可能會有一些困難,比如找不到要延遲系統暫停時間如下圖,那要如何做呢?請繼續看下去。
Thumbnail
今天是呆滯貓守在金庫前面的另一天,負責吸引注意力的三名戰士屏氣凝神,不論何時出發都難以預測呆滯貓會有甚麼行動,一想到可能喪命,落跑戰士(藍色)就想放棄計畫逃命去,看到隊友如此恐懼其餘兩名也不自覺地害怕起來
Thumbnail
最近在看一個問題 是一個regression issue 在roll back的時候 就花了很多時間 真的找到root caus 了 還是花了很多時間在narrow down 看能不能給出真正的solution 其實不難 只是很花時間 真想hire 一個小精靈 可以幫忙處理這
Thumbnail
電腦開機後無畫面?風扇轉停?不用擔心!本文提供瞭解決方法,教你如何自行檢測和解決可能的問題,讓你避免將電腦拿去維修。
由於電腦出問題,所以嶄新的業務暫時恢復紙本作業。陽曜德和工程師們連夜加班,好不容易才將電腦全部重灌完畢。但維修電腦可不是重灌就能解決的事,工程師們還必須從備用伺服器上將資料還原!有些紀錄甚至會被放棄還原——例如兩年前訪客名單。這部份陽曜德就幫不上忙了,他不知道備份伺服器是怎麼運作的,也沒興趣再入侵一
Thumbnail
連續幾天出現晚上難以入睡,早上厭世無法起床的狀態。昨晚跟生命教練線上聚會,過程中有討論,聖誕當天我直接封鎖 A 這件事。 關於「迴避表達,直接封鎖」,其實我也在思考:為何非得如此? 關鍵字:腦波弱、無法堅定立場、原來又是我的錯
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
有類說法:開悟是回到純粹存在的狀態,並不進行任何心智表層的運作。 在這個狀態,就像進入作業系統後台,除了硬體與基本開機程序之外,並不運行任何其它的,包括不進入作業系統/信念系統,也不連結資料庫,也不連網。 這時候,沒有時間、沒有記憶、沒有認知、沒有任何可執行的想法或活動,除了維持基本生命機能必須
Thumbnail
這篇文章記錄了一次特殊的電腦維修案例,客戶電腦出現無法上網和不定時當機後無法開機的問題。文章詳細描述了維修過程和最終的結論......
Thumbnail
李天明了解到大型電腦系統,譬如銀行系統,都設有反駭客小組,專門針對系統漏洞進行測試,確保系統的安全性。他認為,公司的ERP系統和其他核心系統也需要這樣一個小組來保障安全,特別是在最近發現了多處漏洞後,這種需求顯得尤為迫切。 李天明決定將這個建議告訴黃瑜。一天上午,他敲響了黃瑜辦公室的門,進
2024.05.10 ~ 05.22 的資安動態
Thumbnail
對於新手來說,使用Fedora可能會有一些困難,比如找不到要延遲系統暫停時間如下圖,那要如何做呢?請繼續看下去。
Thumbnail
今天是呆滯貓守在金庫前面的另一天,負責吸引注意力的三名戰士屏氣凝神,不論何時出發都難以預測呆滯貓會有甚麼行動,一想到可能喪命,落跑戰士(藍色)就想放棄計畫逃命去,看到隊友如此恐懼其餘兩名也不自覺地害怕起來
Thumbnail
最近在看一個問題 是一個regression issue 在roll back的時候 就花了很多時間 真的找到root caus 了 還是花了很多時間在narrow down 看能不能給出真正的solution 其實不難 只是很花時間 真想hire 一個小精靈 可以幫忙處理這
Thumbnail
電腦開機後無畫面?風扇轉停?不用擔心!本文提供瞭解決方法,教你如何自行檢測和解決可能的問題,讓你避免將電腦拿去維修。
由於電腦出問題,所以嶄新的業務暫時恢復紙本作業。陽曜德和工程師們連夜加班,好不容易才將電腦全部重灌完畢。但維修電腦可不是重灌就能解決的事,工程師們還必須從備用伺服器上將資料還原!有些紀錄甚至會被放棄還原——例如兩年前訪客名單。這部份陽曜德就幫不上忙了,他不知道備份伺服器是怎麼運作的,也沒興趣再入侵一
Thumbnail
連續幾天出現晚上難以入睡,早上厭世無法起床的狀態。昨晚跟生命教練線上聚會,過程中有討論,聖誕當天我直接封鎖 A 這件事。 關於「迴避表達,直接封鎖」,其實我也在思考:為何非得如此? 關鍵字:腦波弱、無法堅定立場、原來又是我的錯