生物資訊研究的良伴 – Linux

更新 發佈閱讀 7 分鐘

前言

隨著碩士班的開學,
我自然而然地也踏上了生物資訊,整合機器學習之研究的旅途。

然而過程中,我竟然也發現:

在做生物資訊的同儕,除了新手還在用 Windows 之外,
其他專業一點的人們,幾乎都用某一種 Linux 的發行版。
(例如:Ubuntu, Linux Mint

示意圖:伺服器與 Ubuntu 系統(由 ChatGPT 繪製)

示意圖:伺服器與 Ubuntu 系統(由 ChatGPT 繪製)

我從文章寫出來的六個月以前開始接觸 Linux。
從在我的筆記型電腦上面測試癌症基因表達的分析,
到現在在實驗室裡面負責安裝 Linux 伺服器與維護,
深刻體會到 Linux 比起我以前的 Windows 流程或 macOS 都還要順暢。

透過我之前跟實習單位的資深前輩,以及自己察覺到的方面,我也認識到:

Linux 不只是效能上的優化而已,更是從事生物資訊共通的「文化」。

這篇文章,就是我在這六個月以來,
對於「Linux 為何是生物資訊研究的良伴」這個問題,
依據我個人的經驗提出分析、做出思考之後的結晶,跟大家做分享。


Linux 在生物資訊研究中的定位

眾所周知,全球絕大多數的伺服器皆是使用 Linux 進行開發與設計
這使得軟體或命令列工具的開發,也跟著使用 Linux 作為主要的開發環境,
減少開發環境與發布軟體的伺服器之間,
因為不同作業系統的核心差異,帶來的潛在錯誤風險。

又由於從 Linux 跨平台到 Windows 或 macOS 需要另外的某些工具和腳本,
會增加程式在部署上的複雜程度;
因此,既然是在 Linux 上面做開發,
開發者自然也會選擇以 Linux 作為釋出軟體的首選。
這使得主流的生物資訊工具對 Linux 形成強大的依賴
甚至有些函式庫並不包含 Windows 或 macOS 上的版本。

像是我之前在實驗室,最一開始接觸生物資訊的時候,
本來也打算透過 Windows 來完成大部份的工作,
但是卻碰上了必須要的 BEDtools 只支援 Linux 的問題;
而實驗室主打的 Galaxy 生物資訊平台
也只能部署到 Unix-like 的系統上( Linux 即為其一分支)。
因此,在當時「必須使用 Linux,否則必須切換實驗室」的急迫情況下,
我也就跨越了這層技術障礙,開始自己接觸、了解 Linux 。

示意圖:筆者正在倉促地參考電腦使用說明(由 ChatGPT 繪製)

示意圖:筆者正在倉促地參考電腦使用說明(由 ChatGPT 繪製)

我們從這裡,基本上可理解到:

生物資訊研究基本上離不開 Linux,原因之一即在於此。


Linux 帶來的具體優勢

凡是做過生物資訊的從業者,就知道生物資訊的資料量極為龐大。
從基因表現矩陣,到基因組瀏覽器資料的二進位檔案格式,
在在都是 10 GB 以上在當單位的。

這時,如果要將這樣的檔案下載到自己的電腦當中,並執行後續的分析,
往往會發生本地端的記憶體被「整碗端走」這種很常見的事情。
(即使排除掉程式設計不良的部份,也依然如此)

Windows 系列的作業系統,因為作業系統取向的關係,
造成每次開機都必須要載入可能不會用到的相容層、服務等。

因此,同樣的記憶體容量,Windows 11 24H2 使用的開機記憶體,
往往比起同年份發布的 Linux 發行版(例如:Ubuntu 24.04)使用的還要更多。

我自己的測試,使用同一台電腦(雙重開機)、最新的 Windows 11 24H2,
與 Ubuntu 24.04(KDE 桌面環境)做開機記憶體量測;
結果 Windows 11 開機就用了 5.0 GB 的實體記憶體(不包括使用中的虛擬記憶體等);
Ubuntu 24.04 只需要 2.5 GB 的實體記憶體,並且完全不需要虛擬記憶體。
這是因為 Ubuntu 24.04 預設不會載入所有的服務與相容層
(若使用者需要,必須輸入指令來開啟),所以佔用的記憶體會比較少。

示意圖:Windows 在運行同樣的工作,負擔比起 Ubuntu 來得重(由 ChatGPT 繪製)

示意圖:Windows 在運行同樣的工作,負擔比起 Ubuntu 來得重(由 ChatGPT 繪製)

這時,假設我們用同樣的硬體、兩套不同的系統,
分別跑同樣一個瀏覽器的分頁、同樣一個程式碼編輯器視窗、
同樣一個 Python 的程式碼腳本,在這樣的過程用到同樣的硬體
(例如:12 GB Physical RAM + 8 GB Virtual RAM)的情況下,
Windows 更容易遇到記憶體不足(Out of Memory, OOM)而導致的效能下降,
或者,甚至當機的狀況。基於 Linux 的作業系統之優勢,由此可見一斑。

另一個 Linux 相較 Windows 在生物資訊分析上的優勢,
在於其對大型檔案的處理效率。

原因在於兩個作業系統使用的是不一樣的檔案系統;
Windows 10/11 主要使用 NTFS ,
而 Linux 的發行版則使用 ext4 作為首選的檔案系統。
其中, ext4 因為產生的「碎片化」較小,
所以在檔案讀寫的效率上面,勝過於使用 NTFS 的 Windows 10/11。
這對於結構性資料(Structured Data),
例如有幾萬行、幾萬列的基因表現矩陣而言,是至關重要的優勢。

所以,大部分從事生物資訊研究的人士,都採用 Linux 作為主要的作業系統。


對生物資訊初學者的建議

如果你是一位準備要研究生物資訊的新手,你可能會問:

那我應該要選擇哪個作業系統?
我應該為了更好的效率、更快的讀寫,克服學習 Linux 與命令列介面的學習曲線嗎?

我會建議你:

如果你念生物資訊,不會涉及程式管線的自動化、
跨平台部署程式碼、機器學習等複雜運算,
以及只有在 Linux 才會有的某些生物資訊工具,
那就使用 Windows,自己用得習慣最重要。

然而,如果你的流程涉及上千或上萬次重複的分析
特定只在 Linux 才有的工具,以及機器學習、深度學習,
或甚至人工智慧領域,那使用 Linux 就是你的首要選擇

學習 Linux 其實沒有各位讀者想像中的困難;
但是在開始之前,可能會需要足夠的耐心、毅力,以及不怕麻煩的心態。
另外,可能還得要比安裝、設定 Windows 查詢更多的資料,
才能充分地發揮它的效能。
如果這些你都有信心克服,恭喜你,
你已經替自己的生物資訊之路做好最萬全的準備。


如果喜歡這篇文章,記得按個愛心與收藏。各位的支持,都將是我持續創作的動力。

下一篇文章,將會剖析生成式人工智慧對於大學生學習的挑戰,敬請期待!

留言
avatar-img
生資知識的道場
6會員
16內容數
歡迎來到【生資道場】! 這裡是一個結合生物資訊與生活思維的小宇宙。 我們聊癌症、談程式碼,也偶爾思考世界的複雜與美感。 不一定要懂程式、不一定要是科研人, 只要你對知識、生活與實驗感興趣,就能自在入座。 歡迎留言交流,理性討論,偶爾隨著道場主一起激盪新想法。
生資知識的道場的其他內容
2025/08/06
這篇文章回顧了作者在清大生科系四年的學習歷程,從最初期望研究癌症治療,到意外轉向生物資訊領域的轉變。作者分享了如何破除「生科系沒有出路」迷思的方法。文中詳細描述了學習生物資訊的過程、實驗室研究的挑戰與轉機,以及在生醫園區實習的寶貴經驗。最終,作者強調了大學教育重在個人主動探索和開創未來的理念。
Thumbnail
2025/08/06
這篇文章回顧了作者在清大生科系四年的學習歷程,從最初期望研究癌症治療,到意外轉向生物資訊領域的轉變。作者分享了如何破除「生科系沒有出路」迷思的方法。文中詳細描述了學習生物資訊的過程、實驗室研究的挑戰與轉機,以及在生醫園區實習的寶貴經驗。最終,作者強調了大學教育重在個人主動探索和開創未來的理念。
Thumbnail
2025/06/14
本文描述了作者在使用WSL進行生物資訊分析時遇到的兩個主要問題,以及如何解決這些問題。第一個問題是如何處理大型數據集的記憶體問題,作者透過分批讀取數據解決了這個問題。第二個問題是如何從TCGA下載大型檔案,作者使用GDC Data Transfer Tool解決了下載過程中因為連線被重置的問題。
Thumbnail
2025/06/14
本文描述了作者在使用WSL進行生物資訊分析時遇到的兩個主要問題,以及如何解決這些問題。第一個問題是如何處理大型數據集的記憶體問題,作者透過分批讀取數據解決了這個問題。第二個問題是如何從TCGA下載大型檔案,作者使用GDC Data Transfer Tool解決了下載過程中因為連線被重置的問題。
Thumbnail
2025/03/29
一位生命科學學生學習使用WSL與Python的經驗分享,文章描述了作者從安裝WSL,到學習使用Python套件pysam處理序列資料,過程中遇到的挑戰,例如儲存空間不足、資料庫損毀、外接硬碟損壞等問題,以及如何解決這些問題,最終獲得的經驗和技能。
Thumbnail
2025/03/29
一位生命科學學生學習使用WSL與Python的經驗分享,文章描述了作者從安裝WSL,到學習使用Python套件pysam處理序列資料,過程中遇到的挑戰,例如儲存空間不足、資料庫損毀、外接硬碟損壞等問題,以及如何解決這些問題,最終獲得的經驗和技能。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
多元化的重要性不僅體現在社會進步和創新上,還在生成式人工智能的發展中起著關鍵作用。多個不同學派的合作推動了生成式AI的技術融合、共同研究、開放資源和教育培訓。在技術的發展中,符號主義、連接主義和行為主義的綜合應用為生成式AI的應用創新和影響力提供了有力支撐。
Thumbnail
多元化的重要性不僅體現在社會進步和創新上,還在生成式人工智能的發展中起著關鍵作用。多個不同學派的合作推動了生成式AI的技術融合、共同研究、開放資源和教育培訓。在技術的發展中,符號主義、連接主義和行為主義的綜合應用為生成式AI的應用創新和影響力提供了有力支撐。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。
Thumbnail
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News