生物資訊研究的良伴 – Linux

更新 發佈閱讀 7 分鐘

前言

隨著碩士班的開學,
我自然而然地也踏上了生物資訊,整合機器學習之研究的旅途。

然而過程中,我竟然也發現:

在做生物資訊的同儕,除了新手還在用 Windows 之外,
其他專業一點的人們,幾乎都用某一種 Linux 的發行版。
(例如:Ubuntu, Linux Mint

示意圖:伺服器與 Ubuntu 系統(由 ChatGPT 繪製)

示意圖:伺服器與 Ubuntu 系統(由 ChatGPT 繪製)

我從文章寫出來的六個月以前開始接觸 Linux。
從在我的筆記型電腦上面測試癌症基因表達的分析,
到現在在實驗室裡面負責安裝 Linux 伺服器與維護,
深刻體會到 Linux 比起我以前的 Windows 流程或 macOS 都還要順暢。

透過我之前跟實習單位的資深前輩,以及自己察覺到的方面,我也認識到:

Linux 不只是效能上的優化而已,更是從事生物資訊共通的「文化」。

這篇文章,就是我在這六個月以來,
對於「Linux 為何是生物資訊研究的良伴」這個問題,
依據我個人的經驗提出分析、做出思考之後的結晶,跟大家做分享。


Linux 在生物資訊研究中的定位

眾所周知,全球絕大多數的伺服器皆是使用 Linux 進行開發與設計
這使得軟體或命令列工具的開發,也跟著使用 Linux 作為主要的開發環境,
減少開發環境與發布軟體的伺服器之間,
因為不同作業系統的核心差異,帶來的潛在錯誤風險。

又由於從 Linux 跨平台到 Windows 或 macOS 需要另外的某些工具和腳本,
會增加程式在部署上的複雜程度;
因此,既然是在 Linux 上面做開發,
開發者自然也會選擇以 Linux 作為釋出軟體的首選。
這使得主流的生物資訊工具對 Linux 形成強大的依賴
甚至有些函式庫並不包含 Windows 或 macOS 上的版本。

像是我之前在實驗室,最一開始接觸生物資訊的時候,
本來也打算透過 Windows 來完成大部份的工作,
但是卻碰上了必須要的 BEDtools 只支援 Linux 的問題;
而實驗室主打的 Galaxy 生物資訊平台
也只能部署到 Unix-like 的系統上( Linux 即為其一分支)。
因此,在當時「必須使用 Linux,否則必須切換實驗室」的急迫情況下,
我也就跨越了這層技術障礙,開始自己接觸、了解 Linux 。

示意圖:筆者正在倉促地參考電腦使用說明(由 ChatGPT 繪製)

示意圖:筆者正在倉促地參考電腦使用說明(由 ChatGPT 繪製)

我們從這裡,基本上可理解到:

生物資訊研究基本上離不開 Linux,原因之一即在於此。


Linux 帶來的具體優勢

凡是做過生物資訊的從業者,就知道生物資訊的資料量極為龐大。
從基因表現矩陣,到基因組瀏覽器資料的二進位檔案格式,
在在都是 10 GB 以上在當單位的。

這時,如果要將這樣的檔案下載到自己的電腦當中,並執行後續的分析,
往往會發生本地端的記憶體被「整碗端走」這種很常見的事情。
(即使排除掉程式設計不良的部份,也依然如此)

Windows 系列的作業系統,因為作業系統取向的關係,
造成每次開機都必須要載入可能不會用到的相容層、服務等。

因此,同樣的記憶體容量,Windows 11 24H2 使用的開機記憶體,
往往比起同年份發布的 Linux 發行版(例如:Ubuntu 24.04)使用的還要更多。

我自己的測試,使用同一台電腦(雙重開機)、最新的 Windows 11 24H2,
與 Ubuntu 24.04(KDE 桌面環境)做開機記憶體量測;
結果 Windows 11 開機就用了 5.0 GB 的實體記憶體(不包括使用中的虛擬記憶體等);
Ubuntu 24.04 只需要 2.5 GB 的實體記憶體,並且完全不需要虛擬記憶體。
這是因為 Ubuntu 24.04 預設不會載入所有的服務與相容層
(若使用者需要,必須輸入指令來開啟),所以佔用的記憶體會比較少。

示意圖:Windows 在運行同樣的工作,負擔比起 Ubuntu 來得重(由 ChatGPT 繪製)

示意圖:Windows 在運行同樣的工作,負擔比起 Ubuntu 來得重(由 ChatGPT 繪製)

這時,假設我們用同樣的硬體、兩套不同的系統,
分別跑同樣一個瀏覽器的分頁、同樣一個程式碼編輯器視窗、
同樣一個 Python 的程式碼腳本,在這樣的過程用到同樣的硬體
(例如:12 GB Physical RAM + 8 GB Virtual RAM)的情況下,
Windows 更容易遇到記憶體不足(Out of Memory, OOM)而導致的效能下降,
或者,甚至當機的狀況。基於 Linux 的作業系統之優勢,由此可見一斑。

另一個 Linux 相較 Windows 在生物資訊分析上的優勢,
在於其對大型檔案的處理效率。

原因在於兩個作業系統使用的是不一樣的檔案系統;
Windows 10/11 主要使用 NTFS ,
而 Linux 的發行版則使用 ext4 作為首選的檔案系統。
其中, ext4 因為產生的「碎片化」較小,
所以在檔案讀寫的效率上面,勝過於使用 NTFS 的 Windows 10/11。
這對於結構性資料(Structured Data),
例如有幾萬行、幾萬列的基因表現矩陣而言,是至關重要的優勢。

所以,大部分從事生物資訊研究的人士,都採用 Linux 作為主要的作業系統。


對生物資訊初學者的建議

如果你是一位準備要研究生物資訊的新手,你可能會問:

那我應該要選擇哪個作業系統?
我應該為了更好的效率、更快的讀寫,克服學習 Linux 與命令列介面的學習曲線嗎?

我會建議你:

如果你念生物資訊,不會涉及程式管線的自動化、
跨平台部署程式碼、機器學習等複雜運算,
以及只有在 Linux 才會有的某些生物資訊工具,
那就使用 Windows,自己用得習慣最重要。

然而,如果你的流程涉及上千或上萬次重複的分析
特定只在 Linux 才有的工具,以及機器學習、深度學習,
或甚至人工智慧領域,那使用 Linux 就是你的首要選擇

學習 Linux 其實沒有各位讀者想像中的困難;
但是在開始之前,可能會需要足夠的耐心、毅力,以及不怕麻煩的心態。
另外,可能還得要比安裝、設定 Windows 查詢更多的資料,
才能充分地發揮它的效能。
如果這些你都有信心克服,恭喜你,
你已經替自己的生物資訊之路做好最萬全的準備。


如果喜歡這篇文章,記得按個愛心與收藏。各位的支持,都將是我持續創作的動力。

下一篇文章,將會剖析生成式人工智慧對於大學生學習的挑戰,敬請期待!

留言
avatar-img
留言分享你的想法!
avatar-img
生資知識的道場
6會員
14內容數
歡迎來到【生資道場】! 這裡是一個結合生物資訊與生活思維的小宇宙。 我們聊癌症、談程式碼,也偶爾思考世界的複雜與美感。 不一定要懂程式、不一定要是科研人, 只要你對知識、生活與實驗感興趣,就能自在入座。 歡迎留言交流,理性討論,偶爾隨著道場主一起激盪新想法。
生資知識的道場的其他內容
2025/08/06
這篇文章回顧了作者在清大生科系四年的學習歷程,從最初期望研究癌症治療,到意外轉向生物資訊領域的轉變。作者分享了如何破除「生科系沒有出路」迷思的方法。文中詳細描述了學習生物資訊的過程、實驗室研究的挑戰與轉機,以及在生醫園區實習的寶貴經驗。最終,作者強調了大學教育重在個人主動探索和開創未來的理念。
Thumbnail
2025/08/06
這篇文章回顧了作者在清大生科系四年的學習歷程,從最初期望研究癌症治療,到意外轉向生物資訊領域的轉變。作者分享了如何破除「生科系沒有出路」迷思的方法。文中詳細描述了學習生物資訊的過程、實驗室研究的挑戰與轉機,以及在生醫園區實習的寶貴經驗。最終,作者強調了大學教育重在個人主動探索和開創未來的理念。
Thumbnail
2025/06/14
本文描述了作者在使用WSL進行生物資訊分析時遇到的兩個主要問題,以及如何解決這些問題。第一個問題是如何處理大型數據集的記憶體問題,作者透過分批讀取數據解決了這個問題。第二個問題是如何從TCGA下載大型檔案,作者使用GDC Data Transfer Tool解決了下載過程中因為連線被重置的問題。
Thumbnail
2025/06/14
本文描述了作者在使用WSL進行生物資訊分析時遇到的兩個主要問題,以及如何解決這些問題。第一個問題是如何處理大型數據集的記憶體問題,作者透過分批讀取數據解決了這個問題。第二個問題是如何從TCGA下載大型檔案,作者使用GDC Data Transfer Tool解決了下載過程中因為連線被重置的問題。
Thumbnail
2025/03/29
一位生命科學學生學習使用WSL與Python的經驗分享,文章描述了作者從安裝WSL,到學習使用Python套件pysam處理序列資料,過程中遇到的挑戰,例如儲存空間不足、資料庫損毀、外接硬碟損壞等問題,以及如何解決這些問題,最終獲得的經驗和技能。
Thumbnail
2025/03/29
一位生命科學學生學習使用WSL與Python的經驗分享,文章描述了作者從安裝WSL,到學習使用Python套件pysam處理序列資料,過程中遇到的挑戰,例如儲存空間不足、資料庫損毀、外接硬碟損壞等問題,以及如何解決這些問題,最終獲得的經驗和技能。
Thumbnail
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
多元化的重要性不僅體現在社會進步和創新上,還在生成式人工智能的發展中起著關鍵作用。多個不同學派的合作推動了生成式AI的技術融合、共同研究、開放資源和教育培訓。在技術的發展中,符號主義、連接主義和行為主義的綜合應用為生成式AI的應用創新和影響力提供了有力支撐。
Thumbnail
多元化的重要性不僅體現在社會進步和創新上,還在生成式人工智能的發展中起著關鍵作用。多個不同學派的合作推動了生成式AI的技術融合、共同研究、開放資源和教育培訓。在技術的發展中,符號主義、連接主義和行為主義的綜合應用為生成式AI的應用創新和影響力提供了有力支撐。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News