破解蛋白質結構是個十分耗費時間的工作，即使已經得知了一個蛋白質的一級結構──也就是它的胺基酸序列，也並不代表科學家能切實掌握它的三級或四級結構，但更不用說其實立體結構才是真正決定一個蛋白質功能的重點。破解蛋白質結構不容易，設計一款新型蛋白質當然也就更加地困難。然而近年來人工智慧的進展，生物學家不僅將此技術運用於破解蛋白質的立體結構，更衍伸出以深度學習（deep learning）協助設計新型蛋白質的方法。

Nature 2024年重要的七項科技之一：蛋白質序列的深度學習模型

韓駿逸（Michael）

發佈於AI 醫學研究分享

2025/02/12 更新2024/02/13 發佈閱讀 4 分鐘

圖片來源：Nature

[Nature]期刊用「人工智能的進步是今年許多最令人興奮的技術創新領域的核心。」來公布2024年重要的七項科技，其中一項是「蛋白質序列的深度學習模型」。

以下整段引用自 [科學期刊]

破解蛋白質結構是個十分耗費時間的工作，即使已經得知了一個蛋白質的一級結構──也就是它的胺基酸序列，也並不代表科學家能切實掌握它的三級或四級結構，但更不用說其實立體結構才是真正決定一個蛋白質功能的重點。破解蛋白質結構不容易，設計一款新型蛋白質當然也就更加地困難。然而近年來人工智慧的進展，生物學家不僅將此技術運用於破解蛋白質的立體結構，更衍伸出以深度學習（deep learning）協助設計新型蛋白質的方法。

上面這段話，說明了「蛋白質設計」的應用從「生物醫學」到「環境科學」等各個領域解決問題方面具有巨大潛力，也說明了為何Nature將這個技術視為最重要的七項科技，這也代表著2022年發表的論文，到目前受到自然期刊的推薦，代表了目前這項技術在2024年的醫藥生技科研領域舉足輕重。

因此，我找到了原文，試圖用一個有限制的已知，試圖分享AI-NLP應用在蛋白質序列的未知。

相信在很早之前，AI領域有注意到一則新聞，就是AlphaFold已經研究蛋白質序列問題。其實在很早，科學家就注意到蛋白質序列與人類語言之間是有些許雷同的。尤其是蛋白質序列可以描述為字母之間的連結，即天然氨基酸，就像人類語言一樣，這些字母排列成次級結構元素（"詞"），這些結構元素組合形成域（"句子"），段落則具有執行功能（"含義"）。其中一個最吸引人的相似之處是，蛋白質序列，像自然語言一樣，是信息完整的：它們以極高的效率將結構和功能完全存儲在其氨基酸序列中。因此，也許大型預訓練語言模型可以讓蛋白質序列的設計問題，有所助益。

拜羅伊特大學 (University of Bayreuth) 生化系人工智慧蛋白質設計團隊（Artificial Intelligence for Protein Design）的主持人 Noelia Ferruz 女士，發表了本篇論文，“ProtGPT2 is a deep unsupervised language model for protein design”，並解決以下三個研究問題

(i) 有效地學習蛋白質語言

(ii) 生成適合、穩定的蛋白質

(iii) 理解這些序列與自然序列之間的關係

該團隊將這個訓練模型稱為「ProtGPT2」，該模型是一個具有7.38億參數的自迴歸Transformer模型，能夠以生成全新的蛋白質序列。這個模型學習了約5000萬個未標記序列，涵蓋了整個蛋白質空間後，已經有效地學會了蛋白質語言。同時，ProtGPT2 生成的序列顯示出與自然對應物相似的預測穩定性和動態特性。由於ProtGPT2已經預先訓練過，它可以在標準工作站上在幾秒鐘內生成序列，或者進一步在研究者選擇的序列集上進行微調，以增強特定的蛋白質家族。（相關的模型和數據集已公布在HuggingFace中）

隨著NLP領域在理解和生成接近人類能力的語言方面取得的非凡進步，後學相信在醫藥生技領域，自然語言處理「序列單獨進行蛋白質相關問題（如蛋白質設計）」的新途徑已經逐漸成熟，儘管蛋白質序列和人類語言存在不同之處，但它們的類比已經啟動了數十年來應用NLP方法解決蛋白質的相關研究。

感謝您閱讀完畢長文，後學一直在人工智慧與自然語言領域發展，尤其專注醫藥生技領域，如果有進一步的興趣，歡迎一起研討

資料來源：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9329459/

歡迎各領域研究者，共同合作研究：

https://www.facebook.com/akousist

https://line.me/R/ti/p/@875lzikp

M-Insight：AI科技創新AI 醫學研究分享

留言

留言分享你的想法！

M-Insight：AI科技創新

18會員

24內容數

M-Insight : AI科技創新分享有關人工智慧對於產業與企業的實務應用、研究成果、產業情報等資訊，歡迎人工智慧、醫藥生技、科技管理領域的同好、專家學者、醫師、研究人員與業界朋友一同參與交流。

M-Insight：AI科技創新的其他內容

2024/06/22

科技突破：幹細胞療法為1型糖尿病患者帶來治癒新希望

Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據，顯示療效與此前報告一致。

2024/06/22

科技突破：幹細胞療法為1型糖尿病患者帶來治癒新希望

Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據，顯示療效與此前報告一致。

2024/04/28

NEJM AI刊登重磅研究，大型語言模型在腫瘤知識上的效能驗證。

這篇研究探討了不同醫學主題中，大型語言模型對於知識的性能差異，特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明，大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性，但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。

2024/04/28

NEJM AI刊登重磅研究，大型語言模型在腫瘤知識上的效能驗證。

2024/03/14

人工智慧推斷糖尿病駕駛血糖低，改善行車安全

本篇文章分享在NEJM上的重磅研究，利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口，提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據，提取特徵並開發機器學習模型，成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。

2024/03/14

人工智慧推斷糖尿病駕駛血糖低，改善行車安全

#科技力的其他內容

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

你可能也想看

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

#手作#黏土手作#輕黏土

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

2025/09/09

2025/09/09

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 85

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。新模型和 Human Baselines 排名將不斷變化，Human Baselines 的位置自從基礎模型出現以來，它就不再具有多大意義了，這些排名只是表明經典 NL

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 85

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 78

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

無限智慧學院的沙龍

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing#Qiskit#braket

2024/06/13

無限智慧學院的沙龍

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

#QuantumComputing#Qiskit#braket

2024/06/13

M-Insight：AI科技創新

Nature 2024年重要的七項科技之一：蛋白質序列的深度學習模型

本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。

#蛋白質#人工智慧#科技

2024/02/13

M-Insight：AI科技創新

Nature 2024年重要的七項科技之一：蛋白質序列的深度學習模型

#蛋白質#人工智慧#科技

2024/02/13

王啟樺的沙龍

【從規則到革新：3大進步展示了大語言模型在自然語言處理上的威力】

對於熱衷於語言科技的你，大語言模型（LLMs）在自然語言處理（NLP）領域的發展無疑是一個革命性的進展。從傳統的規則系統到基於深度學習的方法， LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。這不僅是技術上的飛躍，更是開啟了新的應用和可能性。下面將介紹這一變革帶來的三大

#大語言模型#ChatGPT#深度學習

2024/01/15

王啟樺的沙龍

【從規則到革新：3大進步展示了大語言模型在自然語言處理上的威力】

#大語言模型#ChatGPT#深度學習

2024/01/15

私大王牌教授 (私人大學ACE) feat. mr gary

66個大型語言模型LLM經典論文

2023/12/31

私大王牌教授 (私人大學ACE) feat. mr gary

66個大型語言模型LLM經典論文

2023/12/31

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News