[Nature]期刊用「人工智能的進步是今年許多最令人興奮的技術創新領域的核心。」來公布2024年重要的七項科技,其中一項是「蛋白質序列的深度學習模型」。
以下整段引用自 [科學期刊]
上面這段話,說明了「蛋白質設計」的應用從「生物醫學」到「環境科學」等各個領域解決問題方面具有巨大潛力,也說明了為何Nature將這個技術視為最重要的七項科技,這也代表著2022年發表的論文,到目前受到自然期刊的推薦,代表了目前這項技術在2024年的醫藥生技科研領域舉足輕重。
因此,我找到了原文,試圖用一個有限制的已知,試圖分享AI-NLP應用在蛋白質序列的未知。
相信在很早之前,AI領域有注意到一則新聞,就是AlphaFold已經研究蛋白質序列問題。其實在很早,科學家就注意到蛋白質序列與人類語言之間是有些許雷同的。尤其是蛋白質序列可以描述為字母之間的連結,即天然氨基酸,就像人類語言一樣,這些字母排列成次級結構元素("詞"),這些結構元素組合形成域("句子"),段落則具有執行功能("含義")。其中一個最吸引人的相似之處是,蛋白質序列,像自然語言一樣,是信息完整的:它們以極高的效率將結構和功能完全存儲在其氨基酸序列中。因此,也許大型預訓練語言模型可以讓蛋白質序列的設計問題,有所助益。
拜羅伊特大學 (University of Bayreuth) 生化系人工智慧蛋白質設計團隊(Artificial Intelligence for Protein Design)的主持人 Noelia Ferruz 女士,發表了本篇論文,“ProtGPT2 is a deep unsupervised language model for protein design”,並解決以下三個研究問題
(i) 有效地學習蛋白質語言
(ii) 生成適合、穩定的蛋白質
(iii) 理解這些序列與自然序列之間的關係
該團隊將這個訓練模型稱為「ProtGPT2」,該模型是一個具有7.38億參數的自迴歸Transformer模型,能夠以生成全新的蛋白質序列。這個模型學習了約5000萬個未標記序列,涵蓋了整個蛋白質空間後,已經有效地學會了蛋白質語言。同時,ProtGPT2 生成的序列顯示出與自然對應物相似的預測穩定性和動態特性。由於ProtGPT2已經預先訓練過,它可以在標準工作站上在幾秒鐘內生成序列,或者進一步在研究者選擇的序列集上進行微調,以增強特定的蛋白質家族。(相關的模型和數據集已公布在HuggingFace中)
隨著NLP領域在理解和生成接近人類能力的語言方面取得的非凡進步,後學相信在醫藥生技領域,自然語言處理「序列單獨進行蛋白質相關問題(如蛋白質設計)」的新途徑已經逐漸成熟,儘管蛋白質序列和人類語言存在不同之處,但它們的類比已經啟動了數十年來應用NLP方法解決蛋白質的相關研究。
感謝您閱讀完畢長文,後學一直在人工智慧與自然語言領域發展,尤其專注醫藥生技領域,如果有進一步的興趣,歡迎一起研討
資料來源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9329459/
歡迎各領域研究者,共同合作研究:
https://www.facebook.com/akousist
https://line.me/R/ti/p/@875lzikp