Nature 2024年重要的七項科技之一:蛋白質序列的深度學習模型

更新於 發佈於 閱讀時間約 4 分鐘



[Nature]期刊用「人工智能的進步是今年許多最令人興奮的技術創新領域的核心。」來公布2024年重要的七項科技,其中一項是「蛋白質序列的深度學習模型」。


以下整段引用自 [科學期刊]

破解蛋白質結構是個十分耗費時間的工作,即使已經得知了一個蛋白質的一級結構──也就是它的胺基酸序列,也並不代表科學家能切實掌握它的三級或四級結構,但更不用說其實立體結構才是真正決定一個蛋白質功能的重點。破解蛋白質結構不容易,設計一款新型蛋白質當然也就更加地困難。然而近年來人工智慧的進展,生物學家不僅將此技術運用於破解蛋白質的立體結構,更衍伸出以深度學習(deep learning)協助設計新型蛋白質的方法。


上面這段話,說明了「蛋白質設計」的應用從「生物醫學」到「環境科學」等各個領域解決問題方面具有巨大潛力,也說明了為何Nature將這個技術視為最重要的七項科技,這也代表著2022年發表的論文,到目前受到自然期刊的推薦,代表了目前這項技術在2024年的醫藥生技科研領域舉足輕重。


因此,我找到了原文,試圖用一個有限制的已知,試圖分享AI-NLP應用在蛋白質序列的未知。


相信在很早之前,AI領域有注意到一則新聞,就是AlphaFold已經研究蛋白質序列問題。其實在很早,科學家就注意到蛋白質序列與人類語言之間是有些許雷同的。尤其是蛋白質序列可以描述為字母之間的連結,即天然氨基酸,就像人類語言一樣,這些字母排列成次級結構元素("詞"),這些結構元素組合形成域("句子"),段落則具有執行功能("含義")。其中一個最吸引人的相似之處是,蛋白質序列,像自然語言一樣,是信息完整的:它們以極高的效率將結構和功能完全存儲在其氨基酸序列中。因此,也許大型預訓練語言模型可以讓蛋白質序列的設計問題,有所助益。


拜羅伊特大學 (University of Bayreuth) 生化系人工智慧蛋白質設計團隊(Artificial Intelligence for Protein Design)的主持人 Noelia Ferruz 女士,發表了本篇論文,“ProtGPT2 is a deep unsupervised language model for protein design”,並解決以下三個研究問題

(i) 有效地學習蛋白質語言

(ii) 生成適合、穩定的蛋白質

(iii) 理解這些序列與自然序列之間的關係


該團隊將這個訓練模型稱為「ProtGPT2」,該模型是一個具有7.38億參數的自迴歸Transformer模型,能夠以生成全新的蛋白質序列。這個模型學習了約5000萬個未標記序列,涵蓋了整個蛋白質空間後,已經有效地學會了蛋白質語言。同時,ProtGPT2 生成的序列顯示出與自然對應物相似的預測穩定性和動態特性。由於ProtGPT2已經預先訓練過,它可以在標準工作站上在幾秒鐘內生成序列,或者進一步在研究者選擇的序列集上進行微調,以增強特定的蛋白質家族。(相關的模型和數據集已公布在HuggingFace中)


隨著NLP領域在理解和生成接近人類能力的語言方面取得的非凡進步,後學相信在醫藥生技領域,自然語言處理「序列單獨進行蛋白質相關問題(如蛋白質設計)」的新途徑已經逐漸成熟,儘管蛋白質序列和人類語言存在不同之處,但它們的類比已經啟動了數十年來應用NLP方法解決蛋白質的相關研究。


感謝您閱讀完畢長文,後學一直在人工智慧與自然語言領域發展,尤其專注醫藥生技領域,如果有進一步的興趣,歡迎一起研討

資料來源:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9329459/

歡迎各領域研究者,共同合作研究:

https://www.facebook.com/akousist

https://line.me/R/ti/p/@875lzikp

M-Insight : AI科技創新 分享有關人工智慧對於產業與企業的實務應用、研究成果、產業情報等資訊,歡迎人工智慧、醫藥生技、科技管理領域的同好、專家學者、醫師、研究人員與業界朋友一同參與交流。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
今天分享長期觀察 AI 議題的 Martin Signoux 對2024年AI技術領域的觀點。他認為「大型語言模型」未來將不具備任何優勢,未來發展是「大型多模態模型」,而且在2024年的議題量將會超越「大型語言模型」,此觀點也受到楊立昆(Yann LeCuu)的認同。
根據美國FDA的數據顯示,2023年的申請量是歷年最大,放射學領域是AI/ML-SaMD的醫材設備申請數持續穩定成長的科別。AI/ML-SaMD的醫材設備通過量預計將成長30%以上。放射科領域佔全部通過量的76%,估計2023年也將保持居冠。
今天分享長期觀察 AI 議題的 Martin Signoux 對2024年AI技術領域的觀點。他認為「大型語言模型」未來將不具備任何優勢,未來發展是「大型多模態模型」,而且在2024年的議題量將會超越「大型語言模型」,此觀點也受到楊立昆(Yann LeCuu)的認同。
根據美國FDA的數據顯示,2023年的申請量是歷年最大,放射學領域是AI/ML-SaMD的醫材設備申請數持續穩定成長的科別。AI/ML-SaMD的醫材設備通過量預計將成長30%以上。放射科領域佔全部通過量的76%,估計2023年也將保持居冠。
本篇參與的主題活動
每次過完農曆年,麥克最期待的活動就是書展了!麥克這次不惜翻山越嶺披星戴月三顧茅廬七出祁山來到2025年台北國際書展,看看書展現場都有些甚麼酷主機出現。大家趕緊繫上安全帶,麥克要發車啦!
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
每次過完農曆年,麥克最期待的活動就是書展了!麥克這次不惜翻山越嶺披星戴月三顧茅廬七出祁山來到2025年台北國際書展,看看書展現場都有些甚麼酷主機出現。大家趕緊繫上安全帶,麥克要發車啦!
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
在創作的路上真的很多人問我說 到底要怎麼做出符合自己期待 但又可以表現得很有美感的作品?🥹 這個問題真的應該是每個創作者都一直在學習的課題吧!
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
到目前為止,我們所設計出來的自主代理人都是孤鳥,既不知道有其他自主代理人的存在,也不會跟其他自主代理人有任何互動。在這一節,我們將讓自主代理人能感知到其他自主代理人的存在,並且與其他自主代理人互動,最後形成由自主代理人所組成的複雜系統(complex system)。
Thumbnail
今天跟大家聊聊菲律賓的景點(? 還記得是我去菲律賓的第二週, 週間約了朋友打算一起去碧瑤市文化山和自然公園花園 (Heritage Hill and Nature Park Garden (Old Diplomat Hotel)
不同於用來找出兩點間最短距離演算法的路徑搜尋(path finding),路徑循行(path following),指的是依循已經設定好的路徑來移動的轉向行為。這一節就要來研究Reynolds所設計的路徑循行轉向行為。
Thumbnail
上一篇文章了解到了多肽的價值,這篇帶大家了解到多肽在人體裡是如何運作的。 人體的結構是由細胞、組織、器官、系統所組成的。 人體由60兆細胞所組成,細胞核中含有人體基因DNA,每個細胞又是由80億個蛋白質所構成。 因此,可以說沒有蛋白質等於沒有生命! 多肽:生物導彈、載體作用、激素平衡
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
基因是什麼 最新基因圖譜公開後,市場上的大變革! 人體需求和自癒能力才釋放第一!不能再繼續治標不治本! 那麼人體的細胞需求到底是什麼? 如何給予基礎材料?且不造成人體負擔? 解碼指定部位到底是如何運作???
其實,每篇論文的貢獻,絕對都是站在前人的努力上的。就像現在的AI,名稱是大語言模型,再更早以前叫做編碼器-解碼器循環神經網絡,再更早以前還有別的名字。「你需要去了解,2024你看到的論文,在歷史上是怎麼一步一步長出來的。」你要去找到源頭的問題,去觀察不同時代大家如何解問題,你才會知道解決方案。
Thumbnail
Dritjon Grud,擔任《人格與個體差異》期刊的副主編,在《Nature》雜誌的一篇新聞文章中分享了他如何使用ChatGPT協助研究工作者完成學術寫作、編輯和同儕審查。本文將介紹該新聞分享的ChatGPT指示詞,並提供實際範例。
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。
Thumbnail
在創作的路上真的很多人問我說 到底要怎麼做出符合自己期待 但又可以表現得很有美感的作品?🥹 這個問題真的應該是每個創作者都一直在學習的課題吧!
提問的內容越是清晰,強者、聰明人越能在短時間內做判斷、給出精準的建議,他們會對你產生「好印象」,認定你是「積極」的人,有機會、好人脈會不自覺地想引薦給你
到目前為止,我們所設計出來的自主代理人都是孤鳥,既不知道有其他自主代理人的存在,也不會跟其他自主代理人有任何互動。在這一節,我們將讓自主代理人能感知到其他自主代理人的存在,並且與其他自主代理人互動,最後形成由自主代理人所組成的複雜系統(complex system)。
Thumbnail
今天跟大家聊聊菲律賓的景點(? 還記得是我去菲律賓的第二週, 週間約了朋友打算一起去碧瑤市文化山和自然公園花園 (Heritage Hill and Nature Park Garden (Old Diplomat Hotel)
不同於用來找出兩點間最短距離演算法的路徑搜尋(path finding),路徑循行(path following),指的是依循已經設定好的路徑來移動的轉向行為。這一節就要來研究Reynolds所設計的路徑循行轉向行為。
Thumbnail
上一篇文章了解到了多肽的價值,這篇帶大家了解到多肽在人體裡是如何運作的。 人體的結構是由細胞、組織、器官、系統所組成的。 人體由60兆細胞所組成,細胞核中含有人體基因DNA,每個細胞又是由80億個蛋白質所構成。 因此,可以說沒有蛋白質等於沒有生命! 多肽:生物導彈、載體作用、激素平衡
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
基因是什麼 最新基因圖譜公開後,市場上的大變革! 人體需求和自癒能力才釋放第一!不能再繼續治標不治本! 那麼人體的細胞需求到底是什麼? 如何給予基礎材料?且不造成人體負擔? 解碼指定部位到底是如何運作???
其實,每篇論文的貢獻,絕對都是站在前人的努力上的。就像現在的AI,名稱是大語言模型,再更早以前叫做編碼器-解碼器循環神經網絡,再更早以前還有別的名字。「你需要去了解,2024你看到的論文,在歷史上是怎麼一步一步長出來的。」你要去找到源頭的問題,去觀察不同時代大家如何解問題,你才會知道解決方案。
Thumbnail
Dritjon Grud,擔任《人格與個體差異》期刊的副主編,在《Nature》雜誌的一篇新聞文章中分享了他如何使用ChatGPT協助研究工作者完成學術寫作、編輯和同儕審查。本文將介紹該新聞分享的ChatGPT指示詞,並提供實際範例。
Thumbnail
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。