2003年,科學家首次對人類基因組進行測序,揭示了構(gòu)成我們生命“藍圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認為可能蘊藏著重要的生物學秘密,就像是基因界的“暗物質(zhì)”。
今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破。《自然》雜志報道稱,這一“從序列到功能”的模型能預測DNA中微小變化會對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機制提供了新路徑。
解釋DNA序列的“一體化”工具
深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個困擾科學界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準確預測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學研究方式,也推動了新藥研發(fā)的進程。
相比之下,要理解DNA序列的功能則更加復雜,因為它不像蛋白質(zhì)那樣擁有一個確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達的調(diào)控上,比如決定基因什么時候開啟或關(guān)閉,在哪些細胞中發(fā)揮作用,以及以何種強度表達。
如果說蛋白質(zhì)結(jié)構(gòu)預測是在拼出“零件”的立體模型,那么DNA功能預測就是要理解說明書中每一個符號、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級更復雜、關(guān)聯(lián)更廣泛,且同一個DNA片段可能在不同時間、不同細胞類型中扮演不同角色,因此建模難度遠高于蛋白質(zhì)。
幾十年來,生物學家嘗試用各種計算工具來揭示DNA復雜而隱秘的調(diào)控機制,但這些模型往往聚焦于單一功能。科學家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應運而生。
據(jù)美國趣味工程網(wǎng)站報道稱,與以往需在“序列長度”與“預測精度”之間取舍的模型不同,“阿爾法基因組”實現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準預測,拓展了疾病生物學、罕見變異研究、合成DNA設計等領域的研究視野。
一次可處理百萬個堿基對
據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達100萬個堿基對,并預測數(shù)千種分子屬性,包括基因表達、剪接模式、蛋白質(zhì)結(jié)合位點和染色質(zhì)可及性,覆蓋多種不同類型的細胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。
“阿爾法基因組”訓練所用的數(shù)據(jù)集來自多個公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓練一個完整模型僅需4小時,且所需計算資源僅為前代模型的一半。在26項基準測試中,其有24項表現(xiàn)優(yōu)于或持平于專用模型。
新模型的一大亮點是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。
“阿爾法基因組”還具備剪接位點建模功能,這是首次有模型能夠預測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。
在合成生物學領域,“阿爾法基因組”可用于設計特定的調(diào)控序列,例如僅在神經(jīng)細胞中激活某些基因,而在肌肉細胞中保持沉默。同時,它也有望用于研究生物效應強烈的罕見遺傳變異,如導致孟德爾遺傳病的突變。
在一項驗證中,研究人員將“阿爾法基因組”應用于先前研究中識別出的某種白血病相關(guān)突變。結(jié)果,該模型準確預測出,某些非編碼區(qū)變異會間接激活附近的TAL1致癌基因,這一機制正是T細胞急性淋巴細胞白血病中已知的致病過程。
模型尚不適用于個體診斷
盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團隊表示,該系統(tǒng)目前仍存在很多限制。它并未設計用于個體基因組解讀,也無法像23andMe或臨床基因檢測那樣預測疾病風險或祖源信息。也就是說,該模型不適用于個體診斷或醫(yī)療決策。
“阿爾法基因組”目前的訓練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應性尚待驗證。同時,它在識別調(diào)控元件與遠距離靶基因(距離超過10萬個堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細胞在不同狀態(tài)、不同組織中的動態(tài)調(diào)控機制。
美國冷泉港實驗室計算生物學家彼得·庫指出:“這些模型往往是在一個固定條件下訓練的,但現(xiàn)實中的細胞是動態(tài)的,蛋白質(zhì)水平、DNA化學修飾、轉(zhuǎn)錄狀態(tài)等都會隨時間和環(huán)境變化,這些變化會顯著影響同一段DNA序列的行為。”因此,未來模型需要引入更多“多模態(tài)”“多時間尺度”因素,才能更真實地模擬生物過程。
2003年,科學家首次對人類基因組進行測序,揭示了構(gòu)成我們生命“藍圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質(zhì),它們?nèi)陨羁逃绊懼虻恼{(diào)控和細胞功能。這些非編碼區(qū)域曾被視為“垃圾DNA”,但如今被認為可能蘊藏著重要的生物學秘密,就像是基因界的“暗物質(zhì)”。
今年6月25日,“深度思維”公司宣布,他們開發(fā)出一款名為AlphaGenome(阿爾法基因組)的人工智能(AI)模型,有望在破譯這一“暗物質(zhì)”上取得突破。《自然》雜志報道稱,這一“從序列到功能”的模型能預測DNA中微小變化會對一系列分子過程產(chǎn)生的影響,為解碼人類基因調(diào)控機制提供了新路徑。
解釋DNA序列的“一體化”工具
深度思維公司在2020年推出的“阿爾法折疊2”(AlphaFold 2),成功破解了一個困擾科學界數(shù)十年的難題:如何根據(jù)蛋白質(zhì)的氨基酸序列,準確預測其三維結(jié)構(gòu)。這一突破不僅改變了結(jié)構(gòu)生物學研究方式,也推動了新藥研發(fā)的進程。
相比之下,要理解DNA序列的功能則更加復雜,因為它不像蛋白質(zhì)那樣擁有一個確定的“正確答案”。這些功能主要體現(xiàn)在DNA對基因表達的調(diào)控上,比如決定基因什么時候開啟或關(guān)閉,在哪些細胞中發(fā)揮作用,以及以何種強度表達。
如果說蛋白質(zhì)結(jié)構(gòu)預測是在拼出“零件”的立體模型,那么DNA功能預測就是要理解說明書中每一個符號、注釋、開關(guān)命令甚至“暗物質(zhì)”區(qū)域的真正含義。其中涉及的信息層級更復雜、關(guān)聯(lián)更廣泛,且同一個DNA片段可能在不同時間、不同細胞類型中扮演不同角色,因此建模難度遠高于蛋白質(zhì)。
幾十年來,生物學家嘗試用各種計算工具來揭示DNA復雜而隱秘的調(diào)控機制,但這些模型往往聚焦于單一功能。科學家們渴望一種用于解釋DNA序列的“一體化”工具,于是,“阿爾法基因組”應運而生。
據(jù)美國趣味工程網(wǎng)站報道稱,與以往需在“序列長度”與“預測精度”之間取舍的模型不同,“阿爾法基因組”實現(xiàn)了二者兼得。它既能捕捉長程基因組上下文信息,又能提供堿基層面的精準預測,拓展了疾病生物學、罕見變異研究、合成DNA設計等領域的研究視野。
一次可處理百萬個堿基對
據(jù)深度思維官網(wǎng)介紹,該模型一次可處理多達100萬個堿基對,并預測數(shù)千種分子屬性,包括基因表達、剪接模式、蛋白質(zhì)結(jié)合位點和染色質(zhì)可及性,覆蓋多種不同類型的細胞。這是首次有AI系統(tǒng)能聯(lián)合建模如此廣泛的調(diào)控特征。
“阿爾法基因組”訓練所用的數(shù)據(jù)集來自多個公開的超大規(guī)模數(shù)據(jù)資源。令人驚訝的是,訓練一個完整模型僅需4小時,且所需計算資源僅為前代模型的一半。在26項基準測試中,其有24項表現(xiàn)優(yōu)于或持平于專用模型。
新模型的一大亮點是其變異評分系統(tǒng),能高效對比突變前后的DNA序列,并跨多種生物通路評估其影響。
“阿爾法基因組”還具備剪接位點建模功能,這是首次有模型能夠預測與囊性纖維化、脊髓性肌萎縮等疾病相關(guān)的RNA剪接異常。
在合成生物學領域,“阿爾法基因組”可用于設計特定的調(diào)控序列,例如僅在神經(jīng)細胞中激活某些基因,而在肌肉細胞中保持沉默。同時,它也有望用于研究生物效應強烈的罕見遺傳變異,如導致孟德爾遺傳病的突變。
在一項驗證中,研究人員將“阿爾法基因組”應用于先前研究中識別出的某種白血病相關(guān)突變。結(jié)果,該模型準確預測出,某些非編碼區(qū)變異會間接激活附近的TAL1致癌基因,這一機制正是T細胞急性淋巴細胞白血病中已知的致病過程。
模型尚不適用于個體診斷
盡管“阿爾法基因組”的表現(xiàn)令人矚目,但深度思維團隊表示,該系統(tǒng)目前仍存在很多限制。它并未設計用于個體基因組解讀,也無法像23andMe或臨床基因檢測那樣預測疾病風險或祖源信息。也就是說,該模型不適用于個體診斷或醫(yī)療決策。
“阿爾法基因組”目前的訓練數(shù)據(jù)僅限于人類和小鼠,尚未覆蓋其他物種,其跨物種適應性尚待驗證。同時,它在識別調(diào)控元件與遠距離靶基因(距離超過10萬個堿基)之間關(guān)系方面的能力仍較弱,也無法完全建模細胞在不同狀態(tài)、不同組織中的動態(tài)調(diào)控機制。
美國冷泉港實驗室計算生物學家彼得·庫指出:“這些模型往往是在一個固定條件下訓練的,但現(xiàn)實中的細胞是動態(tài)的,蛋白質(zhì)水平、DNA化學修飾、轉(zhuǎn)錄狀態(tài)等都會隨時間和環(huán)境變化,這些變化會顯著影響同一段DNA序列的行為。”因此,未來模型需要引入更多“多模態(tài)”“多時間尺度”因素,才能更真實地模擬生物過程。
本文鏈接:http://www.svtrjb.com/v-146-2916.html“深度思維”推出“阿爾法基因組”—— 人工智能揭秘DNA中的“暗物質(zhì)”
相關(guān)文章:
秋天的心情隨筆11-30
溫馨的晚安心語朋友圈08-02
商場保安年終總結(jié)與計劃01-22
建材銷售工作計劃08-23
傅雷家書心得體會2000字07-04
讀書心得范文作文大全07-04
讀《紅鞋子》有感01-12
水果蔬菜的擬人句12-14
小學四年級上冊單元作文成長的故事10-26
描寫我的小伙伴六年級作文09-27
讀書的名言40條09-07
中國傳媒大學什么專業(yè)好01-31
華為在重慶大學招什么專業(yè)01-22
為什么有些人總是貶低三本學生?11-27
全國各省市高考錄取分數(shù)線匯總(湖北2023一本二本三本分數(shù)線)11-24
童年的泥巴教學課件10-26
紅豆杉生態(tài)科技公司征名及廣告語12-05
小學友情畢業(yè)留言唯美句子10-19
家長會歡迎詞07-25