人類基因組計劃完成20多年來,超過九成的非編碼序列仍是未破譯的“天書”,是基因組的“暗物質”。近日,浙江大學醫(yī)學院郭國驥、韓曉平教授團隊在《細胞》發(fā)布最新成果,其自主研發(fā)的AI生物大模型“女媧CE”(簡稱NvwaCE),為破譯非編碼序列提供了全新的工具。
據悉,“女媧CE”大模型能從一級DNA序列出發(fā),精準預測脊椎動物基因突變對細胞的表型影響,精度達單細胞級,準確率超90%。此外,它還成功預測并經實驗驗證了罕見病鐮刀型貧血癥的基因治療位點,成為世界首例AI預測的人類疾病治療性位點。
“通過深度學習,那些人類暫時無法理解的復雜語法,正在被AI學習、解析?!惫鶉K就課題最新進展,接受了文匯報記者專訪。
單細胞圖譜,讓AI大模型有了“精品教材”
人類幾乎所有具體的生理機能都依靠蛋白質來完成。在人類基因組中,編碼序列(對蛋白質進行編碼,直接表達為蛋白質)僅占1%-2%,剩下的98%都是非編碼序列(不會直接表達為蛋白質,包含調控序列)。
這98%的非編碼序列,在很長一段時間內,無法被理解。近年來,隨著AI和生物學研究的深入,科學家們發(fā)現,這些序列對基因的表達調控,有可能被解讀。
“生命科學研究長期以‘還原論’為主,也就是科學家會將某個表型還原到某個基因,研究它的調控和功能。但進入調控序列,這種方法就行不通了?!惫鶉K解釋,非編碼序列有一套復雜精密的“語法系統”,決定了哪個基因在何時、何地、以何種強度表達。每一個調控序列的堿基,都可能在不同時間、不同類型細胞中扮演不同角色。因此,用傳統敲除驗證的方法,就像盲人摸象。
2020年,郭國驥團隊完成了小鼠和人類細胞圖譜的一系列工作,他們開始思考,從生物的一級DNA序列尋找細胞圖譜的編碼模式。當時,傳統學界并不理解。“憑什么一級DNA序列就會決定終極表型?”但郭國驥認為,生物的表觀、表型等復雜現象的“因”,深植于DNA序列本身。從一級DNA序列出發(fā),研究生物表型,遠比直接研究生物表型特征之間的聯系更能找到本質規(guī)律。
傳統表型檢測外貌、身高、指紋之類的宏觀表型。郭國驥則將之精細到單細胞級別的分子表型?!皢蝹€細胞里面的分子是什么?我們測的是這種‘沒有偏見’的分子表型?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
為此,團隊在傳統的ATAC測序技術上自主研發(fā)出超高靈敏度、超高通量的單細胞級測序技術UUATAC-seq,使測序靈敏度在理論上提升了4倍,通量提升了10到100倍,可以在單日內高效繪制一個物種所有類型細胞核中的染色質可及性圖譜。以此為基礎,團隊科學家繪制出涵蓋哺乳類、鳥類、兩棲類、爬行類、水生類五大類脊椎動物的單細胞圖譜數據集。
通過研究范式創(chuàng)新獲得高質量的數據,是這個團隊的核心科研優(yōu)勢所在。據介紹,國外許多頂尖的基因組AI模型,比如近日Deepmind團隊預發(fā)表的AlphaGenome,都是基于ENCODE項目進行數據訓練。由于該數據集年代久遠、最長已超過20年,其涵蓋的基本是“群體細胞”“器官細胞”或者在體外培養(yǎng)的“細胞系”數據,存在分辨率低、不同類型細胞混雜的問題。用這樣的數據集訓練AI,好比用一本內容模糊、混雜的教材教學生。
相較而言,女媧CE的訓練集堪稱“精品”,所有數據在同一技術標準下產生,精度達到單細胞級別,數據噪音更少,有高度的可比性與純凈性。
“可以說,我們?yōu)锳I提供了迄今為止最適合學習基因調控語法的訓練集?!惫鶉K說。
更高精度帶來驚人發(fā)現:“生命語法”比DNA序列本身更保守
與依賴大量數據、超長掃描窗口(讀長)的生物深度學習算法不同,女媧CE采用多任務框架、超短掃描窗口,直接學習從一級DNA序列到生物體所有類型細胞表型的映射關系?!癆I學到了一些我們人類暫時無法理解的復雜規(guī)則?!惫鶉K說,通過這種規(guī)則,就能讓基因組的“暗物質”開口說話,進而預測基因突變帶來的后果。
借助女媧CE,以500堿基對(簡稱bp)的“短窗口”進行分段掃描,團隊發(fā)現,在億萬年的演化長河中,脊椎動物的基因“調控語法”比其核苷酸序列本身更為保守。
“這意味著,在進化過程中,即使物種的某段調控序列和過去已完全不同,但它們最終行使的功能依然類似?!惫鶉K說,這一發(fā)現對達爾文進化論中的“隨機突變”提出了重要補充:脊椎動物的基因組突變并非完全隨機,適者生存并非僅僅依靠環(huán)境篩選,還有一套深刻的內在調控語法約束著進化過程?!叭魏翁鲞@套語法的突變,可能胚胎都無法形成。它在接受自然選擇前,就被生命底層的邏輯淘汰了?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
這一發(fā)現本身,也成為了女媧CE算法的重要組成部分,讓它擁有超高泛化能力。女媧CE能夠從基因組序列出發(fā),預測未經訓練物種的細胞染色質可及性藍圖,并一次性預測了包括人、猴、牛、豬、馬、羊、熊貓七個物種的單細胞調控原件藍圖。
女媧CE的正式發(fā)表,也意味著中國科學家團隊在AI基因組大模型研發(fā)的賽道上已先人一步。團隊表示,相關數據和模型本身,將會全部開源。
世界首例AI預測基因位點成功,開拓基因治療新路徑
要知道,很多遺傳性疾病、罕見病,都是因為細胞的表型異常。以往,當科學家們試圖通過基因編輯手段治療這些疾病,只能通過“神農嘗百草”的方式,不斷嘗試,嘗試幾百、上千次都不算多的。但是,有了AI,就可以根據異常表型特征,讓AI預測哪些基因位點最有可能讓表型恢復正常。
針對鐮狀細胞病,女媧CE就預測出了治療關鍵位點:胎兒血紅蛋白基因HBG1-68:A>G。這是一個全新的、從未被記錄過的位點。進一步實驗顯示,該位點在基因編輯后能夠實現胎兒血紅蛋白表達量的顯著提升,這也是科學家首次在人類細胞中驗證了基因組AI預測的功能性位點。
除了“女媧”,還有“華佗”“神農”……郭國驥坦言,他偏愛用中國傳統神話為自己的算法命名,這既是對傳統文化的致敬,也寄托了一種希望?!癆I或許最終會超越人類,向著‘神性’發(fā)展,就像神話中的女媧摶土造人,幫我們理解乃至創(chuàng)造生命,解決人類的難題?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
郭國驥團隊的下一步計劃,是構建虛擬細胞,將調控元件模型與網絡模型、蛋白質結構模型等模塊整合,創(chuàng)造出“數字小鼠”乃至“數字人類”。有了這樣的“數字生命”,科學家就可以高效進行虛擬實驗,測試基因突變的影響或篩選疾病藥物和治療位點,從而大幅縮短研發(fā)周期、降低成本,并極大減少實驗動物的使用,讓未來的臨床試驗更安全、更精準。
業(yè)余時間,郭國驥還是一位歌者。他創(chuàng)作的歌曲《生命》中,有這樣一句歌詞:“宇宙浩瀚無窮盡,卻不及她的珍貴……該如何解開基因的密鎖,該如何理清神經的網絡,千山萬水尋尋覓覓,春去秋來上下求索?!?br style="outline: none; color: rgb(49, 49, 49); font-family: "Microsoft YaHei"; text-align: justify; text-wrap: wrap;">
為生命求索,中國科學家從未停下前進的腳步。
本文鏈接:http://m.enbeike.cn/news-8-6056-0.html中國“女媧”讓基因組“暗物質”現原形
聲明:本網頁內容由互聯網博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕