最近又被AI新聞給刷屏,當年開發出AlphaGo,下棋下哭柯潔的GoogleDeepMind公司,在Nature上公佈最他們新一代AlphaFold3模型。AlphaFold,這個聽起來有點像折疊屏手機型號的名字,是他傢專門預測蛋白質結構的新AI。
生物體內幾乎所有的分子結構,它都可以預測。這意味著生物醫學研究從此開真 · 上帝視角,任何生物分子作用機理都將從黑盒中打開,變成透視模式。
不少媒體和網友開始歡呼, 21 世紀,這下真要成生物的世紀……
要看懂這次新發佈的 AlphaFold 3 有多牛,咱們就得先知道, DeepMind 和它的 AlphaFold ,曾給分子生物圈多大的震撼……
我們在九年義務教育裡都學過,生物體內最多的物質就是蛋白質,而要搞清楚生物分子的底層原理,就必須知道每個蛋白質具體長啥樣。
這麼說吧,在 AlphaFold 之前,大夥們預測蛋白質結構主要兩種辦法,
一是用 X 光照蛋白質晶體,也就是先拍片子再分析片子,再來搞懂它長啥樣。二是核磁共振 ( NMR ) 光譜,拍出大體形狀輪廓,再推測它的結構。
這些傳統辦法不僅慢,適用范圍小,需要不斷試錯,還費錢,每拍一次片子就花好幾萬美金,抵一輛小米 su7 。
這也是為啥蛋白質研究方向生物學傢,費錢且需要大量經驗……隻有那些經驗的老師傅,蛋白質仙人,才能更快猜到蛋白質的準確形狀,少拍點片子。
所以人們就琢磨,這種需要經驗總結的工作能不能靠 AI 解決呢?DeepMind 就來幹這事,為克服傳統拍片子的問題,第一代 AlphaFold 選擇技術路線的時候就攤牌:
不拍片子!
蛋白質既然由氨基酸構成,初代 AlphaFold 用的方法就是,利用來自各處公開的已知蛋白質結構,把這些蛋白質中每一對氨基酸的距離,鏈接角度,匯總起來做成一張圖, AI 用神經網絡消化完他們,再讓 AI 做出自己的預測。
而 2018 年第一代 AlphaFold 一經發佈,就技驚四座,力壓一眾實驗室老師傅,獲得第 13 屆蛋白質結構預測大賽 ( CASP ) 冠軍。
AI ,很神奇吧。
不過,初代 AlphaFold 有個問題,它更依賴局部數據的特征來訓練,它不太能提取到較遠元素之間的關系。就好像一個隻會寫短文,但學不會寫長篇小說的作傢。
問題是,很多蛋白質分子有長距離的依賴性,這讓初代 AlphaFold 的實力就有點捉襟見肘。
好在 2020 年發佈的 AlphaFold2.0 ,用上後來在 ChatGPT 上大火的 Transformer 模型。
Transformer 模型的註意力機制,則完美解決長距離氨基酸的問題,進步有多大呢?
2018 年蛋白質結構預測大賽裡 1.0 版本準確度得分不到 60 分,但是 2020 年大賽裡 2.0 版本拿到驚人的 92.4 分,它能生成的范圍已經涵蓋人類已知蛋白質的 98% ,更重要的是它完全開源。
可以說, 2.0 版本已經基本解決單鏈蛋白質的預測問題,到 2021 年,基於 2.0 改版的 AlphaFold-Multimer 發佈,也支持上多鏈,準確度上也取得突破,蛋白質之間作用的預測準確率超過 70% 。
所以現在很多公司也用上它們,甚至助力國外一些新冠疫苗研發。
但在 DeepMind 看來,蛋白質結構預測上的勝利,還遠遠沒發揮完 AI 的潛力,因為生物體內的復雜分子結構不止有蛋白質,還有核酸,小分子配體等等,
這就好比你花十年時間學刻鑰匙開鎖技術,結果一出師,發現大傢用的都是指紋鎖密碼鎖,用傳統鑰匙的人太少!
所以這次 AlphaFold 3 ,他們更新一個更牛逼的全方位模型,不僅能預測蛋白質 DNA RNA 等各種小分子,還能揭示他們之間的互相作用。
那這是怎麼幹的呢?答案是,他們用 Diffusion 。
對,就是大名鼎鼎的擴散模型,在 AI 繪畫大火的時候,想必大傢就聽說過。它的原理就是把原圖像不斷打碼,再讓 AI 學會預測這些馬賽克的生成過程,然後反過來實現從馬賽克到圖像的生成。
不過,就像 AI 畫畫生成不好手指, Sora 椅子視頻會穿模一樣, Diffusion 加持下的 AlphaFold 3 也會預測錯誤,特別是在一些長得相似難以區分的結構上,比如各位高中有機化學裡學過的手性分子。
所以在這些容易出錯的地方, DeepMind 用一個叫做交叉蒸餾的操作,說白就是讓有 Transform 模型的 2 代版本先預測,再把預測數據添加到 AlphaFold 3 的訓練中,也就是相當於讓 2 代扮演教師,領著 3 代去做,這樣就能減少預測失誤。
生成的效果有多好?直接看官方圖吧
AlphaFold 3 對 7BBV - 酶 ( 存在於一種土壤真菌體內 ) 的預測,其中酶蛋白( 藍色 )、離子( 黃色球體 )和單糖( 黃色 )與真實結構( 灰色 )幾乎重合
AlphaFold 3 對感冒病毒刺突蛋白( 藍色 )與抗體( 綠松石色 )和單糖( 黃色 )相互作用時的結構預測,與真實結構準確匹配( 灰色的)
AlphaFold 3 對蛋白復合物的預測,其中蛋白質( 藍色 )與 DNA ( 粉色 )結合,預測模型與實驗測定的真實分子結構( 灰色 )近乎完美匹配
除生成質量相當哇塞,精度也是遙遙領先的原子級。在蛋白質與核酸配體的模擬上全面優於其他產品,抗原抗體的模擬也同樣優秀。
而操作 AlphaFold3 就更容易。用 ChatGPT ,咱還得想辦法提個好問題、寫好提示詞,而在 AlphaFold 3 ,你隻需要輸入一些分子列表,它就能預測出它們是如何組合在一起的。
試想一下,原先需要花大量時間精力和資金才能觀察到的現象,現在隻需要在網站輸入參數再單擊,幾分鐘後就能產生極高清晰度和準確度的生物大分子模型。
甚至細胞系統內部的生化過程,現象, DNA 如何發揮作用,藥物和激素的反應如何進行,也全都能在極短時間內被整明白。
這些遙遙領先的數據,和大傢的熱情好像都在說:這次發佈已經不是跨越式進步,而是革命性的突破,整個傳統生物醫療的科研方式,似乎都要被改變。
不過世超覺得,樂觀是好的,但是科學這玩意兒除樂觀,要的還得是中肯和嚴謹。
在各路媒體和網友都在 “ 炸裂 ” “ 顛覆 ” “ 改變世界 ” 的時候,圈內對的不少大佬,也發表些對 AlphaFold 3 的評價。
比如顏寧教授團隊就發現, 3.0 版本在一個糖蛋白預測中就翻車,表現甚至不如前代版本。
也有不少科學傢吐槽 3.0 相比 2.0 它還不開源,使用次數也有限制。
甚至,還有人質疑 DeepMind 的老板 Hassabis ,他自己就創立過一傢 “ 專註人工智能的藥物公司 ” ,號稱要 “ 利用人工智能重新定義藥物發現 ” ,但從 2021 年到,今天他們還沒有推出任何藥物。
當然這就有點在尬黑,畢竟藥物研發過程中,蛋白質結構問題隻是其中一小部分,這並不能對藥物研發進度產生決定性影響……
總之,世超覺得 AlphaFold 的三代產品確實喜人,但在生命科學的漫漫實踐長路上,它依舊有著不少難題需要去突破。不過說到底,進步總還是好事,希望 DeepMind 能再多搞點,搞快點吧。