高中生在生物信息學挑戰中揭示AlphaFold人工智能的局限性


Skoltech生物公司的科學傢在預測單一突變對蛋白質穩定性的影響方面對AlphaFold進行測試,該人工智能程序的預測與實驗結果相矛盾,駁斥它掌握終極蛋白質物理學的說法。

斯科爾技術公司為高中生舉辦的生物信息學訓練營變成人類和人工智能在科學領域持續較量的最新篇章的場所。突破性的人工智能程序AlphaFold在早些時候解決一個有50年歷史的結構性生物信息學的關鍵問題後,被證明不適用於該領域的研究人員所面臨的另一個挑戰。PLOS One的一項研究報告這一發現,其作者駁斥一些AlphaFold愛好者的說法,即DeepMind的人工智能已經掌握終極蛋白質物理學,是結構生物信息學的終點。

結構生物信息學是一個科學分支,探索蛋白質、RNA、DNA的結構以及它們與其他分子的相互作用。這些發現為藥物發現和創造具有激動人心的特性的蛋白質提供基礎,例如在自然界中未見的反應的催化劑。

歷史上,結構生物信息學的核心問題是預測蛋白質結構。也就是說,給定一個組成蛋白質的任意氨基酸序列,你如何可靠地計算出該蛋白質在體內將呈現何種三維形狀--以及它將如何發揮作用。

Playing-With-AlphaFold2.webp

2021年斯科爾技術在線舉辦的分子和理論生物學學院Playing With AlphaFold2項目的海報。資料來源:Dmitry Ivankov/Skoltech

50年後,這個問題被AlfaFold解決,這是一個由Google DeepMind創建的人工智能程序,其前身早先在國際象棋、圍棋和視頻遊戲《星際爭霸II》中取得超越人類的表現,一時間成為頭條新聞。

這一裡程碑式的成就導致人們猜測,神經網絡必須以某種方式內化蛋白質的基本物理學,並且應該超越它所設計的任務。一些人,甚至是結構生物信息學界的人,期望人工智能將很快給出該學科剩餘問題的明確答案,並將其歸入科學史。

"我們決定解決這個問題,將AlphaFold用於結構生物信息學的另一項核心任務:預測單一突變對蛋白質穩定性的影響。這意味著選擇某種已知的蛋白質,並準確地引入一個突變,即可能的最小的變化。想知道所產生的突變體是更穩定還是更不穩定,以及穩定到什麼程度。AlphaFold顯然無法做到這一點,它的預測與已知的實驗結果相矛盾就是證明。"該研究的主要研究者,Skoltech Bio公司的助理教授Dmitry Ivankov評論道。

當被問及參加該項目的高中生的作用時,該研究人員說,他們參與突變數據的處理,編寫處理預測結果的腳本,將AlphaFold指定的結構可視化,以及基本上是在愚弄該人工智能的在線版本。

Ivankov強調,AlphaFold的創造者實際上從未聲稱該人工智能除根據氨基酸序列預測蛋白質結構外,還適用於其他任務。但一些機器學習愛好者很快就預言結構生物信息學的終結。所以我們認為這是一個好主意,去檢查一下,我們現在知道它不能預測單個突變的效果。"

在實踐層面上,預測單個突變如何影響蛋白質的穩定性對於篩選許多可能的突變以確定哪些突變可能是有用的。例如,如果你想讓一種用於洗衣粉的蛋白質添加劑對更高的溫度有抵抗力,這樣它就可以在更熱的水中分解脂肪、淀粉、纖維或其他蛋白質。另外,已知的甜味蛋白質有朝一日可以用來代替糖,隻要它們能經受住一杯咖啡或茶的熱量。

在更基本的層面上,該研究的結果表明,今天的人工智能並不是萬能的,雖然它可能在解決一個問題上取得巨大的成功,但其他問題仍然存在,包括結構生物信息學中的十幾個主要挑戰。其中包括預測由蛋白質和小分子或DNA或RNA組成的復合物的結構,確定突變如何影響蛋白質與其他分子的結合能量,以及設計具有氨基酸序列的蛋白質,賦予它們所需的屬性,例如催化其他不可能的反應的能力,作為一個微小的"分子工廠"的元素。

除提醒人們,即使在AlphaFold之後,他們領域的科學傢也有一兩件事情要做,PLOS One上的研究報告的作者審查人工智能程序的成功源於其"學會物理學"的論點,而不是僅僅將人類已知的全部蛋白質結構內化並巧妙地操縱它們。顯然,情況並非如此,因為解相關的物理學,從穩定性方面比較兩個非常相似但不完全相同的結構應該是比較容易的,但這正是AlphaFold沒有完成的任務。

這一點得到之前對人工智能的物理學"知識"所表達的兩個保留意見的支持。首先,AlphaFold預測一些帶有側基的結構,其懸空的方式表明鋅離子將與之結合。然而,該程序的輸入僅限於蛋白質的氨基酸序列,所以"看不見的鋅"出現的唯一原因是人工智能被訓練成與這種離子結合的類似蛋白質結構。如果沒有鋅,預測的側組方向與物理學相悖。第二,AlphaFold可以預測一個單獨的蛋白質結構,看起來有點像螺旋,而且確實是準確的--隻要它與另外兩個這樣的鏈交錯在一起。如果沒有它們,預測在物理上是不可靠的。因此,與其說該程序依賴物理學,不如說是簡單地再現它從一個復合結構中分離出來的形狀。

"有趣的是,這項研究是從一個以分子和理論生物學學院的學員為主角的'遊戲性'項目中發展出來的。我們把它稱為'與AlphaFold的遊戲'。當AlphaFold可以公開訪問的時候,我們的實驗室就把它安裝在Zhores超級計算機上。其中一個遊戲是將已知的突變效果與AlphaFold對原始蛋白和突變蛋白的預測進行比較。這帶來一項研究,高中生有機會同時體驗超級計算機和先進的人工智能,"該研究的主要作者,Skoltech博士生Marina Pak評論道。


相關推薦

2024-05-11

疑 DeepMind 的老板 Hassabis ,他自己就創立過一傢 “ 專註人工智能的藥物公司 ” ,號稱要 “ 利用人工智能重新定義藥物發現 ” ,但從 2021 年到,今天他們還沒有推出任何藥物。當然這就有點在尬黑,畢竟藥物研發過程中,蛋

2024-05-09

GoogleDeepMind正在推出其人工智能模型的改進版,該模型不僅能預測蛋白質的結構,還能預測"所有生命分子"的結構。新模型AlphaFold3的工作將幫助醫學、農業、材料科學和藥物開發領域的研究人員測試潛在的發

2022-08-21

要。結構本身無法解決所有問題,在取代實驗數據之前,人工智能還有一段路要走。也有讀者不同意Derek Lowe的觀點,認為“良好的結構預測將大大加快獲取經驗數據集的過程。”一位讀者表示,“基於結構的設計將是一個限制

2022-07-09

間是最晚的,這被認為是參與者實際進入睡眠的時間,而高中生在入睡和醒來的時間上有最大的工作日/周末差異。這些工作日/周末的差異隻發生在學齡和工作年齡的人身上,14-17歲的兒童表現出最大的差異。麥考爾說,對於學

2023-05-11

準實在有點小兒科,有些任務的性能都甩人類一截。通用人工智能(AGI)的一個重要特點是模型具有處理人類水平任務的泛化能力,而依賴於人工數據集的傳統基準測試並不能準確表示人類的能力。最近,微軟的研究人員發佈一

2022-07-29

一直相對緩慢。也就是說,直到Alphabet將其強大的DeepMind人工智能放在這個問題上。該系統最初在10萬個已知的蛋白質結構上進行訓練,發展出預測其他數百萬種蛋白質結構的能力,每一種蛋白質隻需幾分鐘或幾秒鐘,而不是幾個

2022-09-15

epmind首次發佈基於深度神經網絡的蛋白質結構預測數據庫AlphaFold,在蛋白質預測中實現最先進的性能;去年,AlphaFold2獲得98.5%的蛋白質預測率;前段時間,Deepmind又重磅發佈數據集更新,稱目前的AlphaFold已經預測幾乎所有已知的

2023-11-09

為公民使用的是互聯網技術。奧爾森非常清楚研究數據的局限性。世界上三分之一的智能手機用戶不太可能對他們的設備上癮,至少從傳統意義上來說,上癮是一種有明顯負面聯想的東西。他說,如今人們使用設備的原因多種多

2023-11-27

磅工作之後,在蛋白領域的又一突破性成果。該工作打破AlphaFold2等主流依賴 MSA 檢索模型的速度瓶頸,將蛋白結構預測速度平均提高數百倍,實現秒級別預測。該工作的發表也為產學研各界帶來使用門檻更低、適用范圍更廣的蛋

2022-07-29

生並且其通常具有長端粒。歐哈諾說她從小就熱愛科學和生物學,她通過自己高中的STEM女性俱樂部解到這項比賽2022年太空基因競賽由波音公司和MiniPCR Bio創立的Genes in Space共同舉辦, 邀請7到12年級的學生設計生物學實驗參賽,

2024-04-19

生成式人工智能模型正被越來越多地引入醫療保健領域--在某些情況下,也許還為時過早。早期的采用者認為,這些模型可以提高效率,同時揭示那些可能被忽略的診斷視角。而批評者則指出,這些模型存在缺陷和偏差,可能會

2023-02-01

鹽在保護2型糖尿病方面的任何潛在好處。該研究有幾個局限性,需要額外的研究來驗證結果。數據是自我報告的,由於潛在的生物挑戰,研究人員無法利用生物標志物確認具體的亞硝酸鹽/硝酸鹽暴露。此外,隊列中的人的人口

2022-11-03

瑞典醫學研究會的資助。研究人員指出,這項研究有一些局限性,包括缺乏一些與生活方式有關的因素的數據,如飲食和體育活動,這些因素可能會影響這種關聯。解更多:https://onlinelibrary.wiley.com/doi/10.1002/wps.21020

2024-07-12

的生存智慧與創新能力。此次實驗與20世紀90年代著名的生物圈2號”實驗形成鮮明對比,後者雖因缺氧和營養不足等問題而告終,一度引發對人類離開地球生存能力的質疑。然而,NASA的最新測試成果猶如一束曙光,初步報告顯示