去年,Alphabet的DeepMind發佈一個開源數據庫,其中包含數十萬種蛋白質的3D結構,包括人體中所有的2萬種已知蛋白質。現在,這個AlphaFold蛋白質結構數據庫已經擴展到2億個,包括科學上已知的幾乎所有蛋白質。
蛋白質是細胞的重要組成成分,執行著對生命至關重要的數不清的生物過程。它們由氨基酸鏈組成,折疊成復雜的三維形狀,這決定它們的功能。繪制蛋白質的結構圖對於解它們的作用、它們如何工作以及事情如何出錯非常重要,這是研究從新藥和治療方法到改善作物和動物保護等一切問題的關鍵。
但要根據組成蛋白質的氨基酸計算出蛋白質的確切結構,仍然是很棘手的。弄清這一點通常需要大量的計算能力和人類的工作時間,這種情況已被稱為"蛋白質折疊問題"。因此,幾十年來,進展一直相對緩慢。
也就是說,直到Alphabet將其強大的DeepMind人工智能放在這個問題上。該系統最初在10萬個已知的蛋白質結構上進行訓練,發展出預測其他數百萬種蛋白質結構的能力,每一種蛋白質隻需幾分鐘或幾秒鐘,而不是幾個月或幾年就能確定。
2021年7月,第一個AlphaFold蛋白質結構數據庫被發佈給公眾,供科學傢們研究。它最初包含超過35萬個蛋白質結構,包括大約98.5%的人類蛋白質,以及那些在果蠅、小鼠、酵母和大腸桿菌中發現的蛋白質。後來,它被擴展到來自1萬種動物、植物、細菌、真菌和其他生物的大約一百萬個蛋白質結構。在此後的一年裡,來自世界各地的50多萬名科學傢訪問該數據庫,以幫助他們的研究。
現在,DeepMind已經發佈對該數據庫的大規模更新,它現在包括來自一百萬個物種的約2.14億個結構。這幾乎涵蓋目前科學界已知的所有蛋白質,為疾病治療、疫苗、可持續發展、抗生素抗性、甚至塑料污染的研究提供巨大的助力。
斯克裡普斯研究轉化研究所主任Eric Topol說:“AlphaFold已經加速並促成大規模的發現,包括破解核孔復合體的結構。而隨著新增加的結構照亮幾乎整個蛋白質世界,我們可以期待每天有更多的生物之謎被解開。”
整個蛋白質結構數據庫由超過25TB的數據組成,可以從谷歌雲公共數據集下載。