令人難以置信的DeepMind數據庫現在包括科學界已知的幾乎所有蛋白質

2022-07-29 發表於業界精選

去年，Alphabet的DeepMind發佈一個開源數據庫，其中包含數十萬種蛋白質的3D結構，包括人體中所有的2萬種已知蛋白質。現在，這個AlphaFold蛋白質結構數據庫已經擴展到2億個，包括科學上已知的幾乎所有蛋白質。

蛋白質是細胞的重要組成成分，執行著對生命至關重要的數不清的生物過程。它們由氨基酸鏈組成，折疊成復雜的三維形狀，這決定它們的功能。繪制蛋白質的結構圖對於解它們的作用、它們如何工作以及事情如何出錯非常重要，這是研究從新藥和治療方法到改善作物和動物保護等一切問題的關鍵。

但要根據組成蛋白質的氨基酸計算出蛋白質的確切結構，仍然是很棘手的。弄清這一點通常需要大量的計算能力和人類的工作時間，這種情況已被稱為"蛋白質折疊問題"。因此，幾十年來，進展一直相對緩慢。

也就是說，直到Alphabet將其強大的DeepMind人工智能放在這個問題上。該系統最初在10萬個已知的蛋白質結構上進行訓練，發展出預測其他數百萬種蛋白質結構的能力，每一種蛋白質隻需幾分鐘或幾秒鐘，而不是幾個月或幾年就能確定。

2021年7月，第一個AlphaFold蛋白質結構數據庫被發佈給公眾，供科學傢們研究。它最初包含超過35萬個蛋白質結構，包括大約98.5%的人類蛋白質，以及那些在果蠅、小鼠、酵母和大腸桿菌中發現的蛋白質。後來，它被擴展到來自1萬種動物、植物、細菌、真菌和其他生物的大約一百萬個蛋白質結構。在此後的一年裡，來自世界各地的50多萬名科學傢訪問該數據庫，以幫助他們的研究。

現在，DeepMind已經發佈對該數據庫的大規模更新，它現在包括來自一百萬個物種的約2.14億個結構。這幾乎涵蓋目前科學界已知的所有蛋白質，為疾病治療、疫苗、可持續發展、抗生素抗性、甚至塑料污染的研究提供巨大的助力。

斯克裡普斯研究轉化研究所主任Eric Topol說：“AlphaFold已經加速並促成大規模的發現，包括破解核孔復合體的結構。而隨著新增加的結構照亮幾乎整個蛋白質世界，我們可以期待每天有更多的生物之謎被解開。”

整個蛋白質結構數據庫由超過25TB的數據組成，可以從谷歌雲公共數據集下載。

令人難以置信的DeepMind數據庫現在包括科學界已知的幾乎所有蛋白質

相關推薦

資深藥企人Derek Lowe抨擊AlphaFold：靠結構預測做藥“純屬自嗨”

下棋下哭柯潔的DeepMind 這次要讓生物界地震？

高中生在生物信息學挑戰中揭示AlphaFold人工智能的局限性

MIT最新研究：AlphaFold蛋白質預測能力太差目前利用價值還很低

DeepMind的新型人工智能可為DNA、RNA和"所有生命分子"建模

令人難以置信的人腦3D線路圖：就像一個連接起來的微小世界

AI成功改寫人類DNA：全球首個基因編輯器開源近5倍蛋白質宇宙LLM全生成

黃仁勛GTC演講全文：最強AI芯片Blackwell問世推理能力提升30倍

《自然》論文涉嫌造假令數十年阿爾茲海默研究前功盡棄？研究人員這樣說

Perceptron盤點過去幾周人工智能領域的最新發現

DeepMind攻克50年數學難題史上最快矩陣乘法算法登Nature封面

谷歌全面整合AI力量背後：DeepMind浮沉史

美國超導股價暴漲150% 一文讀懂常溫常壓超導體影響

輝瑞CEO新冠陽性背後：復陽隻是時間問題嗎？