AI成功改寫人類DNA：全球首個基因編輯器開源近5倍蛋白質宇宙LLM全生成

2024-04-25 來自新智元發表於業界精選

AI，能夠重寫人類基因組？就在剛剛，初創公司Profluent宣佈，完全由AI設計的基因編輯器，已經成功編輯人類細胞中的DNA。也就是說，世界上首個使用AI從頭設計的分子級精確基因編輯器誕生。

v2_4b3bff9a73ef45ad9ce8237e5d42a04b@46958_oswg255596oswg1068oswg420_img_png.jpg

就像ChatGPT能生成詩歌一樣，Profluent這個全新的AI系統，可以讓我們編輯自己DNA的微觀機制生成藍圖。

在迄今最廣泛的基於CRISPR的基因編輯系統數據集上，研究者訓練LLM。這些LLM產生的蛋白質，將幾乎所有天然存在的CRISPR-Cas傢族的多樣性，擴大4.8倍！

並且，基因編輯器在人類細胞中顯示出與SpCas9（一個示例基因編輯器）相當或更好的活性和特異性，同時距離超過400個突變。

這也就意味著，我們掌握自己的基因組密碼。未來的科學傢，會比今天更精確、更快速地對抗疾病。

而且，公司還決定，會在OpenCRISPR協議下，自由釋放這些DNA分子。

OpenCRISPR-1的物理結構，OpenCRISPR-1即是由Profluent的AI技術創建的基因編輯器

Profluent聯創Ali Madani表示，“嘗試用AI設計的生物系統，編輯人類DNA是一次科學登月之旅”。

“我們的成功表明，在未來，AI可精準設計出一系列定制的疾病治療方案”。

有網友表示，“是時候重新編程人類嗎？AI驅動的CRISPR技術進步，正挑戰著基因倫理的邊界”。

如果你可以改變自己的DNA，你會這麼做嗎？

貧血、失明疾病的基因，由我們自己修改

初創公司Profluent在剛剛發表的這篇論文中，詳細描述這項技術。

論文地址：https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf

論文預計將於下月，在美國基因與細胞治療學會年會上發表。

這項技術和驅動ChatGPT的方法是一樣的，它在分析大量生物數據後，創造新的基因編輯器，包括科學傢已經用於編輯人類DNA的微觀機制。

這些基因編輯器基於的是諾獎的獲獎方法，涉及一種名叫CRISPR的生物機制。

基於CRISPR的技術誕生後，即在業界引起轟動。它改變科學傢研究疾病的方式。

在以前，如果我們不幸得鐮狀細胞性貧血和失明這樣的遺傳性疾病，往往束手無策，而現在，CRISPR技術可以直接讓我們修改導致這些疾病的基因！

CRISPR方法使用的是我們在自然界中發現的機制：從細菌中收集的生物材料，竟然神奇地賦予這些微生物抵抗細菌的能力。

加州大學舊金山分校生物工程和治療科學系教授兼系主任James Fraser介紹說，這些生物材料從未在地球上存在過，而Profluent的AI系統，正是從大自然中學習如何創造這些全新的東西。

如果這些技術繼續發展，所產生的基因編輯器，或許會比我們人類經過數十億年進化磨練的基因編輯器更靈活、更強大。

現在，Profluent表示正在開源OpenCRISPR-1編輯器，這也就意味著，個人、學術實驗室和公司都能免費使用這些技術。

AI界常見的開源，可以加速新技術的產生。不過，對於生物實驗室和制藥公司來說，像OpenCRISPR-1這樣的開源並不常見。

當然，Profluent也隻是開源其AI技術生成的基因編輯器，並沒有開源AI技術本身。

由OpenCRISPR-1編輯的人類細胞延時攝影

AI編輯蛋白質，為何意義重大

目前，蛋白質工程界想要復制功能性蛋白質，或者用“定向進化”來迭代修飾，通常還是需要從自然界中復制。

許多對人類有重大意義的蛋白質，都是我們偶然發現的，比如狗的胰島素、酸奶設施中的Cas9和經常造成食物中毒的肉毒桿菌毒素。

大型生成蛋白質語言模型的作用，就是可以捕獲使天然蛋白質發揮作用的基本藍圖。它們勾勒出一條捷徑，可以繞過進化的隨機過程，推動人類有意識地為特定目的設計蛋白質。

Cas9蛋白，是CRISPR-Cas9基因編輯系統的核心組成部分，它是一種RNA引導的核酸酶，可以搜索人類基因組中的所有30億個核苷酸，並在一個特定位點進行切割。

這種核酸酶與單導RNA（sgRNA）復合在一起，sgRNA由一個在結構上與蛋白質相互作用的支架和一個間隔序列組成，後者可通過編程靶向基因組中的任何位點。

棘手的是，大多數Cas9蛋白的長度超過1000個氨基酸，整個設計空間包含20^1000種可能的序列，比起可觀測宇宙中的原子數量，它都要高出幾個數量級！

而且，由於這些蛋白質必須以精確的順序協調許多相互作用，才能實現精確切割，因此即使是單個錯位突變，也可能完全消除蛋白質的功能。

如果通過實驗窮盡所有可能的序列變異，許多科學傢幾輩子時間都做不完。

然而，AI系統卻能很輕松地探索整個搜索空間，發現功能性的基因編輯器。而且，隻需要花幾個小時！

全球首個開源基因編輯器，改寫人類DNA

基因編輯器OpenCRISPR-1，由一個Cas9樣蛋白質，和引導RNA（guide RNA）構成。

正如之前所述，它是完全由Profluent的AI大模型開發的。

在具體實現過程中，研究人員對26TB組裝的“基因組”和“元基因組”數據庫系統進行挖掘，整理出超100萬個CRISPR操縱子（operon）的數據集。

通過訓練OpenCRISPR，AI從大規模序列和生物背景中學習，生成自然界不存在的數百萬種CRISPR樣蛋白。

研究人員稱，AI生成自然界中已發現的“CRISPR-Cas傢族”的4.8倍的蛋白質集群，完全實現指數級擴展！

而且，語言模型還為類Cas9效應蛋白定制單引導RNA序列。

與原型基因編輯效應器SpCas9相比，幾個生成的基因編輯器顯示出，可比或改進的活性和特異性，同時在序列上相差400個突變。

最後，研究人員還證明AI生成的基因編輯OpenCRISPR-1與堿基編輯的兼容性。

這項研究中的關鍵結果，具體如下。

AI生成4.8倍“CRISPR-Cas”蛋白質宇宙

生成蛋白質語言模型通常是在，大型涵蓋多種系統發育和功能的天然蛋白序列的數據集上，進行預訓練。

這些模型能夠生成，反映天然蛋白質分佈和特性的真實蛋白質序列。

然而，對於特定的應用，例如新型基因編輯器的生成，有必要將生成過程導向特定的感興趣的蛋白傢族子集。

對此，研究人員進行詳盡的數據挖掘來構建數據庫。

他們搜索26.2TB的組裝微生物基因組和宏基因組，發現1,246,163個CRISPR-Cas操縱子。

與CRISPRCasDB和CasPDB等精選數據庫，以及世界上最大的蛋白質資源UniProt相比，最新創建的數據庫顯示出更大的多樣性。

通過總結共性，研究人員發現所有CRISPR-Cas蛋白的單一模型，能夠生成跨傢族的不同序列。

為生成新型CRISPR-Cas蛋白，作者在CRISPR-Cas Atlas上微調基於ProGen2的語言模型，由此平衡蛋白傢族的表示和序列簇大小。

從這個模型中，研究者生成400萬個序列。

其中一半是直接從模型生成的，另一半是由天然蛋白質N或C末端的最多50個殘基提示，以引導向特定蛋白的生成。

為評估其新穎性和多樣性，作者使用MMseqs2對每個傢族的生成序列和天然序列按70%的同一性進行聚類。

結果發現，與CRISPR-Cas圖譜中的天然蛋白相比，生成序列實現4.8倍的多樣性擴展。

對於天然蛋白質很少的傢族，比如Cas13和Cas12a，生成序列的多樣性分別增加8.4倍和6.2倍。

另外，隻需要極少的上下文，即提供50個或更少的殘基，就能針對某一特定科引導序列生成與感興趣的科保持一致。

100萬個類Cas9蛋白全部生成

雖然許多CRISPR-Cas蛋白已被用於基因組編輯，但Cas9仍是應用最廣泛的一種。

為生成類Cas9的新序列，研究人員從CRISPR-Cas圖譜中采樣，Cas9的N端或C端50個殘基，對CRISPR-Cas模型進行提示。

這裡，作者使用CRISPR-Cas Atlas中238917條Cas9序列，對另一個語言模型進行微調。

這一模型生成可行的類Cas9序列的速度是CRISPR-Cas模型的2倍（54.2%），而且需要任何提示。

為探索II型效應器的潛在序列分佈，研究人員使用Cas9模型生成100萬個Cas9蛋白。

生成的可存活代（n=542,042）與同一性為40%的天然Cas9聚類在一起，並用作構建最大似然系統發育樹的輸入（圖2a）。

引人註目的是，生成的蛋白質主導系統發育的格局，占系統發育總多樣性的94.1%。

與整個CRISPR-Cas圖譜相比，多樣性增加10.3倍（圖2b）。

新的系統發生群分佈在整個樹中，這表明該模型捕捉到Cas9的全部多樣性，並沒有過度擬合任何特定系。

生成的序列與CRISPR-Cas圖譜的差異很大，與任何自然序列的平均同一性隻有56.8%（圖2c）。

總體而言，生成的序列與同一蛋白質簇中天然蛋白質的長度密切匹配，皮爾遜相關性為0.97（圖2d）。

此外，圖2e顯示，天然Cas9、祖先序列重建和48個生成蛋白的靶上和脫靶的編輯效率。圖2f展示自然Cas9、祖先序列重建，以及生成蛋白在靶向編輯效率和特異性方面的對比。

生成的基因編輯器，在人類細胞中發揮作用

然後，研究者進一步將關註范圍縮小到CRISPR-Cas9系統，並在CRISPR-Cas圖譜中的238,917個Cas9蛋白上，訓練蛋白質語言模型。

使用這些模型，研究者生成可與SpCas9互操作的Cas9樣蛋白。也就是說，它們與基因組的相同部分（PAM）結合，並與相同的sgRNA相容，因此，它們可用於相同的應用。

研究者選擇其中48個生成的序列，用於在人類細胞中進行嚴格的功能表征。

最熱門的OpenCRISPR-1，在靶向位點的活性與SpCas9相當（OpenCRISPR-1的編輯率為55.7%，SpCas9的編輯率為48.3%），但令人驚訝的是，在脫靶位點的編輯減少95%（OpenCRISPR-1的編輯率為0.32%，SpCas9為6.1%）。

此外，作為一種非常新的蛋白質，OpenCRISPR-1與SpCas9相距403個突變，與 CRISPR-Cas圖譜中的任何天然蛋白質相距182個突變。

多種生成的核酸酶（綠色），包括OpenCRISPR-1（深綠色），具有與SpCas9（藍色）相當或更高的靶向活性，但脫靶活性要低得多

研究者們還發現，當與脫氨酶配對時，OpenCRISPR-1和SpCas9在精確編輯靶基因組中的單個堿基時，具有相似的活性和特異性。

他們還能保持堿基編輯活性，同時通過用由另一種Profluent訓練的蛋白質語言模型生成的脫氨酶，來提高特異性。

使用ABE8.20（一種高活性工程脫氨酶）以及生成的脫氨酶PF-DEAM-1和PF-DEAM-2進行堿基編輯時，OpenCRISPR-1的功能與SpCas9非常相似

最後，為進一步優化所生成的核酸酶的活性，研究者還訓練一個模型來為任何給定的Cas9樣蛋白生成相容的sgRNA。

與SpCas9的sgRNA相比，這些生成的sgRNA可以提高所測試的五種蛋白質中四種產生的核酸酶的活性。

對於測試的5種生成的核酸酶中的4種，使用模型生成的sgRNA提高編輯效率

AI，正在改善醫療保健

現在，全世界都有很多項目，在用AI技術改善醫療保健。

比如，華盛頓大學的科學傢們正在用ChatGPT和Midjourney背後的方法來，創造全新的蛋白質，並且正在努力加速新疫苗和藥物的開發。

如今大火的許多生成式AI，背後都是由神經網絡驅動的。通過分析大量數據，神經網絡就習得某些技能。

比如，Midjourney以神經網絡為基礎，分析數百萬張數字圖像，以及描述每張圖像的標題。這樣，系統就學會識別圖像和文字之間的聯系，可以畫出“犀牛從金門大橋上跳下來”這樣的畫。

Profluent的技術，也是由一個類似的AI模型驅動的。

這個模型從氨基酸和核酸序列中學習，正是這些化合物，定義科學傢用來編輯基因的微觀生物學機制。

本質而言，它就是分析從自然界中提取的CRISPR基因編輯器的行為，學習如何生成全新的基因編輯器。

Profluent的CEO Ali Madani介紹道，這些AI模型都是從序列中學習的，無論是字符、單詞、計算機代碼，還是氨基酸的序列。

Madani先生在加州伯克利Profluent實驗室內，此前他曾在軟件巨頭Salesforce的人工智能實驗室工作

人類編輯基因，還會有多遠

目前，Profluent尚未對這些合成基因編輯器進行臨床試驗，因此尚不清楚它們是否能與CRISPR的性能相媲美，甚至超過CRISPR。

但他們的研究表明，AI模型可以產生能夠編輯人類基因組的東西。

盡管如此，這項成果還不太可能在短期內影響醫療保健。

UC伯克利創新基因組學研究所的基因編輯先驅兼科學主任費Fyodor Urnov表示，科學傢們並不缺乏天然存在的基因編輯器，用來對抗疾病。

真正的瓶頸在於，這項編輯器在用於臨床治療之前，還會因安全性、制造、監管審查產生極高的成本。

但是，隨著學習越來越多的數據，生成式AI系統的潛力不可小覷。

如果Profluent的技術繼續改進，終有一天，科學傢們可以用更精確的方式編輯基因。

到那時，我們可能身處這樣一個世界——許多藥物和治療方法，都能快速為個人量身定制。這是今天的人們所不敢想的。

“我夢想著這樣一個世界，我們可以在幾周內按需提供CRISPR，” Urnov博士說。

還有一個重大的問題就是，CRIPSR有風險嗎？

長期以來，科學傢們一直在警告：不要使用CRISPR進行人類增強！

因為，這是一項相對較新的技術，很可能會產生不良的副作用，比如引發癌癥。而且還有些人會用於非道德的用途，比如轉基因人類胚胎。

合成基因編輯器，也面臨著這項問題。而如今，科學傢們已經掌握編輯胚胎所需的一切技術。

但Fraser博士表示，如果真的有人想用它們做壞事，也隻會使用現有的東西，而非AI創建的編輯器。

AI成功改寫人類DNA：全球首個基因編輯器開源近5倍蛋白質宇宙LLM全生成

相關推薦

改寫基因治愈心臟病等來終極答案

調查：超過一半的英國人支持通過基因組編輯來預防嚴重疾病

“木頭姐”押註技術革命 163頁重磅年度報告來

科學傢設計CRISPR噬菌體 - 可對細菌實施基因編輯的特殊病毒

你身體裡的DNA能存下整個宇宙的數據

黃仁勛向臺積電放核彈：幹掉40000臺CPU服務器計算光刻提速40倍

下棋下哭柯潔的DeepMind 這次要讓生物界地震？

考古學傢發現1.2萬年前日歷：足以改寫人類文明的歷史

科學WE大會十周年揭秘大國重器騰訊前海新總部將建永久科技館

新的DNA測序方法打開小分子藥物與目標基因組結合時的“黑箱”

AI驅動的圖像編輯器可以幫助在線供應商創建獨特的產品照片

被拍扁的蚊子成犯罪“目擊證人”：血跡DNA為破案立功

最強開源大模型一夜易主：谷歌Gemma 7B碾壓Llama 2 13B 重燃開源之戰

30億用戶體驗全新生成式AI! Meta即將迎來“新紀元”

AI成功改寫人類DNA：全球首個基因編輯器開源 近5倍蛋白質宇宙LLM全生成

相關推薦

AI成功改寫人類DNA：全球首個基因編輯器開源近5倍蛋白質宇宙LLM全生成