你身體裡的DNA能存下整個宇宙的數據


恐龍滅絕6000多萬年後,科學傢們獲得一塊有史前蚊子的琥珀,從蚊子血中獲得恐龍的基因,從而讓遙遠的生物復活。講這個故事的《侏羅紀公園》,至今仍位列全球電影票房前十。這個系列故事的原理很簡單:DNA存儲恐龍的生物信息,科技讓它重新表達。

現在,用 DNA 想象另一個故事:在宇宙長河中,“人類世紀”也寂滅。另外一種智慧生物出現,TA 們去探究遠古的“人類文明”。有什麼會承載人類文明的記憶?氣溫異變,地球上的龐大數據中心徒留遺跡。

而凍土中有一份 DNA,它很輕,隻有 1 公斤,看起來是一些被封裝在膠囊裡的白色粉末。讀取後,裡面卻記載地球上曾有的巨量信息。視頻、文字、代碼展現人類歷史進程中的無數發明和文藝作品。於是那個遙遠文明的痕跡在宇宙間再次展開。


這是另一個科幻設定。背後的技術正是目前被關註的一個前沿方向:DNA 存儲信息。在大自然裡,DNA 負責存儲遺傳信息。單個人體細胞的平均直徑是 5 到 200 微米,這其中的 DNA 可以包含一個人全部的遺傳信息:30 億對堿基。

那為什麼不能用堿基存儲別的信息?這個科幻般的設想,正在走出實驗室,被當作信息存儲的未來方案。

01 基因組數據太多,怎麼辦?

本來是生物學傢想解決生物學發展的問題。

11 年前,一群生物信息學傢在德國的一傢酒店裡討論“數據存儲問題”。Nick Goldman 也在其中,那是他在歐洲生物信息所(EBI)擔任高級科學傢的第二年。

大規模的基因組測序正在進行,隨之產生的數據規模快速增長。存儲、壓縮這些數據是個麻煩事,現有的技術方案看起來不太行。據估計:人類基因組需要高達 2-40EB 的存儲容量。這可能超過一個世界級科技公司的雲存儲量——全世界蘋果用戶存儲在Google雲上的數據總量大約是 8 EB。這 8EB 數據,每月存儲費需要 2.18 億美元。(1EB= 102^3GB)

生物學傢們陷入沮喪。


Nick Goldman 拿著存儲莎士比亞所有十四行詩、一張照片和“我有一個夢想”演講片段的 DNA| 來源:EBI

有人靈光乍現:是什麼東西阻止我們用 DNA 來儲數據呢?

看起來是一句玩笑話,但是生物學傢們意識到這不僅僅是個玩笑,他們拿起手邊的餐巾紙,用圓珠筆認真計算起可行性。

DNA 存儲遺傳信息的原理並不復雜,它由四種核苷酸 A、T、G、C 組成,彼此兩兩對應,組成雙螺旋結構。核苷酸的序列,記錄遺傳信息。

在數字世界,所有的信息本質上是 0 和 1 組成的數據串。想要 DNA 存儲數字信息,簡單理解,原就是將 0 和 1 的編碼序列轉換成核苷酸的序列。DNA 存儲的優勢在於密度大,大約在你眼前逗號這麼大小,1 立方毫米的 DNA,就可以容納 9TB(1TB=1024GB)的信息。

用 DNA 存儲數據,也並不是完全新的想法,之前就有科學傢嘗試過。不過屬於科學和藝術的先鋒跨界實驗。

1988 年,藝術傢 Joe Davis 和哈佛大學的研究員,將一副名為“小維納斯”(Micro Venus)的圖案存儲到 DNA 短鏈中。


存儲進 DNA 的小維納斯(microvenus)圖片 來源:相關論文

這個圖案編碼簡易,白色的地方標記為 0、黑色的線條部分標記為 1,文件大小隻有 35bits,用 28 個核苷酸長度的 DNA 鏈條來存儲。

在那次酒店討論的 2 年之後,2013 年,Goldman 團隊發表研究成果。這次,他們存儲 5 種不同格式的文件,一共有 0.75MB。為確保信息讀取不出錯,科學傢存儲的時候,每份信息按照四倍冗餘的量來存儲。

五個文件分別是:

•154 首莎士比亞的 14 行詩(ASCII 編碼格式)

• 提出 DNA 雙螺旋結構的論文(PDF 版)

•一張照片(JPEG 格式)

•馬丁· 路德金“我有一個夢想”演講其中 26 秒片段(MP3 格式)

•一串霍夫曼密碼

這些年,DNA 存儲容量的上線不斷被突破。2019 年,美國一傢創業公司 Catalog 在 DNA 中存儲 16GB 的維基百科。這個公司表示自己正在建設世界上第一個基於 DNA 的大規模數字數據存儲和計算平臺。

02 編碼和解碼,要處理的事情很多

在一些生物學傢看來,用 DNA 來存儲是一件非常“順滑”的事。“大自然的編碼語言非常類似於我們在計算機領域使用的二進制語言。在硬盤上我們使用 0 和 1 來代表數據,而 DNA 中,我們擁有 4 種形式的核苷酸,A、C、T 和 G”。在瑞士聯邦理工學院的生物學傢 Robert Grass 說。

DNA 存儲的關鍵之一是用四個核苷酸去映射 0 和 1 兩個數字。方案可以很簡單。比如:A 對應 00,C 對應 01,G 對應 10,T 對應 11。然後再按照所需要的核苷酸序列,像串珠子一樣,把核苷酸們串成一串。(這就是 DNA 合成)需要讀取信息的時候,再運用基因測序技術,把這一串核苷酸序列讀取出來,再翻譯成 0 和 1 的字符串。這個流程就是編碼—DNA 合成—測序—解碼。

這個聽起來像是“把大象裝進冰箱”的流程,操作起來需要考慮的問題還有很多。不然科學傢就不必一直研究新的編碼方案。

在自然界存在的 DNA 中,A 和 T,C 與 G 兩兩配對,在一條 DNA 中,CG 與 AT 的存在比例基本均勻,為 50% 左右。如果 C 和 G 的含量過高,可能會讓 DNA 鏈產生一些復雜的物理結構。這就會讓 DNA 測序(解碼)變得復雜。


DNA 存儲的步驟| 來源:DNA Data Storage Alliance

而且在“串珠子”(也就是合成 DNA 鏈條)的過程中,錯誤率不可避免。目前大約每合成 100 個堿基就會出現一個錯誤。這是由目前的化學合成技術帶來的瓶頸,每合成一個堿基,有 99.9% 以上的正確率。但是當堿基串變長,0.01% 的概率相乘,錯誤就難以避免。目前人工合成 DNA 的單鏈的長度一般不超過 100 個堿基,極限在 300 個堿基左右。而在自然界的 DNA 動輒有幾千個堿基對。

也就是說,雖然 DNA 的存儲能力很強,但它們不得不以很多條短鏈的方式存在。如果存儲的信息量比較大,這些 DNA 短鏈就像一本散裝的書。它可以存儲很多信息,存在形式卻是一張張標著頁碼的紙。當然,可以將一條條 DNA 短鏈拼接成長鏈。這就意味著增加一道工序。在測序的過程中,又需要把長鏈打斷成短鏈。這是因為目前技術還不能一次性讀取長鏈。

在測序的過程中,也存在錯誤率。盡管目前的錯誤率已經低至 10^-3 數量級,比起商業硬盤的讀寫錯誤率,仍相差至少 9 個數量級。

正確率受到合成和測序這兩項技術的影響,科學傢想到設計編碼方案來避免:在編碼中增加糾錯機制。這樣,哪怕堿基合成和測序中出現錯誤,依舊能夠保證被存儲進 DNA 的內容能夠被正確讀取出來。

03 走出實驗室,還要考慮速度和成本

DNA 存儲也正在嘗試走出實驗室。

2020 年 10 月,微軟、西部數據和基因測序巨頭 Illumina、DNA 合成初創公司 Twist Bioscience 等聯合成立 DNA 數據存儲聯盟。

這是世界上第一個該領域的學術和產業鏈聯盟。這個聯盟希望制定技術和格式標準,最終建立一個可以通用的商業系統。

微軟研究院在 2015 年就成立 DNA 存儲的項目,並聘請華盛頓大學的計算機科學與工程學院的副教授 Karin Strauss 擔任高級首席研究經理(Senior Principal Research Manager)。

2013 年,她和同事去英國 EBI 訪問,解到 Goldman 和同事們關於 DNA 存儲的研究,就對這個方向產生很大的興趣。Strauss 說,“DNA 的密度、穩定性和成熟度讓我們興奮。”

在他們的研究中,想開發的是另一個功能:隨機讀取。常見的 DNA 測序技術中,必須要將所有的堿基串一次性讀取完,才能夠獲得信息。要麼不讀取,要麼全讀。如果隻想要數據中的某一個小片段,就會非常麻煩。

2016 年,他們發表一項研究,可以在 DNA 已經存儲的信息中搜索到指定的圖像,定位後,用酶來復制所需的 DNA 片段,然後隻需讀取這一小段即可。


Karin Strauss(右)和兩位研究合作者|來源:csenews

要讓 DNA 存儲離商用更進一步,還需要解決合成速度和成本。現在合成速度是每秒存儲上千個字節(KB),成熟的雲存儲方案已經有每秒千兆字節(GB)以上。

這意味著,編寫 DNA 的速度還需要提升 6 個數量級。如何讓提升數據處理量?就像並行計算能夠提升數據處理速度,科學傢希望 DNA 在合成時也可以並行多條,同時處理。

2021 年,微軟開發出首個納米級 DNA 存儲器,能夠在每個平方厘米的區域上,同時合成 25X106(2650)條堿基序列。這個新的技術把原來同時合成堿基序列的數字從個位提升到千位。這個吞吐量,讓 DNA 合成速度變成每秒兆字節(MB)。


新的方法讓 DNA 合成的陣列數量大大增加|來源:微軟研究院

更大的吞吐量,也就意味著更低的成本。現在 DNA 存儲的成本是每萬億字節(TB)8 億美元。而磁帶存儲成本已經降到每萬億字節 16 美元以下。這樣比起來似乎毫無競爭力。但現實生活中的大型數據中心的維護成本極高,還要定期更新硬件;DNA 存儲密度大、體積小、可以長時間不變質的優勢就變成降維打擊。

所以量大、讀取頻率低的“冷數據”,被認為是 DNA 存儲最近的應用場景。Twist Bioscience 最近在一份市場報告中強調,這種技術能夠幫助科技企業在“大規模、低功耗”情況下更有效地部署。

另外一些樂觀的科學傢,更相信技術的進步。

自 2003 年人類基因組計劃完成以來,測序成本降低 200 萬倍。2016 年時,面對每秒千字節的速度,Goldman 說,“(讀寫的速度提升)6 個數量級對基因組學來說沒什麼大不的。你隻需要再等一會兒。”

那這“一會兒”是多久呢?這個領域似乎到臨門一腳,仍在等待突破。


相關推薦

2023-11-27

人在網上求助,她說自己還是嬰兒的時候,她的母親給她身體裡植入一個寵物微芯片,她很苦惱,覺得媽媽侵犯自己的權益。據她描述,這種芯片是寵物中常用的,通過掃描可以讀取到儲存在數據庫裡的信息,一般包括寵物主人

2022-11-07

模擬重建過去的生命世界,可以加深對有頜類重要器官和身體構型演化的認識,也有可能揭示環境因素之外,生物間相互作用對各主要類群興起與滅絕的影響。這是人類認識當今地球生物和環境協同演變規律的重要途徑。”9月

2024-04-25

點。棘手的是,大多數Cas9蛋白的長度超過1000個氨基酸,整個設計空間包含20^1000種可能的序列,比起可觀測宇宙中的原子數量,它都要高出幾個數量級!而且,由於這些蛋白質必須以精確的順序協調許多相互作用,才能實現精確

2022-07-26

展類比元宇宙的發展,以此來評估元宇宙的經濟影響。這裡的移動設備指的是能夠上網的移動設備——如智能手機和平板電腦,以及支持使用移動設備的基礎設施和相關生態系統。▲移動設備的發展歷程Analysis Group稱,元宇宙與

2024-03-16

DNA數據存儲聯盟本周推出首個基於DNA的數據存儲規范。該規范概述一種在DNA數據檔案中編碼基本信息的方法,這對於開發和商業化可互操作的存儲生態系統至關重要。DNA 數據存儲使用稱為寡核苷酸 (oligos) 的短脫氧核糖核酸 (DNA)

2022-08-27

區總會出現這樣的聲音:“無意點開,厄運走開,祝大傢身體健康。”“接全陰,接TCT正常,接身體健康。”仿佛走進一座供奉著HPV菩薩的電子寺廟。除賽博迷信,還有一部分困在HPV焦慮中的女性,走向兩性信任危機。大部分婦

2022-10-17

一個AI模型,就能還原出這人的年齡、膚色、瞳色、甚至整個3D頭像……即使在此之前,沒有任何人目擊過這個嫌疑犯也沒關系,用它合成的照片直接就能發佈通緝令。據提供這項技術的公司介紹,他們之前用這種手段合成過一

2022-10-02

能是防禦性措施,改變不TikTok在美國,特別是在青少年群體裡的“燎原之勢”。等到TikTok體量進一步壯大,廣告業務深入開展,兩傢之間的競爭隻會更加激烈。對Meta來說,這或許才是未來要面對的,生死存亡的一戰。止血求生

2022-09-08

。然而,數據存儲成本不斷增長,而人們不斷生產和消費的數據卻無法跟上可用的存儲。根據互聯網數據中心(IDC)的數據,全球數據預計在2025年將從2018年的33兆字節增加到175兆字節。總部位於波士頓的創業公司Catalog提出一個

2022-07-06

才能構建一個能夠與真實世界交互的虛擬世界。電子遊戲裡的每個對象都是由幾何信息、紋理、重量、行為、動畫、聲音等物理特征組成的三維數據,而這些三維數據很容易在移動傳輸的過程中被損壞。與三維數據不同,JPEG是

2024-05-02

切安好。在評論區,網友紛紛祝張韶涵早日康復,多註意身體。資料顯示,急性腸胃炎的典型臨床表現包括腹痛、腹瀉、惡心、嘔吐、食欲減退等。對患者而言,除治療外還要保證充分休息,同時由於劇烈的嘔吐和腹痛,此時需

2022-10-12

浸感。現在,Meta已經建立一個人工智能模型來預測整個身體的位置,但目前還在不斷的測試之中。而這些有腿的數字人物將應該會在“明年晚些時候”首先出現在Horizon Wolrd裡,並最終在手機、VR 頭顯等設備上推出。此外,在上

2022-11-04

erry,死亡時僅37歲。生前,她是一名妻子和母親,還是傢裡的姐姐。報道稱,盡管執法部門第一時間提取DNA樣本,並在2000年將其加入數據庫,但卻未能與任何可能的失蹤女性相匹配。不過,進入新世紀以來,傢用的DNA檢測試劑

2023-11-15

交流和其他簡單的行為。在馬斯克構想的未來中,幫助有身體疾病的人類,僅僅是最基礎的功能,將來還會有更先進的功能,例如將人體記憶上傳至電腦,用大腦控制開車,甚至是上傳思想,得到“永生”。在大腦裡插入異物,