有人把電影塞進了 DNA,算起來 1 克 DNA 能存五百萬部高清片|好奇心小資料

ADVERTISEMENT

人類的第一部電影,現在被儲存在了 DNA 裡。

最近,哥倫比亞大學和紐約基因組中心(NYGC)的科學家們在《科學》雜誌上發表了新的研究,以極高的密度在 DNA 中儲存資料,理論上 1 克 DNA 可以儲存 2.15 億 GB 資料,更新了人工 DNA 儲存資訊的記錄。

實驗當中,除了世界上第一部電影《火車進站》之外,還有五個檔案儲存在 DNA 分子內:

  • 一個完整的作業系統(KolibriOS)檔案;
  • 一份計算機病毒;
  • 一份先驅者鍍金鋁板(Pioneer plaque)圖片檔案;
  • 一份價值 50 美元的亞馬遜禮品卡圖片檔案;
  • 1948 年資訊學家克勞德·夏農的一篇論文;

幾位科學家甚至放出瞭解碼軟體(在 GitHub 上提供)和原始輸入資料——但他們還玩了一個小遊戲,刪除了當中儲存的亞馬遜禮品卡的圖片,並挑戰同行科學家解碼原始資料,獲取禮品卡兌換碼。

古老的資訊傳遞物質 DNA,全名是脫氧核糖核酸,是生命生生不息的物質基礎。

自然界中,DNA 由四種核苷酸構成:腺苷酸(AMP)、鳥苷酸(GMP)、胞苷酸(CMP)和胸苷酸(TMP)。這四種核苷酸通過千變萬化的排列組合,編碼成參差多型的生命形式。

換言之,DNA 和硬碟驅動器的工作方式類似,隻不過後者是用 0 和 1 來儲存資料,而前者用四種基本的核苷酸來儲存生物體的基因資訊。基於之前的研究,DNA 可以人工排列編碼,也可以儲存二進位製資訊。

根據估算,單個人類體細胞中的 DNA 重量約為 6.6 x 10^-12 克,成年人全身上下的 DNA 重量也才約 244 克,個體差異從 66 克到 330 克不等。

DNA 儲存的優勢十分明顯:首先資訊密度巨大,1 個鹼基就能儲存 1.8 位元資料,1 克 DNA 就相當於一箇中型資料中心。

其次,DNA 儲存年代更久遠,超過 100 年,並能無限複製。相比磁碟數十年就會效能降低,冰凍的 DNA 甚至能儲存數萬年。

第三,DNA 作為自然介質,人類在很長一段時間內都不會失去讀取它的能力(如果不發生“第三次世界大戰”之類的、讓人類文明倒退的災難)。不像磁帶等昨日黃花的介質,讀取裝置已很難見到,只能束之高閣。

研究人員把這六個檔案壓縮成一個大小 2.1M 點檔案,並分割成 0 和 1 組成的短編碼。通過一種叫做噴泉碼(fountain code)的容錯校正演算法,他們將這些二進位製程式碼隨機地包裝成資料包,並將資料包的 0 和 1 對映到 DNA 的四種核苷酸上,00、01、10、11 分別對映為 A、C、G、T 四種核苷酸。

噴泉碼可以刪除錯誤的編碼組合,也可以恢復丟失的編碼。同時,演算法給資料包新增條形碼,這種條形碼則可以把二進位製程式碼復原成正確的順序。讀取的過程就是把打散的資料包重新按照順序排列起來。

他們總共編碼了 7.2 萬個 DNA 片段,每個片段由 200 個鹼基對組成,冗餘度僅 7%,約為儲存理論最大值的 86%。此時這些片段還是文字檔案,將交由舊金山的生物創業公司 Twist Bioscience 來合成實際的 DNA 分子。兩週後,一小瓶 DNA 分子寄回到科學家們的手中。

找回這些檔案則很簡單——用現在的 DNA 測序技術就行,然後用軟體來讀取這些資料並重新組合,零差錯地解碼了這些資料。

科學家們估計,每克 DNA 可以儲存 2.15 億 GB 資料,這大概是 4574 萬張 DVD 的容量,按每部藍光高清電影 40 GB 來算,1 克 DNA 可以儲存 537 萬部電影。

這些資料濃縮了成離心管中的一點點粉末。來自:紐約基因組中心

DNA 儲存技術並非新鮮技術。而新成果的突破在於,噴泉碼的容錯特性可以減少 DNA 編碼的冗餘。DNA 儲存資料的能力理論上受限於每種鹼基對應的 2 個位元,而因為生物特性和讀取的需求,需要在片段中加入冗餘資訊,這使得儲存能力降低到每種鹼基對應 1.8 個位元。

Erlich 和 Zielinsk 使用的噴泉碼技術將實際儲存能力達到這個理論值的 89%,平均每個鹼基可以對應 1.6 個位元,這比此前的方法多儲存 60% 的資料。

為什麼把 DNA 當成儲存介質這件事情最近變得更重要了?

因為我們正在面臨巨大的資訊儲存問題。根據國際資料公司(IDC)的報告,數字資訊的總量每兩年就翻一番,到 2020 年,網際網路將產生 44ZB (即 44 萬億 GB)的資訊。儘管不是所有資訊都需要永久儲存,浩瀚的資料對儲存能力仍然提出了巨大的挑戰。

作為消費者的我們可能覺得無所謂:存到雲端就好啦。但所謂“雲端”,仍然是服務商的儲存裝置,例如給蘋果 iCloud、 Facebook、Twitter 等大量科技公司提供雲服務的亞馬遜 AWS。

對於這些公司來說,找到容量更大的介質是勢在必行了,雖然 DNA 因為太貴,技術也還在早期,可能不是第一選擇。

DNA 儲存研究都是怎麼發展起來的?

2012.9

哈佛大學 George Church 和 Sri Kosuri 在 DNA 中編碼了 53400 字的書,11張 JPG 圖片和 1 個 JavaScript 程式。每克 DNA 儲存資料為 128 萬 GB。

ADVERTISEMENT

2013.1

歐洲生物資訊研究所 Nick Goldman 和 Ewan Birney 在 DNA 中編碼了《我有一個夢想》的音訊,生信研究所的照片,沃森和克裡克闡明 DNA 結構的論文,還有莎士比亞所有的十四行詩。

2016年

華盛頓大學和微軟合作,編碼了一段 OK Go 樂隊的 MV,一百多種語言的《世界人權宣言》,古騰堡計劃的前 100 本書和作物信託的種子資料庫。

ADVERTISEMENT

2017.2

哥倫比亞大學 Yaniv Erlich 和紐約基因組中心 Dina Zielinsk 成果發表,也就是我們現在看到的用 DNA 來儲存《火車進站》等資料。

用 DNA 來儲存資料價格有多貴?

這次實驗中 2 MB 資料的成本約為 7000 美元,但其中包括了質量確認的額外費用。而解碼則隻花了 2000 美元。這是因為目前 DNA 測序成本大幅下降,而對 DNA 合成的需求並不強烈,所以成本還降不下來。

其次是時間投入。相比於數字裝置的快速存取,DNA 儲存需要花很長時間合成,也要花很多時間讀取。這意味著,這項技術更適用於資料的存檔,而不能滿足實時存取的需求,不能像 U 盤那樣,隨時讀取和修改。

通過進一步的研究,科學家希望最大限度地降低 DNA 合成成本,並提高 DNA 的儲存能力,比如採用噴泉碼提高容錯率。

更多細節可以在項目網站上看到。也許不久的將來,“繩結記事”將煥發出全新的含義。

論文 DOI:10.1126 / science.aaj2038

製圖:馮秀霞

題圖:Pixabay

喜歡這篇文章?去 App 商店搜 好奇心日報 ,每天看點不一樣的。


» 好奇心日報

ADVERTISEMENT
ADVERTISEMENT