將全世界的資料存於一間房內——DNA儲存,劃時代的新型資料儲存方式

ADVERTISEMENT

人類面臨資料儲存問題:在過去2年內,我們創造出的資料量大於有史以來所有資料量之和。資訊的洪流可能很快就會衝破硬碟的儲存能力。最近,有研究稱他們找到瞭解決方法——將資料編碼進DNA,而這一方法則是史無前例的大規模高密度資料儲存方式。該方法可以將215千兆位元組的資料資訊儲存在1g的DNA中。理論上,該方式可以將從古至今人類記錄的所有歷史儲存在幾個貨車大小的容器內。

DNA儲存具有諸多優點,它體型迷你,如果將其安置在乾燥低溫的地方,它可以儲存上千年。更重要的是,隻要人類社會還在閱讀和編寫DNA,他們所儲存的資訊就可以被解碼。哥倫比亞大學計算機學家Yaniv Erlich說,DNA不會像磁帶或者CD那樣隨著科技的發展而過時。新型技術可以在同一時間讀寫大量DNA資訊,也支援DNA的放大。

自此2012年以來,科學家已將資料資訊儲存於DNA之中。利用DNA四個主要成分的字母代表A、G、T、C,哈佛大學的遺傳學家們已經將一個52000詞的單詞書編碼進成千上萬的DNA片段中。但可惜的是,他們的編碼方式效率不高,且每克DNA隻能儲存1.28千兆的資訊。儘管存在更好的編碼方案,但與研究者預測的DNA儲存能力相比,任何實際的儲存方式都無法達到僅僅50%的DNA儲存利用率,而100%的利用率是每個核苷酸儲存約1.8位元資料(由於罕見卻不可避免的DNA寫入與讀取錯誤,每個核苷酸儲存1.8而非2位元資料)。

一個名叫Erlich的人認為他可以更加接近DNA的利用極限,他聯合另外一個科學家Dina Zielinski,一起尋找可以編碼以及解碼的演算法。他們將6個檔案的內容存於DNA中,而這些檔案內容包括全套計算機作業系統、一個電腦病毒、一個1895年的法國電影,以及一份資訊理論家Claude Shannon 1984年的研究。他們首先將檔案轉化為1和0的二進位製字元串,然後將其壓縮排一個主檔案。接著,他們將資料拆分成二進位製短字元串。Erlich 和Dina發明瞭一種名叫DNA噴泉的演算法,該演算法隨機將字元串打包成類似於小液滴。然後他們定義額外的標籤以便演算法可以按照正確的順序重新將資訊片段組合。最終,他們將所有數字資訊存於72000條DNA鏈中,每個DNA鏈的長度為200個鹼基。

ADVERTISEMENT

Erlich和Dina將這些資訊的文字檔案形式傳送給一家名為Twist Bioscience 的公司,這家公司將這些DNA鏈合成在了一起。兩週後,Erlich和Dina收到了這家公司寄給他們的一個裝有DNA編碼檔案的小瓶子,這二人用現代DNA測序技術對其進行編碼,然後將其錄入電腦。電腦將遺傳密碼翻譯回二進位製數字並利用標籤將其重新組裝6個原始檔案,這個方法有效地避免了在新檔案內產錯誤。他們將成果發表在科學

上,並通過聚合酶鏈反應(一種標準的DNA複製技術)可以製作無限數量且無錯誤的檔案。更重要的是,Erlich和Dina將每個核苷酸上編碼資料儲存大小提高到了1.6位元,而這一結果好過6成以往以85%的利用率為理論極限的實驗組成果(即理論利用率為 2位元 × 85% = 1.7位元)。

儘管具有無限的潛在價值,但此新方法卻並未大規模投入使用,因為每合成2兆的資料需要花費7000美元,除此之外,還需要2000美元來讀取它。或許隨著技術的發展,其成本會有所下降。就目前的狀態而言,相較於其他形式的儲存,DNA儲存寫入和讀取速度較慢,換言之,如果需要立即的資料處理,DNA方法就不可行了。

不過,未來的事情誰說的好呢,也許突然就在幾年後的一天,類似於Facebook和亞馬遜那樣的資料中心會被幾輛卡車大小的DNA儲存中心代替。

» 果殼精選

ADVERTISEMENT