每日最新頭條.有趣資訊

世界上容量最大的“硬碟” 其實是你的遺傳物質

  如果說小時候上學時最想要什麽東西,大概會是《 哆啦 A 夢 》裡的記憶麵包吧。

遊民星空

  大家應該對記憶麵包都不陌生,只要吃下印了課文內容的記憶麵包,課文就記牢了,不僅能省下時間去玩,還能得到老師誇獎。這塊麵包應該是很多人童年的夢了吧,“ 要是真有記憶麵包就好了 ”。不知道多少人這樣想過。

遊民星空

  那如果想讓記憶麵包成真需要做到什麽?

  一.把信息存儲到麵包上

  二.吃下麵包,讓信息進入人體

  三.消化信息

遊民星空

  簡單看步驟的話,現在的科技就能做到前兩步了,之前看到新聞, DNA 存儲技術已經能大規模寫入數據了。

遊民星空

  今年 6 月,美國科技公司 Catalog 將 16 gb的維基百科( 英文版 )全部文本保存到了一條人工合成的 DNA 中。

遊民星空
這滴液態呈現的 DNA 裡有一整部維基百科

  DNA 存儲最直接的優點是存儲量大。上面那塊黃黃的液體重 3g ,但是其中 DNA 重量微乎其微。根據紐約基因組中心的數據 , 一克 DNA 可存儲 2.15 億 GB 數據。

  把這些數據存到 1T 容量, 7mm 規格的硬碟裡,硬碟堆在一起 , 有 1505 米高。世界最高建築,杜拜塔也只有 828 米。。。

遊民星空
用 7mm 厚的硬碟堆到兩個杜拜塔高,想想都有些小刺激

  DNA 存儲不僅存儲量大,壽命還長。

  不算吃 U 盤的怪獸,我一個 U 盤大概用 5 年。正常硬碟使用壽命在 5 -10年,遇到斷電、衝擊等情況還會更短。

  常溫下 DNA 的可讀性能保持 2000 年。保存得當,簡直一克永流傳。。。甚至萬年前的 DNA 都被還原了。

遊民星空
基因專家宣稱,已破解 70 萬年前史前馬的 DNA

  以目前水準, DNA 可以存一些政府文件,歷史材料。估計以後也沒什麽歷史、文化遺產之爭了。

遊民星空
我是一隻沒有感情的粽子

  隨著技術發展, DNA 存儲可以取代數據中心。我剛剛才知道,原來卡車拉硬碟比光纖快多了。

遊民星空

  1Gbps 光纖直連,傳送一億 GB 數據要 20 年,卡車隻用幾天就能從南拉到北,從白拉到黑。。。

遊民星空
滿載硬碟的 AWS Snowmobile 卡車能攜帶一億 GB 數據

  有了 DNA 存儲後,這個時間隻用以小時計了,數據隨身就帶走。

  那電子數據是怎麽存進 DNA 裡的呢?記得生物課上講過, DNA ( 脫氧核糖核酸 )是一種雙螺旋結構( doublehelix )的生物大分子,由鹼基組成。

遊民星空

  DNA 鏈條上的長條就是鹼基了~ DNA 中通常有四種鹼基,大家直接理解成 A,T,C,G 就可以。

遊民星空
圖片用不同顏色代表不同鹼基

  鹼基的排列順序,決定了長相、智力,不同病症的發病風險等。隨便舉個栗子, ACA 的排列讓人眼神不好,按 CAC 排能讓人長高。其實就是遺傳信息。

  相信大家都明白了:DNA 鏈條能儲存遺傳信息,那也能儲存數字信息。

遊民星空

  人工合成 DNA 進行數據寫入,DNA 測序進行數據讀取

  這麽簡單的邏輯,當時卻根本沒人細想,大家都在忙著破解“ 基因密碼 ”。只要找出鹼基排列的規律和意義,就像擁有了人類修改器,改長相改素質改壽命,變白變美變高變長壽。

遊民星空

  於是“ 人類基因組計劃 ”開始了。

遊民星空

  這項工程花費 30 億美元和十幾年時間,測出完整的人類基因序列。如果把破解鹼基排列比作翻譯一本書 , 此時相當於終於把書拿到手裡了。。。

  別笑,這是人類的一大步好麽。

遊民星空

  雖說沒有立竿見影的成果,但這工程推動了  DNA  測序技術的發展。要知道在上世紀 80 年代,  DNA  測序還是全人工的。巨大需求量的刺激,讓  DNA  測序進入了自動化時代。

遊民星空
早期的Sanger全程人工,過程複雜,不是老司機根本做不了

  破解不了鹼基序列,人們就變實際了。都要恰飯的嘛,能拿諾貝爾的發現,怎麽不得利用起來?看不懂沒關係啊,排成咱看得懂的樣子,好歹當個 U 盤?於是 DNA 存儲技術出現了。。。

遊民星空
雖然依然離不開人工,DNA 測序高大上多了

  如果把鹼基看成 A , T , C , G 四個字母 , 鹼基序列實際上就是一串英文。而數據實際上就是一串數字。把數字和鹼基字母對應起來,重新排列,就能表達內容。

遊民星空
把鹼基按新順序排就成了糖葫蘆,啊呸,是表達意義

  相信大家小時候都做過這種題。。。

遊民星空

  題目就不去算了~ DNA 存儲就是類似的思路。

遊民星空

  給水果賦予不同的數字,假如我想表達 324121 ,只要排列水果就可以了。

遊民星空

  知道轉換規則,就能從排列中讀取信息。DNA 存儲就是通過把鹼基看成固定數字,將數字化的數據轉換成鹼基序列的方式。

  把 A,G 視為 0 ,C,T 視為 1 ,排列後合成。簡單粗暴,這就是最早的 DNA 存儲。

遊民星空
去年的時候,catalog 的 DNA 存儲設備還是個概念

  為了存儲更多數據,人們嘗試了把 A ,T ,C,G 看成 0 ,1,2,3 的四進製。

遊民星空
比如我們要轉換四進製 21130

  雖然四進製能縮短數據長度,但同一鹼基連續出現,會讓序列不穩定,影響數據的準確。

遊民星空
四進製時相當於一個鹼基表達兩個二進製數字

  更高的進製,四種鹼基又不夠用,為了解決這個問題,人們用了一種三進製的方案。這種方案裡從第二位開始編碼,以前一位鹼基來決定後一位。前一位鹼基是 A ,下一位就把 A 排除,用 C,G,T 來代表 0,1,2 。

遊民星空

  我們可以試一試。剛才的數字用三進製表達是 211101 。假設鹼基序列第一位是 A ,轉換結果就是 ATCTCGA 。

  這個結果是怎麽得來的呢?第一個字母是 A 時,按照表格,代表 2 的字母是 T,T 後面代表 1 的字母是 C,C 後面代表 1 的是 T,依此類推。

  解決了編碼問題,大家玩嗨了,動圖、音頻、電影先後被存入 DNA 。

遊民星空
哈佛大學存入大腸杆菌 DNA 的.gif

  2017 年,紐約基因組中心將電影火車進站存入 DNA 。

  遊民星空

  存入數據大小的記錄也快速刷新著, 2012 年哈佛 650KB 的記錄很快被 MB 級碾壓。2016 年記錄到了百兆級,微軟存了 200M 電子書,大概等同 789 本高中語文必修一。。。

  遊民星空

  今年微軟做了個 DNA 自動存儲系統。。。“ hello ”這 5 個字母的存儲和讀取花了 21 個小時。。。

  遊民星空
價值一萬美金的系統

  Emm …這就是 DNA 存儲的缺點了。。。微軟 2016 年的寫入速度是每天 20M ,一共花了 80 萬美刀的合成費用。又貴又慢。但有關 DNA 存儲的科技在不停進步。2001 年至今, DNA 測序從上億美元降到了不到一千美元。今年 Catalog 的寫入速度已經到了 4M 每秒。

  遊民星空
Catalog 用來把數據寫入 DNA 的設備

  成本降到十萬分之一,寫入速度快了千萬倍。這種進步幅度,足以對 DNA 存儲技術保持期待。在不久的將來,也許電腦裡的硬碟就換成瓶裝 DNA 了。

  遊民星空

  不過記憶麵包的事還是忘了吧,至少靠 DNA 存儲技術是沒辦法實現記憶麵包的。雖然 DNA 存在於人體每一個細胞中,但是大腦卻無法讀取 dna 中的任何信息。不信現在可以試試能不能從 DNA 裡感受到你的遺傳信息。

  遊民星空

  更何況,大腦完全讀不懂我們設定的排列規則,在它眼裡,這種 DNA 裡大概是這樣的。

  遊民星空

  所以,一直想著記憶麵包,還不如好好學習。努努力說不定就背下來了。畢竟一輩子要背的東西,也就那麽多。

獲得更多的PTT最新消息
按讚加入粉絲團