じつはDNAは長期記憶媒体として優れていて、たとえば7000前の歯のDNAから持ち主の特性が読み取られた実績がある。
記録容量についても、理論的には、大きさあたり磁気テープの1000万倍もの記録が可能で魅力的な記憶媒体だ。
2016年の7月にはマイクロソフトとワシントン大学の研究チームが200MBのデータの記録を成功させているが、最近、記憶容量と読み取り精度がさらに向上している。
DNAによるストレージシステムの現在についてみていこう。
・ランダムアクセスにより選んだデータを読み取る
初期のDNAによるストレージシステムは、読み取り時のエラー率が高く、これが大きな課題となっていた。
マイクロソフトとワシントン大学の研究チームは、ランダムアクセスによる記録方式を改良。これにより、400MBのデータがエラーなしで読み取れるようになった。
デジタルデータは「0、1」で表現されるが、DNAへデータを保存する際は4つの塩基「A、C、G、T」の配列を使う。データをDNA配列に翻訳して保存し、読み取るときはこれを解読する。
従来、DNAによるストレージシステムでは、特定のデータにアクセスすることが難しく、必要ないデータも含めて読み込み解読していた。ランダムアクセスを用いたストレージシステムでは、選択したDNAの断片を無数にコピーする「ポリメラーゼ連鎖反応」という技術を活用し、特定のデータの読み取りを実現している。
・DNA配列を増幅してエラー訂正
研究チームは、1300万を超えるDNA配列からなる、DNAファイルのライブラリーを構築。150塩基でできた各DNA配列の先頭には、ファイル内の位置を示すアドレスが振られている。そして、同じファイルに属するDNA配列は、新たに作られた短いDNA鎖「プライマー」に面するように設計されている。
データの読み取り時には、プライマーを手がかりに、選択されたファイルに属するDNA配列のみを増幅。統計手法によって処理され、エラー訂正されたものから読み取り用のDNA配列を再構築することで、エラーのない読み取りが可能となった。
マイクロソフトは今後10年で、データセンター内で動作するDNAによるストレージシステム運用にこぎつける意向を示している。
データの保存や読み出しについて、現在人力でおこなっているプロセスも多く、使用するマシンも高価でまだまだコストが高いため、これを大幅に下げることも実用化の条件だろう。
参照元:DNA Data Storage Gets Random Access/IEEE SPECTRUM