元素百科为您介绍史上最高密度DNA数据存储新法问世。人类正面临着一个数据存储的问题——全世界在过去两年中产生的数据比之前的数据总和还要多,并且这种信息迸发的趋势很快就将超过硬盘能够承载的能力。如今,研究人员报告说,他们想出了一种新的方式将数据编码进脱氧核糖核酸(DNA),从而创造出迄今最高密度大规模数据存储方案。
DNA数据存储优势
在这套系统中,1克DNA具有存储215拍字节(2.15亿千兆字节)的能力。原则上,它可以将人类有史以来的所有数据存储在一个大小和重量相当于两辆小货车的容器中。然而这项技术能否起飞主要取决于成本。
用DNA存储数据有很多优势。它是超级压缩的,并且在寒冷干燥的地方可以保存数十万年。同时只要人类社会还在读取和书写DNA,他们就能够解码这些信息。
美国哥伦比亚大学计算机学家Yaniv Erlich表示:“DNA不会像卡式录音带和CD那样随着时间而降解,并且它也不会过时。”此外不同于其他高密度的方法,如在一个表面上操纵单个原子,新技术可以一次书写和读取大量DNA,从而使其按比例扩增。
科学家从2012年便开始将数据存储于DNA中。当时,哈佛大学遗传学家George Church、Sri Kosuri和同事,利用由4个字母A、G、T和C组成的DNA链编码0和1的数字化文件,从而将一本具有52000个单词的书籍编码到数千个DNA片段中。
然而研究人员当时特殊的编码方案效率相对低下——每克DNA仅能够存储1.28拍字节的数据。其他方法或许做得更好。但是,没有人能够存储超过研究人员认为DNA理论上可以实际处理的一半数量的信息——大约每个DNA核苷酸编码1.8比特数据。
Erlich认为他能够接近这一极限。因此他与纽约基因组中心科学家Dina Zielinski分析了用于编码和解码数据的算法。他们从6个文件入手,包括一个完整的计算机操作系统、一种计算机病毒、1895年拍摄的一部叫做《拉西约塔来了一辆火车》的法国电影,和由信息理论家Claude Shannon在1948年进行的一项研究。
研究人员首先将文件转换为0和1的二进制字符串,并将其压缩成一个主文件,然后将数据分割成二进制代码的短字符串。他们设计了一种被称为DNA喷泉的算法,能够将字符串随机打包为所谓的水滴,之后他们又增加了额外的标签以便以后能够按照正确的顺序重新组装这些字符串。总的来说,研究人员生成了由72000个DNA链组成的数字列表,每个DNA链的长度为200个碱基。
研究人员把这些文本文件交给了Twist Bioscience,这是一家位于加利福尼亚州旧金山的初创企业,后者对这些DNA链进行了合成。两个星期后,Erlich和Zielinski收到了一封邮件,里面有一个小瓶子,而瓶中便是编码了他们的文件的一点点DNA。为了解码这些DNA,两人使用了现代DNA测序技术。这些序列被输入计算机,在这里遗传编码被重新转换为二进制代码,并使用标签重组为6个原始文件。
DNA数据存储法简化工作量
研究人员在3月2日出版的《科学》杂志上报告说,这种方法工作得很好,新文件不包含任何错误。他们还可以通过聚合酶链反应(一种标准DNA复制技术)为这些文件制作几乎不受数量限制的无差错文件副本。Erlich说,此外,他们能够在每个核苷酸编码1.6比特的数据,这比之前其他的任何方法多了60%,并且是理论极限值的85%。
“我爱这项工作。”目前供职于加利福尼亚大学洛杉矶分校的生化学家Kosuri说,“我认为这从本质上是一项决定性研究,表明你可以用这个规模在DNA中存储数据。”