
DNA用作数字数据存储设备
人体DNA存储高清电影可供不间断播放一百年
“使用酶驱动、可持续、低成本的方法在 DNA 中写入大量数字信息的集成信息存储技术。遗传物质 DNA 作为数字信息存储介质引起了人们的极大兴趣,因为它的密度和耐用性优于现有的硅基存储介质。例如,DNA 的密度至少比最紧凑的固态硬盘高 1000 倍,比最稳定的磁带耐用至少 300 倍。此外,DNA 的四字母核苷酸代码提供了一个合适的编码环境,可以像计算机和其他电子设备使用的二进制数字代码一样利用它来表示任何字母、数字或其他字符。”
————哈佛大学生物启发工程研究所

CanUmark.com
——参悟记•记忆之旅•论文探究——
DNA用作数字数据存储设备
DNA简介
细胞是生命的基本功能单位。它由对生命很重要的各种分子/细胞器组成。细胞核的中央单位由对生物体很重要的遗传分子组成。DNA或脱氧核糖核酸是所有生物体的遗传物质。几乎人体内的每个细胞都具有相同的 DNA。大多数 DNA 位于细胞核中(称为核 DNA),但也有少量 DNA 位于线粒体中(称为线粒体 DNA 或 mtDNA)。线粒体是细胞内的结构,可将食物中的能量转化为细胞可以使用的形式。它由 4 个化学碱基组成:腺嘌呤 (A)、鸟嘌呤 (G)、胸腺嘧啶 (T) 和胞嘧啶 (C)。人类 DNA 主要由大约 30 亿个碱基组成(99% 的碱基在所有人身上都是相同的)。

数据存储
数据存储是数字信息的收集和保留——应用程序、网络协议、文档、媒体、地址簿、用户偏好等背后的比特和字节。数据存储是大数据的核心组成部分。就在 20 世纪 70 年代之前,IBM 发布了几乎所有东西都使用的软盘。软盘用于初始化大型机、存储软件应用程序,并且是硬盘驱动器 (HDD) 降价之前唯一可用的永久性存储设备。HDD 在 1980 年代变成了光盘 (CD),固态硬盘 (SSD) 用固态芯片和闪存取代了旋转磁盘。闪存现在可以放在我们的口袋里,就像闪存驱动器一样,可以保存我们想要或需要的一切的硬拷贝。
传统存储设备的问题
• 用于数据存储的硅和其他不可生物降解的材料会污染环境。
• 数字存储的线密度为每平方毫米10kb。
• 随着数据的增加,当前的数据存储技术将不足以存储未来的数据,因为数据每天都在增长。由于缺乏存储空间,即使是潜在的重要信息也可能丢失。
• 光盘处理不当会导致其中的数据丢失。
• 固态驱动器的写入周期数有限。
• 没有互联网连接,就无法访问存储在云中的数据。
使用DNA作为存储设备
遗传物质 DNA 作为数字信息存储介质引起了广泛关注,因为它的密度和耐用性优于现有的硅基存储介质。DNA 的四字母核苷酸代码提供了一个合适的编码环境,可以像计算机和其他电子设备使用的二进制数字代码一样利用它来表示任何字母、数字或其他字符。
• 稳定性:DNA 是一种非常稳定的分子,尤其是当它储存在寒冷、干燥和黑暗的条件下时。猛犸象 DNA 在较冷的地区被发现并保存了数千年。
• 密度:一克 DNA 可以存储 700 TB 的数据。要在硬盘驱动器上存储 700TB,您需要 233 个 3TB 驱动器,总重 151 公斤。理论上可以“在大约一杯 DNA 中存储至少 1 亿小时的高清视频。”
• 保质期长:DNA 是一种非常坚固的材料,保质期很长,数据不会衰减。
• Similar Coding Scheme : 自然界的编码语言与我们在计算机中使用的二进制语言非常相似

在人类历史上,存储的信息量急剧增加——从早期的洞穴壁画到作为未来存储介质的 DNA(来源)。
计算机和有机细胞有很多共同点。在计算机中,信息被编码为称为位、1 和 0 的数字串,在读取时执行程序。在细胞中,信息存储在读取时产生蛋白质的四个核碱基字母中。计算机数据以字节为单位。一个字节有八位,一千字节有 1000 位,等等。现在假设 DNA 的每个字母代表两位信息,其中 A = 00、T = 01、C = 10 和 G = 11。在 DNA 分子中,一个 exabyte 的 DNA 数据可以存储在一立方毫米内。
历史
1988 年,艺术家乔•戴维斯 (Joe Davis) 与哈佛大学的研究人员合作,最早使用 DNA 作为存储手段之一。他们在大肠杆菌中的 DNA 序列中存储了一个图像,该序列以 5 x 7 矩阵组织,这是一张代表生命和女性地球的古代日耳曼符文的图片。该矩阵背后的基本原理是使用二进制系统,其中 1 对应于暗像素,而 0 对应于亮像素。
2011 年,George Church、Sri Kosuri 和 Yuan Gao 进行了一项实验,他们编码了一本由 Church 合着的 659-kb 的书。为此,他们使用了二对一对应过程,其中二进制零由腺嘌呤 (A) 或胞嘧啶 (C) 表示,一个由鸟嘌呤 (G) 或胸腺嘧啶 (T) 表示。经检查,DNA中发现了22处错误。
2012 年,哈佛大学的 George Church 及其同事发表了一篇文章,其中用数字信息对 DNA 进行了编码,其中包括一本 53,400 字的书的 HTML 草稿、11 张 JPG 图片和一个 JavaScript 程序。研究人员使用了一个简单的代码,其中位与碱基一对一映射,导致相同碱基的长时间运行。这些都是容易出错的突变的高风险。这一结果表明,除了它的其他功能外,DNA 还可以是另一种存储介质,例如硬盘和磁带。2013年,欧洲生物信息学研究所(EBI)的研究人员也发表了另一篇文章,详细介绍了500万比特数据的存储、检索和再现,解码精度为99.99-100%。[16] 这些创新用作纠错编码方案以确保极低的数据丢失率,以及将数据编码为一系列重叠的短寡核苷酸的想法,可通过基于序列的索引方案识别。此外,各个 DNA 链的序列重叠,每个数据区域重复四次以避免错误。这四个链中的两个是反向构建的,目的是消除错误。每兆字节的成本估计为 12,400 美元用于编码数据和 220 美元用于检索。各个 DNA 链的序列以这样一种方式重叠,即每个数据区域重复四次以避免错误。这四个链中的两个是反向构建的,目的是消除错误。每兆字节的成本估计为 12,400 美元用于编码数据和 220 美元用于检索。各个 DNA 链的序列以这样一种方式重叠,即每个数据区域重复四次以避免错误。这四个链中的两个是反向构建的,目的是消除错误。每兆字节的成本估计为 12,400 美元用于编码数据和 220 美元用于检索。
2013 年,Manish K. Gupta 及其同事开发了一款名为 DNA Cloud 的软件,用于将计算机文件编码为其 DNA 表征。它实现了 Goldman 等人提出的算法的内存效率版本。将数据编码(和解码)到 DNA(.dnac 文件)。
2015 年 2 月,苏黎世联邦理工学院的研究人员在一篇文章中报道了 DNA 编码数据的长期稳定性。该团队通过 Reed-Solomon 纠错编码和通过溶胶-凝胶化学将 DNA 封装在二氧化硅玻璃球内来增加冗余。
2016 年,Church 和 Technicolor Research and Innovation 发表了一项研究,其中从 DNA 中存储和恢复了 22 MB 的 MPEG 压缩电影序列。发现序列的恢复具有零错误。
2017 年 3 月,哥伦比亚大学和纽约基因组中心的 Yaniv Erlich 和 Dina Zielinski 发表了一种称为 DNA Fountain 的方法,该方法以每克 DNA 215 PB 的密度存储数据。该技术接近 DNA 存储的香农容量,达到理论极限的 85%。该方法还没有准备好大规模实施,因为合成 2 兆字节的数据需要 7000 美元,读取它需要另外 2000 美元。
2018 年 3 月,华盛顿大学和微软发布了展示存储和检索大约 200MB 数据的结果。该研究还提出并评估了一种随机访问存储在 DNA 中的数据项的方法。2019 年 3 月,同一个团队宣布他们已经展示了一个全自动系统来编码和解码 DNA 中的数据。
2019 年 6 月,科学家报告说,所有 16 GB 的维基百科都已被编码到合成 DNA 中。
第一篇描述通过酶切在天然 DNA 序列上进行数据存储的文章发表于 2020 年 4 月。在这篇论文中,科学家们展示了一种在 DNA 主干中记录信息的新方法,该方法支持按位随机访问和内存计算。
DNA 中的数字数据存储

DNA 中数字数据存储的主要步骤概述
有关此技术工作的详细知识,请阅读这篇评论文章 https://doi.org/10.1038/s41576-019-0125-3
参考
1. https://ghr.nlm.nih.gov/primer/basics/dna
2. https://www.redhat.com/en/topics/data-storage
3. https://wyss.harvard.edu/technology/dna-data-storage/
4. Goldman, N.、Bertone, P.、Chen, S.等。在合成 DNA 中实现实用、高容量、低维护的信息存储。自然 494, 77–80 (2013)。https://doi.org/10.1038/nature11875。
5. Church GM、Gao Y、Kosuri S. DNA 中的下一代数字信息存储。科学。2012;337(6102):1628。DOI:10.1126/科学.1226355
6. Extance A. 以存储遗传信息而闻名的分子是否也可以存储世界数据?自然。2016 年;537(7618):22-24。DOI:10.1038/537022a
7. Yong E. Synthetic double-helix 忠实地存放了莎士比亚的十四行诗。自然。2013 年 1 月。DOI:10.1038/nature.2013.12279
8. Blawat, M.、Gaedke, K.、Hütter, I.、Chen, XM、Turczyk, B.、Inverso, S.、Pruitt, BW 和 Church, GM (2016)。DNA 数据存储的前向纠错。Procedia 计算机科学, 80, 1011–1022. https://doi.org/10.1016/j.procs.2016.05.398
9. Erlich, Y., & Zielinski, D. (2017)。DNA Fountain 支持强大而高效的存储架构。科学,355(6328),950–954。https://doi.org/10.1126/science.aaj2038
10. Grass, RN、Heckel, R.、Puddu, M.、Paunescu, D. 和 Stark, WJ (2015)。具有纠错码的二氧化硅中 DNA 数字信息的稳健化学保存。Angewandte Chemie – 国际版,54(8),2552-2555。https://doi.org/10.1002/anie.201411378
11. Limbachiya, D.、Dhameliya, V.、Khakhar, M. 和 Gupta, MK (2016)。关于存档 DNA 存储的最佳代码族。第七届国际信号设计研讨会及其在通信中的应用,IWSDA 2015,123-127。https://doi.org/10.1109/IWSDA.2015.7458386
12. 服务,R. (2017)。DNA 可以将世界上所有的数据存储在一个房间里。科学。https://doi.org/10.1126/science.aal0852
13. Shah, S.、Limbachiya, D. 和 Gupta, MK (2013)。DNACloud:一种在 DNA 上存储大数据的潜在工具。http://arxiv.org/abs/1310.6992
14. Yong, E. (nd)。这个 DNA 斑点包含一部电影、一个计算机病毒和一张亚马逊礼品卡。大西洋。2020 年 9 月 6 日检索自 https://www.theatlantic.com/science/archive/2017/03/this-speck-of-dna-contains-a-movie-a-computer-virus-and-an-amazon -礼品卡/518373/
15. 微软和华盛顿大学展示了第一个全自动 DNA 数据存储。(2019)。创新故事。https://news.microsoft.com/innovation-stories/hello-data-dna-storage/
16. Organick, L., Ang, SD, Chen, YJ, Lopez, R., Yekhanin, S., Makarychev, K., Racz, MZ, Kamath, G., Gopalan, P., Nguyen, B., Takahashi , CN, Newman, S., Parker, HY, Rashtchian, C., Stewart, K., Gupta, G., Carlson, R., Mulligan, J., Carmean, D., ... Strauss, K.( 2018)。大规模 DNA 数据存储中的随机访问。自然生物技术,36 (3), 242–248。https://doi.org/10.1038/nbt.4079
17. 帕特尔 (2018)。DNA 数据存储获得随机访问。IEEE 频谱:技术、工程和科学新闻。https://spectrum.ieee.org/the-human-os/biomedical/devices/dna-data-storage-gets-random-access
18. Shankland S(2019 年 6 月 29 日)。“初创公司将所有 16GB 的维基百科打包到 DNA 链上,以展示新的存储技术——Catalog 认为,生物分子的寿命将比最新的计算机存储技术长得多”。 中央网。2020 年 9 月 6 日检索。
19. Tabatabaei, SK, Wang, B., Athreya, NBM, Enghiad, B., Hernandez, AG, Fields, CJ, Leburton, JP, Soloveichik, D., Zhao, H., & Milenkovic, O. (2020)。DNA 穿孔卡,用于通过酶促切口存储天然 DNA 序列数据。自然通讯,11(1)。https://doi.org/10.1038/s41467-020-15588-z
20. Ceze, L., Nivala, J. & Strauss, K. 使用 DNA 的分子数字数据存储。 Nat Rev Genet 20, 456–466 (2019)。https://doi.org/10.1038/s41576-019-0125-3