|
图片来源@视觉中国
文 | 视察将来科技以后,数据的指数增长的算力的飞速晋升,让数据贮存的需要爆增。毕竟,宏大的数据需求足够的贮存空间,而计算与贮存又犹如好马配好鞍,二者相反相成。计算速度与贮存速度不婚配,就会遇到著名的冯·诺依曼瓶颈。
好在云端硬盘的遍及,才不至于泛起数据贮存空间不敷用的状况。但是,即使是数据上云,都仍然是无限的。预测数据显示,2040年时,人们将会见临必需贮存了个10的24次方数据的情况。为了撑持大数据反动,当初,咱们也必需从新思考数据贮存的基本问题。在这类情景下,人类的DNA被视为能够贮存一切货色的超小型装备的可能代替计划之一。
下一代存储技术
从磁带到USB,过来各种各样的记忆媒介曾经在被开收回来。不外,明天,更多的数据被保留在数据核心里。一个存储量为 10 亿 GB的大型数据核心,占地可达数个足球场,建立和保护本钱高达 10 亿美元。也就是说,光是贮存这些海量数据,就需求破费微小的空间及金钱本钱。
而且,当初数据发生的速度,远远要超过咱们出产这些存储介质的速度,所以必需要有新的介质来解决这个困难。微小的损耗使得人类开始追求新的形式,关于此,假如DNA可以成为记忆媒介的话,它体积小、容量大的优点将要比任何媒介都拥有高机能的特征。
要知道,人类基因组包孕大约至关于750MB的信息,这么多信息就贮存在一条比细胞还小很多的DNA上,而且事无巨细地告知咱们的身材,鼻子该长在哪里,眼睛该长成甚么色彩,某个蛋白又该怎么分解。
其中,每个基因都是用四个字母的DNA文字写成的线性信息序列——组成DNA的根本单元是脱氧核苷,每个脱氧核苷都带有一个碱基,而碱基共有四品种型,分别是腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶。而线性序列是一种常见且高效的信息存储和传递形式。
咱们日常读到的这些单词和句子就是基于线性序列的,就连电脑、手机所用的代码也都是顺序员用线性序列编写的。这些不同的代码都是以数字形式来存储信息的,即以大量数字的不同组合来存储的。英语使用26个根本“数字”,即字母内外的字母;计算机和智能手机使用1和0的不同组合;同理,DNA的数字就是4个核苷酸碱基。假如用0、1、2、3各代表一个碱基,就能组成一个四进制的存储形式。
数字代码最首要的劣势就在于,它们很容易从一种编码零碎翻译成另外一种编码零碎。细胞将DNA编码转换为RNA,再转化为蛋白质就是基于这样的翻译进程。在翻译中,它们将遗传信息转化为实际举措,其无缝连接的灵敏形式是任何人类工程零碎都无奈相比的。
计算机零碎必需将信息“写”到不同的物理介质上能力对其加以存储,而DNA份子自身就是“信息”,这令它成为更简明的数据存储形式。恰是由于意识到这一点,迷信家们才想法开发将信息编码在DNA份子中的办法,以最不乱且节俭空间的形式存储信息。
DNA不只能够贮存信息,并且信息衰减和消耗简直为零。2019年,据《连线》杂志报导,迷信家经过一种含有DNA数据的资料,用3D打印的形式制作出一只塑料兔子。后果显示,即便切下这只塑料兔子的尾巴,也能够在尾巴的DNA信息中制作出一只如出一辙的塑料兔子。究其缘故,则是由于DNA存储能够提供少量的信息密度和超凡的半衰期。
如今寰球每一年发生的数据需求4180亿个1TB的硬盘能力放下,而把这些数据贮存在DNA上,仅仅需求1公斤DNA物资。不只如斯,依托生物碱基不同的摆列形式,这些信息还能够在-18℃的环境贮存100万年之久。比拟之下,纸张会腐朽,硬盘会降解,乃至连石头也会风化,DNA却能够完全忽视这些物理进程,保存人类文化的常识和历史。
商业化其实不边远
1981年,科幻小说家威廉·吉布森(William Gibson)颁发短篇小说《约翰尼的记忆》,其中,小说的客人公恰是以本人的大脑为数据记忆媒介的信息搬运商店——一样的技术也许在不久的未来成为理想。实际上,对于DNA存储信息的钻研早在2000年代就曾经开始。
2000年,美国生物学家把一段信息“刻”进了细菌的体内,这段信息就是爱因斯坦著名的质能方程“E=mc2”。2003年,又有迷信家把迪士尼动画片中的一段音乐“刻”进了细菌体内。到了2010年,当首集体造细胞降生时,率领该项任务的美国基因学家卡耐基·文特尔则把一切参预该名目的迷信家的名字“刻”进了人造细胞的DNA上。
多年里,迷信家们在DNA贮存技术钻研中,展示了能够将文书档案、影片材料等简直一切货色贮存在DNA的才能。不外,DNA贮存技术始终有一个大问题,就是一切的过程当中仍然需求泛滥的人力染指,而微软公司和华盛顿大学却打破了这一技术瓶颈,在信息贮存与“自动化”解读方面获取了很大的停顿。
究其原理,如前所述,数据信息以分解 DNA 中的碱基型态贮存。DNA 是由腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶四个碱基单位组成。基于此,钻研团队贮存了5 位元容量的“HELLO”单词,他们将英文单词转换成0和1 组成的数位信息,再摆列成相应的碱基后,将它们相连制成 DNA片断。
这时候,人工参加可促成分解的化学液,再将其贮存进特殊容器。想要读取材料时,使用生物迷信钻研用的DNA解读装备解析碱基的排序后,再次转换成0 和1的数据信息,终究就可以确认是“HELLO”这5个英文字母。如今,微软曾经投资了 1万美元开发这项装备。
固然,钻研DNA贮存装备的公司不仅有微软罢了,英特尔(Intel)和美光科技(Micron Technology)也在投资钻研;再好比,2018年承受麻省理工学院赞助而成立的新创公司Catalog Technology,他们发布将在2019年制造能够把TB容量的材料记载在DNA的装备,尺寸大约为两台货柜大小。
除了将数据存在DNA的形式,其余应用DNA的形式也带来了极大的想像空间。好比,加州大学钻研团队在《天然》期刊颁发了首例可再顺序化的“DNA计算机”论文。钻研中使用数个能够进行绘制图样或计算数字等简略功课的DNA键建设区块——虽然这技术还无奈取代实际的计算机,然而却能够在将来用于传递药物的纳米机器人或组合份子的纳米大小的工厂上。
不外,假如想要制作出 DNA 贮存芯片的话,还有几个问题要先解决,其中之一就是解读时间与本钱。按照英国迷信讲演(Scientific Reports)颁发的钻研论文,贮存“HELLO”5 位元数据与再次解读出来总共要花上21个小时。此外,假如要贮存几 MB 以上数据的话,要花上数千美元乃至数百万美元的本钱。即使是微软宣告他们曾经发现了能够节俭一半时间,但也需求10~十二个小时。
同时,DNA存储费用也仍然低廉。不外,跟着生物技术的开展,DNA存储费用曾经呈现大幅降落趋向,就拿基因测序的费用来讲,最先发现人类基因序列的方案花了 27 亿美元本钱和十五年的时间,然而十五年过来后的当初,只有交纳1000 美元的费用给企业,就能在数周内拿到基因剖析后果——技术未然变得至关公众化了。
斟酌到指数型科技的生长速度,也许,DNA 贮存装备两三年内应该就能商业化。而且,DNA 贮存装备的开发与使用还将增进“生物计算机”的开发。显然,大数据与人工智能的大发作,促令人类必需找到更多的新兴算力之源,而DNA贮存的翻新技术,极可能就是人类将来的智能新大陆——只管DNA贮存技术还处于萌芽阶段,但其作为新一代计算开展不成或缺的指路明灯趋向已现。(本文首发钛媒体APP) |
|