ДНК като трайно и ефективно биологично хранилище за цифрови данни 169; Фондация Асман

Новини от науката

ДНК като траен и ефективен биологичен носител за съхранение на цифрови данни [169]

Концепцията за персонализирана медицина обещава да приспособи препоръките за профилактика и лечение на заболявания доколкото е възможно за отделния пациент (1). За да бъде това успешно, първо трябва да бъдат събрани, оценени и най-вече запазени големи количества данни.

Конвенционалните носители за съхранение на данни като твърдите дискове са сравнително краткотрайни. За да се запазят тези колекции от данни, те трябва да се копират редовно. Двама учени от Колумбийския университет и Нюйоркския център за геноми (NYGC) сега използват потенциала на ДНК материала като биологично хранилище за цифрова информация (2). С помощта на алгоритъм, предназначен за стрийминг на видео на мобилен телефон, те успяха да компресират цялостна компютърна операционна система, филм и други файлове в ДНК олигонуклеотиди и да ги извлекат непокътнати.

Научни подробности

Генетичните носители са почти идеална среда за съхранение. ДНК получава информация, изключително компресирана в продължение на хилядолетия и не остарява технически остаряла.

Професорът по компютърни науки Янив Ерлих от Колумбийския институт за наука за данни и колегата му Дина Зелински сега доказаха, в сътрудничество с Нюйоркския център за геноми, че ДНК е подходяща и за запазване на цифровите данни непокътнати. Те избраха шест представителни файла, които да кодират в ДНК; цялостна компютърна операционна система, френският късометражен филм „Пристигане на влак в Ла Сиота“ от 1895 г., подаръчна карта на Amazon на стойност 50 долара, компютърен вирус, пионерска значка и публикация от 1948 г. от теоретика на информацията Клод Шанън.

Комбинирани в главен файл, шестте медии са преведени в кратки низове от двоичен код, съставени от единици и нули. Алгоритъмът за корекция на Fountain Code помогна на случаен принцип да присвои тези низове на четирите нуклеотидни бази в ДНК: A, G, C и T и да изтрие комбинации от грешки. Получените информационни капчици получиха баркодове за дешифриране.

Стартиращият ДНК синтез, Twist Bioscience от Сан Франциско, превърна 72 000 ДНК нишки, описани по този начин, в ДНК молекули. Не на последно място, цифровата информация може да бъде извлечена от тези биомолекули без грешки. Със своята технология за кодиране учените също успяха да дублират ДНК веригите и по този начин да създадат копия на оригиналните файлове без грешки.

Ефективността на компресията също беше забележителна. Средно по 1,6 бита бяха пакетирани във всеки основен нуклеотид, поне 60% повече данни, отколкото при конвенционалните техники. Необходим е само един грам ДНК материал за съхраняване на 215 петабайта (= 1 000 000 000 000 байта) данни. Следователно биомолекулите се считат за най-плътното устройство за съхранение на данни, което някога е било използвано. Архивирането на цифрови данни в биологично хранилище все още е твърде скъпо, за да се използва в голям мащаб. Отне 7000 долара, за да се направят нишките на ДНК и още 2000 долара, за да се дешифрират.