Desarrollan un software más eficiente para el almacenamiento en ADN

  • Noticias y Actualidad

datos seguridad bigdata

Científicos del laboratorio Nacional de Los Alamos han desarrollado un software de traducción que aumenta la eficiencia de las tecnologías de almacenamiento en ADN. Afirman que con su software ADS Codex es posible traducir los datos binarios al código basado en 4 variables que se emplea para codificar la información en cadenas de ADN, con más eficacia que otros sistemas propuestos hasta ahora.

El almacenamiento en ADN promete una capacidad sin precedentes para los soportes de datos, especialmente para el archivo a largo plazo. Pero su desarrollo se enfrenta a varios desafíos antes de lograr una tecnología que se pueda aplicar en el mundo real. Uno de ellos es el método empleado para codificar los datos binarios, formados por “unos” y “ceros” en cadenas de ADN, formadas por cuatro nucleótidos distintos, lo que equivale a cuatro variables.

Muchos investigadores de todo el mundo trabajan en este campo, y ahora un equipo de investigadores del Laboratorio Nacional de Los Alamos, en Estados Unidos, ha publicado un interesante trabajo para dar a conocer u nuevo software de codificación que pretende mejorar la eficiencia del proceso. Este ha recibido el nombre de ADS Codex, y sus creadores afirman que permite traducir datos binarios en nucleótidos que se pueden secuenciar en moléculas como archivos, para su posterior recuperación. Afirman que esto ahorra muchos costos potenciales asociados a la secuenciación, lo que dará lugar a un sistema de almacenamiento en frío más compacto que las propuestas desarrolladas hasta ahora.

En palabras de Latchesar Ionkov, científico informático de Los Alamos e investigador principal del proyecto, el software “Adaptive DNA Storage Codec (ADS Codex), traduce archivos de datos de lo que una computadora entiende a lo que entiende la biología. Es como traducir del inglés al chino, solo que más difícil”. Este trabajo forma parte de una iniciativa más amplia, denominada programa de almacenamiento de información molecular (MIST), que está siendo desarrollado por la agencia norteamericana de proyectos de inteligencia IARPA. Su objetivo general es desarrollar un sistema de almacenamiento de big data de una escala muy superior y con un coste inferior al de las tecnologías actuales.

En su artículo explican que el plan a corto plazo de MIST es ser capaces de escribir 1 Tb y leer 10 Tb en 20 horas por un coste máximo de 1.000 dólares. Para ello están trabajando en tres líneas de investigación paralelas, que corresponden a los trespilares del sistema. Estos son la síntesis de ADN para el proceso de escritura, la secuenciación de ADN para la lectura de datos y las tecnologías de codificación y decodificación de los datos entre el sistema binario y el basado en cuatro variables.

Para Bradley Settlemyer, investigador de sistemas de almacenamiento y programador de sistemas especializado en computación de alto rendimiento en Los Alamos, “el ADN ofrece una solución prometedora en comparación con la cinta, el método predominante de almacenamiento en frío, que es una tecnología que data de 1951. El almacenamiento de ADN podría alterar la forma en que pensamos sobre el almacenamiento de archivos, porque su capacidad de retención de datos es muchos más larga y la densidad de datos mucho más elevada”. Y comenta que se podría “almacenar todo YouTube en un refrigerador, en lugar de en acres y acres de centros de datos. Pero los investigadores primero tienen que superar algunos obstáculos tecnológicos abrumadores relacionados con la integración de diferentes tecnologías”.

En el caso de la codificación, los expertos señalan que en la síntesis de ADN se producen errores frecuentes, que los sistemas de corrección de errores convencionales no pueden solucionar, ya que no solo las tasas de error son más altas, sino que estos errores provienen de fuentes muy diferentes a las de las tecnologías digitales. Como explica Ionkov, “en un disco duro digital, los errores binarios ocurren cuando un 0 cambia a un 1, o viceversa, pero con el ADN existen más problemas, que provienen de errores de inserción y eliminación. Estás escribiendo A, C, G y T, pero a veces intentas escribir A y no aparece nada, por lo que la secuencia de letras se desplaza hacia la izquierda o escribe AAA. Los códigos de corrección de errores normales no funcionan bien con eso”.

Para solucionarlo, ADS Codex añade un código de detección de errores adicional que se puede usar para validar los datos. Así, cuando el software vuelve a convertir los datos a una secuencia binaria, se comprueba si estos códigos coinciden. Si no es así, se intenta eliminar o agregar nucleótidos a la secuencia hasta que la verificación se haga con éxito. Y afirman que es más eficiente y mucho menos costoso que otros sistemas propuestos anteriormente, tanto por sus investigadores como por otras instituciones embarcadas en el desarrollo de software para almacenamiento en ADN.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecologías son las más adecuadas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar las páginas de nuestros colaboradores NetApp y Synology