La deduplicación para economizar en el espacio de almacenamiento

Noticias y Actualidad

27 ABR 2018

La deduplicación, eliminación de los duplicados, es la técnica de detectar archivos con igual tamaño y contenido, de cara a evitar desperdiciar espacio de almacenamiento y guardar información redundante.

Y es que, en una organización, hay muchas posibilidades de mantener un elevado número de copias idénticas del mismo archivo. Un caso típico es un archivo creado en un equipo y enviado por correo como adjunto a un cierto número de compañeros dentro de la misma empresa. El resultado es que se mantienen todas las copias, tanto en el equipo inicial, como en los buzones de correo de todos los receptores. E incluso más si alguno de estos desea analizar el contenido con más detalle y lo almacena en su propio disco duro. Cuando todas esas copias van a los discos de almacenamiento de las copias de seguridad, se multiplica la necesidad de espacio, cuando realmente sólo sería necesario guardar una copia y hacer referencia a ese archivo en todos los demás casos.

Un caso típico se refiere a todos los archivos que forman parte del sistema operativo en los equipos personales, así como a las aplicaciones corporativas, también presentes en todos ellos. Dado que lo normal es que todos tengan la misma versión, la copia de seguridad corporativa se llena de archivos iguales, multiplicado por el número de empleados. Un sistema ineficiente a todas luces de cara al espacio de almacenamiento. Claro que la deduplicación, si bien ahorra cantidad de almacenamiento tiene un par de contrapartidas a considerar. La primer es que requiere tiempo de proceso, y no es simplemente volcar contenido en los servidores de almacenamiento. Y la otra es el método o métodos para lograr identificar correctamente qué archivos son realmente idénticos. El más evidente, pero más costoso a nivel de proceso, es la comparación byte a byte de cada par de ficheros que parezcan similares (ya sea por nombre, tamaño y/o fecha). Como este requiere un alto nivel de proceso, se emplea más a menudo una identificación mediante hash (firma) de cada archivo, manteniendo una lista de archivos y sus correspondientes hashes para contrastar.

Pero el sistema de hash no garantiza que dos archivos diferentes generan el mismo hash, lo que se denomina una “colisión de hash”. Al fin y al cabo, el hash es, básicamente, una suma del código ASCII todo el contenido de un archivo. De cara a mantener con total fiabilidad los archivos que son únicos e, igualmente, identificar los duplicados con certeza, NetApp emplea la combinación de varios algoritmos. Uno de ellos es el de la “eneración de delimitadores”. Esta tecnología se emplea para realizar el marcado inicial de los puntos de datos "interesantes" en un flujo de datos. Algunos de estos puntos de datos "interesantes" pasan a ser "puntos delimitadores", que se utilizan como puntos de partida para identificar segmentos de datos idénticos. Otra es el “crecimiento por comparación” que se basa en que cuando se encuentra un delimitador con un valor replicado, se realiza una comparación por bytes sucesivos para determinar que los datos son 100% iguales. Se realiza una comparación progresiva y regresiva desde del punto delimitador para determinar toda la longitud del segmento de datos coincidentes. El crecimiento por comparación tiene la peculiaridad de que permite eliminar secuencias replicadas de una longitud arbitraria, no sólo bloques de longitud fija. Otro mecanismo es el de las “omisiones” que se adaptan eficientemente a las pequeñas variaciones que se pueden dar entre segmentos de datos que estarían replicados si no fuera por los encabezados de fichero y los metadatos de la aplicación de backup. Las omisiones aumentan la eficiencia del crecimiento por comparación al descartar los metadatos diferentes que se hallan incorporados en el flujo de datos y dejar únicamente largas cadenas de datos de backup sin procesar que se pueden leer sin problema desde los discos. Por último, para mejorar la tasa de almacenamiento, NetApp emplea compresión por hardware, lo que descarga a la CPU de gran parte del proceso a la vez que aporta una notable reducción del espacio necesario en los discos.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas para las empresas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar las páginas de nuestro colaborador NetApp.