Mejoras de rendimiento en las copias de seguridad basadas en deduplicación

  • Noticias y Actualidad

Investigadores estadounidenses y chinos han desarrollado un método para mejorar los sistemas de copia de seguridad de datos basados en la deduplicación. Mediante un nuevo enfoque para la indexación de las huellas que identifican los fragmentos de datos duplicados afirman que se puede reducir en más de un 2% el consumo de espacio y en más de un 66% la tasa de utilización de los discos duros, e incrementar ligeramente el rendimiento de la restauración de datos.

La deduplicación es una de las principales estrategias para optimizar el uso del espacio de almacenamiento en las tecnologías de copia de seguridad, y se basa en identificar los datos duplicados para su eliminación. Para ello se utiliza un índice en el que se registran las “huellas dactilares” (fingerprints) que identifican la ubicación de los fragmentos de datos que forman parte de las copias de seguridad. Para evitar los cuellos de botella que se producen en la búsqueda de índices basada en disco u la fragmentación que se genera cuando se eliminan duplicados, generalmente se emplean contenedores que almacenan fragmentos contiguos junto con sus huellas dactilares.

Esta forma de organizar los datos permite optimizar el espacio en los discos, pero resulta ineficiente, pero un equipo de investigadores de la Universidad de Jinan, en Guangzhou (China), la Universidad Estatal de Columbus, la Universidad de Maine y la Universidad de Auburn, las tres estadounidenses, han desarrollado un nuevo método para abordar estos problemas. Se trata de una estrategia de “destilación” de estas huellas digitales en caliente, que emplea contenedores para mejorar el rendimiento de los sistemas de copia de seguridad basados en deduplicación.

En su trabajo explican que han dividido el índice de huellas dactilares en tres partes, que abarcan las entradas huellas activas, las fragmentadas y las inútiles. Han establecido que un contenedor con una utilización inferior a un determinado umbral se denomina contenedor disperso, y las entradas que indican que el contenedor es no disperso se consideran huellas dactilares activas. Cuando la entrada de huellas coincide con cualquier otra de los siguientes fragmentos de copia de seguridad, se considera fragmentada y, en cualquier otro supuesto, se clasifica como inútil.

En sus investigaciones con este esquema han hallado que las entradas de huellas dactilares activas representan una pequeña parte del índice, lo que les ha llevado a desarrollar un método de discriminación de entrada de huellas dactilares en caliente, que han denominado HID. Este separa las huellas inútiles del índice para optimizar el uso de memoria y reducir el acceso al disco. Además, separa las huellas fragmentadas para que los sistemas de backup basados en deduplicación reescriban automáticamente los datos fragmentados, logrando que queden menos dispersos en el sistema.

También han añadido una función para tratar los fragmentos fragmentados como fragmentos únicos, que compensa las deficiencias de los filtros que son incapaces de identificar ciertos tipos de fragmentos duplicados. Y para aprovechar las capacidades de este sistema   han desarrollado una estrategia HID más avanzada, que han denominado EHID, con un filtro Bloom al que solamente asignan las huellas dactilares calientes. Según sus investigaciones, esto evita los accesos al disco para identificar fragmentos únicos y fragmentados y reduce la tasa de falsos positivos del filtro Bloom integrado, incrementando la eficiencia de las copias de seguridad basadas en deduplicación.

Según sus pruebas experimentales, este nuevo enfoque reduce la sobrecarga en el uso de memoria en un 34,11% y un 25,13% cuando se usa el conjunto de datos de Linux y el conjunto de datos FLS, respectivamente. Y afirman que, comparándolo con el método HAR de última generación, EHID incrementa el rendimiento promedio de las copias de seguridad en un 2,25% con el conjunto de datos de Linux y reduce el tráfico promedio de entrada y salida de datos del disco en hasta un 66,21% cuando llega al conjunto de datos FSL. Además, logra una mejora marginal del rendimiento en la restauración del sistema, que constituye un beneficio adicional al mayor aprovechamiento del espacio que ofrece la deduplicación y al menor desgaste de los componentes como la memoria o los propios discos duros.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar la página de nuestro colaborador Western Digital