Evitando el sesgo en el sistema de almacenamiento Hadoop

  • Noticias y Actualidad

El sistema de archivos Hadoop (HDFS) está expuesto a un riesgo importante con el paso del tiempo, ya que es propenso a verse afectado por ciertos sesgos potenciales. Un grupo de científicos orientales ha trabajado en este problema y ha desarrollado un sistema para evitar que se desequilibren las cargas de trabajo de almacenamiento en los nodos de datos.

Uno de los problemas que presenta el sistema de almacenamiento distribuido de archivos Hadoop (HDFS), cada vez más popular en diferentes entornos, es que con el paso del tiempo se produce un sesgo en la distribución de la información, que sobrecarga ciertos nodos con los datos que se usan con más frecuencia. Esto hace que el sistema en conjunto pierda eficacia al cabo de un tiempo, lo que afecta a la gestión del espacio disponible y a la velocidad de acceso.

Los expertos denominan este fenómeno como concentración de popularidad, que refleja cómo los daos más usados en un sistema de almacenamiento distribuido acaban concentrándose en ciertos puntos de la arquitectura. Los ingenieros son conscientes de este problema y están buscando formas de solucionarlo. Siguiendo esta línea de investigación, un grupo de científicos de la Universidad Tecnológica de Mandalay (Myanmar), y de la Universidad de Kumamoto (Japón) han desarrollado un método para evitar este sesgo y mejorar el desempeño de Hadoop.

En un artículo publicado recientemente en ACM (Association for Computer Machinery), este grupo de investigadores explica los problemas que causa a largo plazo este sesgo en el tratamiento de los datos. Señalan que, aunque HDFS cuenta con herramientas para reequilibrar los datos en el clúster, este sistema solo contempla la posibilidad de hacerlo desde los nodos más utilizados a los menos utilizados, lo cual resulta ineficaz al dejar muchos discos duros fuera de la ecuación.

Para solucionar este problema, el esquema que propone este grupo de científicos se basa en un sistema de redistribución de los datos basado en una escala de popularidad de nodo, que distribuye toda la información de manera uniforme entre todos los nodos. Esto permite un mejor equilibrio de las cargas de acceso de cara al futuro, reduciendo la concentración en “puntos calientes” dentro de la red de almacenamiento distribuido. Según sus simulaciones, este enfoque proporciona beneficios muy prometedores con respecto al equilibrador incluido con Hadoop, ya que mejora el sistema convencional de evaluación de las cargas de almacenamiento y de acceso a los datos, y también en la gestión de espacio en todas las unidades de almacenamiento que forman parte del sistema.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas para las empresas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar la página de nuestro colaborador HPE.