Nace un nuevo sistema de almacenamiento comunitario para la investigación

  • Noticias y Actualidad

El Laboratorio Nacional Lawrence Berkeley de Estados Unidos ha lanzado el Sistema de Archivos Comunitario (CFS), una nueva arquitectura para el archivo a largo plazo, pensada para mejorar la capacidad y el rendimiento de su predecesora. Además, se ha diseñado pensando en mejorar la administración del contenido y que pueda cumplir con los requisitos de las nuevas plataformas de supercomputación que están instalando muchas instituciones del país.

Nace un nuevo sistema de almacenamiento comunitario para la supercomputación

El Laboratorio Nacional Lawrence Berkeley de Estados Unidos ha lanzado el Sistema de Archivos Comunitario (CFS), una nueva arquitectura para el archivo a largo plazo, pensada para mejorar la capacidad y el rendimiento de su predecesora. Además, se ha diseñado pensando en mejorar la administración del contenido y que pueda cumplir con los requisitos de las nuevas plataformas de supercomputación que están instalando muchas instituciones del país.

Diferentes instituciones académicas y agencias gubernamentales de Estados Unidos están dando importantes pasos en el campo de la Computación de Alto Rendimiento (HPC), con el fin de potenciar las capacidades en diferentes ámbitos, desde la predicción del clima a la administración de suministros básicos, la defensa o las finanzas. Una de estas agencias es el Departamento de Energía (DOE), que ha instalado recientemente un nuevo superordenador que se alimenta de datos provenientes de múltiples fuentes, y que hasta ahora se servía del sistema de almacenamiento denominado Proyect File System.

Este fue desarrollado en su momento por el Centro Nacional de Investigación Científica de Energía (NERSC), perteneciente al Laboratorio Nacional Lawrence Berkeley. Al igual que otras organizaciones gubernamentales del país, este centro ha apostado por la supercomputación para mejorar sus capacidades de cara al futuro, pero su sistema de almacenamiento no estaba bien adaptado a los nuevos requisitos de HPC. Por eso, han desarrollado lo que denominan el Sistema de Archivos Comunitarios (CFS), en colaboración con el gigante tecnológico IBM.

Según han comentado los responsables de este proyecto, su predecesor estaba diseñado pensando especialmente ene el rendimiento y la capacidad de entrada y salida de datos, pero las nuevas arquitecturas de computación que emplea el NERSC, que le acerca cada vez más a la era exaescala, requieren otras capacidades, por ejemplo en materia de gestión de datos para la investigación científica.

Como comenta Glenn Lockwood, líder del grupo de sistemas de almacenamiento del NERSC, en los próximos años el crecimiento de datos provenientes de simulaciones de exaescala y de otros sistemas experimentales empleados en la investigación permitirá una nueva ciencia basada en datos en casi todos los ámbitos. Esto se vinculará a nuevas arquitecturas de almacenamiento en las que tendrán cada vez más cabida las arquitecturas distribuidas, el almacenamiento no volátil y el big data, lo que requiere modificar el diseño fundamental de los sistemas de almacenamiento.

Por ello, el NERSC ha apostado por el desarrollo de este nuevo sistema, que es el fruto de un proyecto que lleva en marcha varios años, y que desde sus orígenes estaba enfocado a sentar las bases del futuro del almacenamiento en la nueva era de la supercomputación. Una de las características fundamentales que definen el Sistema de Archivos Comunitario (CFS) es que se basa en una arquitectura multinivel, en la que tienen cabida desde las plataformas de almacenamiento en cinta magnética del NERSC hasta los sistemas de datos de máximo rendimiento.

Esta arquitectura heterogénea está diseñada para facilitar el intercambio de información entre las diversas plataformas de datos y entre los muy diversos ordenadores y sistemas HPC que necesitan tener acceso a la información almacenada en los múltiples repositorios actuales y futuros que alimentan los proyectos de investigación, las aplicaciones que aportan conocimiento a través del big data o los desarrollos más modernos de aprendizaje automático aplicados en las agencias y en los proyectos de investigación desarrollados en el NERSC y en las instituciones con que colaboran.