Nuevo esquema de almacenamiento distribuido para la investigación científica

  • Noticias y Actualidad

datos seguridad bigdata

Las investigaciones científicas más avanzadas en campos como la física consumen ingentes cantidades de datos provenientes de múltiples fuentes, y requieren una arquitectura distribuida muy compleja y susceptible de sufrir retrasos y fallas. Para mejorar el desempeño de estos sistemas un grupo de investigadores ha desarrollado un diseño de almacén datos que mejora el tratamiento previo de la información que se usa para proyectos como el CERN.

Para avanzar en los campos más importantes de la ciencia se están desarrollando ciertos proyectos de primer nivel, que consumen y generan una cantidad enorme de información por segundo. Un ejemplo de ello es el acelerador de partículas (LHC) del CERN, donde se realizan experimentos en los que están implicadas numerosas fuentes de datos. A medida que se llevan a cabo las investigaciones, todas estas fuentes de información envían los datos, que se quedan a la espera de ser clasificados para saber si se utilizarán o no. Y los resultados de estos experimentos también generan gran cantidad de información que no se puede perder por una mala gestión.

Esto es un problema, ya que no se puede almacenar todo este contenido durante mucho tiempo en los almacenes de datos intermedios, porque el flujo de información no cesa. Por ello, se necesita un sistema capaz de manejar toda la información de forma eficiente, tanto entrante como saliente. Con el fin de superar este gran reto un grupo de investigadores europeos ha desarrollado un nuevo diseño de almacén de datos, denominado DAQDB (Bas de Datos de Adquisición de Datos), con la que prometen una mejor gestión de esta arquitectura distribuida de datos.

Según sus estimaciones, esto permitirá abordar la administración de los flujos de datos que llegan a centros de investigación de primer nivel, como el CERN, a escala Petabyte. Esto se logra mediante un esquema que permite una selección a alta velocidad de los datos en línea, lo que permite seleccionar con mucha rapidez aquellos que verdaderamente interesan en ese momento para la investigación en curso, discriminando aquellos que no se utilizarán.

Teniendo en cuenta que cada minuto de un experimento puede generar cientos de terabytes útiles, el nuevo esquema DAQDB ofrece un búfer de alta capacidad y baja latencia para una selección más rápida de los datos útiles. Pero lo más importante es que aporta un nuevo enfoque en cuanto a la adquisición de datos en flujos de alto ancho de banda, en el que se desacopla la vida útil de los procesos de análisis de la tasa de eventos.

Según indican en el resumen de este trabajo de investigación, “Esto se puede lograr mediante la opción de extender su capacidad incluso hasta cientos de petabytes para almacenar horas de datos de un experimento. Nuestra evaluación de rendimiento inicial muestra que DAQDB es una alternativa prometedora a las soluciones de bases de datos genéricas”, como las que se usan actualmente para el LHC en el CERN.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas para las empresas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar la página de nuestro colaborador HPE.