Estrategias para mejorar el funcionamiento de los lagos de datos

  • Noticias y Actualidad

Organizar la ingente cantidad de información que llega a las organizaciones no es tarea fácil, y para ayudar en esto se han creado los lagos de datos. Pero a medida que aumenta la información se hace necesario aplicar estrategias que mejoren el uso y el aprovechamiento de recursos de los lagos de datos, y la industria está trabajando en formas de reducir la complejidad de estos espacios.

Una de las herramientas más modernas en el campo del almacenamiento de datos es lo que se conoce como lagos de datos. Se trata de repositorios de información, definidos por software, donde se “arrojan” los datos en bruto provenientes de muchas fuentes, en muchos casos no estructurados. Su función es aglutinar toda la información que será procesada mediante algoritmos de aprendizaje automático e IA, entre otras aplicaciones que se alimentan de grandes cantidades de datos.

Pero a medida que las organizaciones llenan estos lagos de datos se hace más complicado lidiar con ellos para estudiarlos, comprenderlos y extraer el valor que contienen, por lo que la industria está planteándose nuevas estrategias para sacar el máximo provecho de esta herramienta. El objetivo es seguir usando los lagos de datos para sus funciones originales, reduciendo su complejidad para poder abordar mayores cantidades de información, cada vez más variada y compleja.

Los beneficios se notarán en un mejor funcionamiento de las aplicaciones de alto consumo de datos, como el aprendizaje automático, el big data y las distintas herramientas de investigación científica. Los expertos prevén que los datos a nivel mundial se multiplicarán por 10 cada cinco años, por lo que las plataformas de datos necesitarán escalar unas 1.000 veces en los próximos 15 años para hace frente al aumento de información.

Los lagos de datos ayudarán mucho a lograrlo, pero el proceso de construir nuevos lagos y ponerlos a punto para alojar más información es complejo, y puede llevar varios meses. Esto se debe a que el proceso implica pasos como la preparación y la limpieza de datos, así como la seguridad de la información. Muchos de estos procesos involucran pasos manuales y requieren un trabajo de monitorización y administración por parte del personal a cargo, que debe supervisar tareas como la carga, extracción y la transformación de los datos, así como la creación y administración de los sistemas de metadatos que se aplican a la información.

La creación de uno de estos repositorios lleva tiempo y es muy compleja, por lo que los hiperescaladores como AWS tratan de simplificar la tarea mediante herramientas específicas. Según los expertos, esto puede ser de mucha ayuda para las organizaciones que quieran crear un lago de datos, ahorrando tiempo y costes, pero no todas las empresas quieren “caer” en las garras de estos proveedores, y quieren lograr las mismas ventajas por sí mismas. Para lograrlo deben enfocarse en crear estructuras de almacenamiento definidas por software, en las que se preste especial atención a la seguridad y al hardware físico que almacena físicamente la información. Y una de las principales recomendaciones que hacen los expertos es no tomar atajos para reducir el tiempo que lleva crear estas estructuras, algo que puede provocar problemas de difícil solución más adelante.