Gestión de datos desestructurados para cumplir con la regulación GDPR

Noticias y Actualidad

03 MAY 2018

El nuevo Reglamento General de Protección de Datos (GDPR), que entrará en vigor el 25 de mayo, ha planteado serias dificultades a las empresas que manejan grandes volúmenes de datos no estructurados en sus sistemas.

A partir del día 25 de mayo todas las empresas, organizaciones y administraciones que recopilen, almacenen, procesen o distribuyan datos personales de ciudadanos europeos deben cumplir con el nuevo reglamento. Entre otras imposiciones, obliga a tener localizada y asegurada la información PII que se encuentra almacenada en sus sistemas, ya estén en plataformas locales o cloud.

La información que incluye datos personales (PII) se acumula de forma constante en los sistemas de cualquier empresa. Una parte queda recopilada en las clásicas bases de datos relacionales, pero para muchas compañías la mayoría se encuentra en forma de lo que se denomina datos no estructurados, pudiendo alcanzar en muchos casos hasta un 80% del total de dicha información. Los datos desestructurados pueden ser emails, documentos Word, PDF, hojas de cálculo y otras clases de comunicaciones electrónicas y ficheros, que no están catalogados mediante metadatos ni otros sistemas que los relacionen de ninguna forma. Además, se encuentran dispersos en diferentes dispositivos de la empresa y de sus empleados, como ordenadores personales, smartphones, servidores y medios de almacenamiento externos a la red.

Este maremágnum digital dificulta enormemente su clasificación con el fin de saber si contienen o no información de carácter personal, que estaría sujeta a la nueva normativa. Para lograrlo muchas empresas han implementado herramientas de procesamiento y etiquetado del contenido de estos archivos, aunque en muchos casos son soluciones temporales o incompletas, de cara a cumplir con la regulación a tiempo.

Para adaptarse adecuadamente a este nuevo ecosistema es preciso implantar cambios radicales en la forma de obtener, almacenar y gestionar esta información, y esto puede significar el rediseño de muchos sistemas. La arquitectura que muchas empresas están adoptando para el almacenamiento y procesamiento es la utilización de un Data Lake en el que se centraliza toda la información desestructurada que proviene de usuarios, clientes, etc. Sobre él un sistema inteligente de análisis, clasificación y gestión del contenido basado en metadatos, con un estricto control de accesos para gestionar adecuadamente los datos conforme a sus respectivos derechos de uso según la ley.

Las empresas que ya trabajan con tecnologías basadas en machine learning para procesar y clasificar la información Big Data de sus centros de datos ya cuentan con herramientas válidas para lograrlo, aunque su planteamiento aún no esté pensado para cumplir con esta nueva regulación. Sólo es preciso realizar algunos cambios de planteamiento, como modificar los algoritmos para relacionar adecuadamente estos datos en categorías según el tipo de información, su procedencia y el uso que se puede hacer de ellos. Además, es fundamental integrar adecuados mecanismos de seguridad en estos sistemas, tanto a nivel de software como de hardware, que garanticen el total cumplimiento con la regulación GDPR durante todo el ciclo de vida de la información.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas para las empresas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar las páginas de nuestros colaboradores: NetApp y Huawei.