Aceleración del análisis de datos en plataformas basadas en SmartSSD

  • Noticias y Actualidad

Samsung SSD data center

Investigadores surcoreanos y norteamericanos han desarrollado un nuevo acelerador de clasificación de almacenamiento cercano capaz de optimizar el análisis de datos en SmartSSD. Han combinado tecnologías FPGA con esquemas de decodificación, construyendo un sistema que aumenta el rendimiento, la eficiencia y la escalabilidad en el trabajo con bases de datos y otras aplicaciones, con respecto a una arquitectura basada en CPU y almacenamiento de estado sólido convencional.

Las plataformas de almacenamiento SSD permiten acelerar muchas cargas de trabajo ejecutadas por los servidores basados en CPU, entre ellas los proceso relacionados con bases de datos. Pero la industria sigue buscando soluciones que optimicen los procesos de análisis de datos, y se están desarrollando diferentes arquitecturas que combinan las capacidades programables de los chips FPGA con el almacenamiento SSD y estándares de interconexión de alta velocidad.

Con estas tecnologías se puede reducir la sobrecarga de trabajo de las CPU en los servidores y, a la vez, acabar con el cuello de botella en que se han convertido las plataformas de almacenamiento, incluso las basadas en SSD de alta velocidad. Porque, aunque se utilicen muchos SSD, la interfaz entre el almacenamiento y la computación no escala cuando lo hace la cantidad de dispositivos de almacenamiento. Esto se debe a los límites de ancho de banda de la interfaz y a que las redes de interconexión no proporcionan acceso simultáneo a todos los dispositivos de almacenamiento.

Esto limita el rendimiento del sistema al ejecutar operaciones independientes en distintos dispositivos de almacenamiento. Para resolver este nuevo cuello de botella un equipo de investigadores norteamericanos de la UC de San Diego, en colaboración con expertos de la firma coreana Samsung Semiconductor, han desarrollado una tecnología que permite asignar las tareas de cálculo a los propios dispositivos de almacenamiento, eliminando la sobrecarga de transferencia de datos desde las interconexiones.

Como explican en el artículo publicado en la revista ACM Transactions on Reconfigurable Technology and Systems, su principal objetivo es acelerar las aplicaciones de big data, que requieren un acceso de alta velocidad a grandes cantidades de datos. Para ello han desarrollado un acelerador genérico de clasificación de almacenamiento cercano enfocado especialmente al análisis de datos. Este sistema, denominado NASCENT2, se basa en las soluciones de almacenamiento computacional SmartSSD del fabricante coreano, que están compuestas por una unidad NVMe y un chip FPGA encargado de procesar los datos.

Explican que NASCENT 2 consta de aceleradores basados en FPGA para la decodificación, clasificación y reproducción aleatoria de diccionarios. Esto permite “la clasificación de tablas de bases de datos en función de una columna clave con cualquier tipo de datos arbitrarios”. Su sistema aprovecha la partición de datos creada por los sistemas de gestión de procedimiento de datos, como SparkSQL, para desglosar las operaciones de clasificación que generalmente emplean grandes tablas para múltiples operaciones de clasificación en tablas más pequeñas.

Según sus pruebas, esta innovación multiplica por 2 el rendimiento y reduce 15,2 veces el consumo energético con respecto a una arquitectura basada solo en la CPU. Además, aprovecha las características de esta plataforma SmartSSD para aumentar la escalabilidad de los sistemas informáticos a medida que se incrementa la cantidad de dispositivos de almacenamiento. En su artículo explican que con 12 SmartSSD, NASCENT 2 es 9,9 veces más rápido y 7,3 veces más eficiente en la clasificación de las tablas más grandes de puntos de referencia TPCC y TPCH que el estándar basado en CPU.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecologías son las más adecuadas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar la página de nuestro colaborador Synology