Recuperación de fallas mejorada en la supercomputación con memoria no volátil

  • Noticias y Actualidad

Investigadores de varias instituciones académicas de Israel han investigado las posibilidades que puede ofrecer la memoria no volátil para la lograr una recuperación de fallas más eficiente en las plataformas de supercomputación. Afirman que con su enfoque es posible lograrlo empleando menos espacio de memoria y reduciendo la sobrecarga de tiempo.

Las plataformas de supercomputación apoyan a la comunidad científica en sus proyectos de investigación más avanzados, gracias a su gran potencia de cálculo. La gran cantidad de operaciones que deben realizarse en estos sistemas implican necesariamente una mayor tasa de fallas que en las cargas de trabajo más habituales, por lo que se necesitan sistemas de corrección a la altura de este reto.

Para abordar este reto se ha propuesto el uso de la reconstrucción del estado exacto (ESR), un mecanismo que puede mitigar el impacto de las frecuentes fallas que se producen en los cálculos a largo plazo. Esta tecnología está demostrando un gran potencial para los solucionadores iterativos de álgebra lineal que se usan en muchas aplicaciones científicas, pero las tecnologías de memoria empleadas hasta ahora no proporcionan la suficiente fiabilidad, a pesar de sus mecanismos de corrección de errores integrados.

Para aportar una solución capaz de afrontar los retos del futuro en la era de la computación exaescala, un equipo de investigadores de la Universidad Ben-Gurion del Negev, del Instituto de Tecnología de Israel y del Centro de Investigación Nuclear de Negev (Israel), han propuesto una solución. En su trabajo se han dedicado a investigar las posibilidades que pueden aportar las tecnologías emergentes de memoria no volátil (NVM) en este campo.

Un ejemplo es la propuesta de usar memoria Intel Optane CDPMM en el supercomputador exaescala Aurora, con o que sus diseñadores pretenden mejorar el rendimiento y las capacidades de recuperación de fallas en cálculos a largo plazo. Por su parte, estos investigadores han investigado cómo se pueden usar las nuevas tecnologías NVM para mejorar ESR, de forma que este mecanismo pueda escalar a los futuros sistemas exaescala.

Fruto de su trabajo han propuesto el uso del mecanismo de memoria no volátil ESR (NVM-ESR), con el que afirman que se puede lograr una recuperación de fallas más eficiente que con otro tipo de memorias. Sus experimentos indican que se consumiría menos capacidad de memoria para estas tareas, y la sobrecarga de tiempo de estas operaciones sería también menor que en los métodos ESR empleados hasta ahora. Y dicen que se han enfocado en el solucionador iterativo de gradiente conjugado precondicionado (PCG) que se ha estudiado anteriormente en otros enfoques de ESG, ya que es el empleado en el benchmark científico HPCG.

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecologías son las más adecuadas? Si quieres obtener más información sobre un segmento en crecimiento puedes visitar la página de nuestro colaborador Synology