Nvidia abandona Intel, se acerca a AMD con su nuevo DGX A100

Ayer, en la Conferencia de Tecnología de GPU de Nvidia, todos descubrieron lo que estaba cocinando el CEO Jensen Huang: un sucesor impulsado por Ampere del sistema de aprendizaje profundo DGX-2 impulsado por Volta.

El miércoles, describimos el misterioso hardware en la cocina de Huang como probablemente «con algunas CPU Xeon», además del nuevo sucesor de la GPU Tesla v100. El huevo está en nuestra cara por esto: el nuevo sistema incluye un par de CPU AMD Epyc 7742 de 64 núcleos y 128 hilos, junto con 1TiB de RAM, un par de SSD NVMe 1.9TiB en RAID1 para una unidad de arranque y hasta cuatro Unidades NVMe de 3.8TiB PCIe4.0 en RAID 0 como almacenamiento secundario.

Adiós Intel, hola AMD

Técnicamente, no debería ser una gran sorpresa que Nvidia use AMD para las CPU en sus principales nodos de aprendizaje automático: Epyc Rome ha estado pateando la línea de CPU del servidor Xeon de Intel durante bastante tiempo. En el aspecto técnico, el soporte de Epyc 7742 para PCIe 4.0 puede haber sido incluso más importante que su alta velocidad de CPU y gran cantidad de núcleos / hilos.

El aprendizaje automático basado en GPU a menudo causa cuellos de botella en el almacenamiento, no en la CPU. Las interfaces M.2 y U.2 utilizadas por el DGX A100 usan 4 carriles PCIe cada una, lo que significa que cambiar de PCI Express 3.0 a PCI Express 4.0 significa duplicar el ancho de banda de transporte de almacenamiento disponible de 32 Gbps a 64 Gbps por SSD individual.

Es posible que también haya habido un poco de política detrás de la decisión de cambiar de proveedor de CPU. AMD puede ser el mayor competidor de Nvidia en el mercado de gráficos de consumo de margen relativamente bajo, pero Intel está avanzando en el mercado de centros de datos. Por ahora, las ofertas de Intel en GPU discretas son en gran medida vapor, pero sabemos que Chipzilla tiene planes mucho más grandes y grandiosos a medida que cambia su enfoque del mercado de CPU de consumo moribundo a todo tipo de centros de datos.

Publicidad

El propio Intel DG1, que es el único hardware real que hemos visto hasta ahora, ha filtrado puntos de referencia que lo hacen competir con la GPU Vega integrada de un Ryzen 7 4800U. Pero Nvidia puede estar más preocupado por la GPU Xe HP de 4 bloques, cuyas 2048 EU (unidades de ejecución) pueden ofrecer hasta 36TFLOPS, lo que estaría al menos en el mismo estadio que la GPU Nvidia A100 que impulsa el DGX presentado hoy.

DGX, HGX, SuperPOD y Jetson

El DGX A100 fue la estrella de los anuncios de hoy: es un sistema independiente con ocho GPU A100, cada una con una memoria GPU de 40GiB. El Laboratorio Nacional Argonne del Departamento de Energía de EE. UU. Ya está utilizando un DGX A100 para la investigación de COVID-19. Las nueve interconexiones Mellanox de 200 Gbps del sistema permiten agrupar varios DGX A100, pero aquellos cuyo presupuesto no admite muchos nodos de GPU de $ 200,000 pueden administrar dividiendo las GPU A100 en hasta 56 instancias cada uno.

Para aquellos que tienen el presupuesto para comprar y agrupar muchos nodos DGX A100, también están disponibles en formato HGX – Hyperscale Data Center Accelerator. Nvidia dice que un «clúster de nube típico» compuesto por sus nodos DGX-1 anteriores junto con 600 CPU independientes para el entrenamiento de inferencia podría ser reemplazado por cinco unidades DGX A100, capaces de manejar ambas cargas de trabajo. Esto condensaría el hardware de 25 racks a uno, el presupuesto de energía de 630 kW a 28 kW y el costo de $ 11 millones a $ 1 millón.

Si el HGX aún no parece lo suficientemente grande, Nvidia también ha lanzado una arquitectura de referencia para su SuperPOD, sin relación con Plume. El SuperPOD A100 de Nvidia conecta 140 nodos DGX A100 y 4 PB de almacenamiento flash a 170 conmutadores Infiniband y ofrece 700 petaflops de rendimiento de IA. Nvidia agregó cuatro de los SuperPOD a su propia supercomputadora SaturnV, que, según Nvidia, al menos, convierte a SaturnV en la supercomputadora de IA más rápida del mundo.

Finalmente, si el centro de datos no es lo tuyo, puedes tener un A100 en tu computación de vanguardia, con el Jetson EGX A100. También está el EGX Jetson Xavier NX. Para aquellos que no están familiarizados, la plataforma de placa única Jetson de Nvidia puede considerarse una Raspberry Pi con esteroides: se pueden implementar en escenarios de IoT, pero brindan una potencia de procesamiento significativa a un formato pequeño que se puede mejorar e incorporar en dispositivos de vanguardia como robótica, sanidad y drones.

Imagen de lista de Nvidia