Ofertele Nvidia pe piața AI și HPC au fost actualizate în mod oficial odată cu anunțarea celor mai recente evoluții, construite acum în jurul arhitecturii Blackwell. Soluțiile B100, B200 și GB200 au fost deja descrise în detaliu în știrea noastră anterioară, deși oficialii Nvidia nu au dezvăluit încă arhitectura exactă a fiecărui model, astfel că nu au fost dezvăluite nici numărul de matrice SM și nici dimensiunea cache-urilor, plus că mai lipsesc alte detalii importante pentru a completa imaginea.
GPU-urile B100 și B200, precum și Superchip-ul GB200, sunt planificate de Nvidia pentru a fi disponibile într-o serie de noi configurații într-un viitor nu foarte îndepărtat. De asemenea, acestea vor fi însoțite de noi switch-uri, deoarece cerințele sporite de performanță și lățime de bandă trebuie să fie adaptate pentru a se asigura că sistemele cu mai multe noduri se extind bine și funcționează eficient.
Soluția HGX B100 este prima din această serie, având la bord nu mai puțin de opt GPU B100 și un procesor construit în jurul arhitecturii x86-64. Acest sistem este construit, în esență, pe baza HGX H100, permițând ca procesoarele și GPU-urile să fie ușor de acomodat în cadrul sistemului existent, ceea ce va accelera semnificativ implementarea noii tehnologii. Ca urmare, cadrul TDP al GPU-ului se poate întinde acum până la 700 W, așa cum ne-am obișnuit cu H100, astfel încât un singur GPU poate atinge acum 14 PFLOP/s de performanță de calcul FP4.
Sistemul HGX B200 este în curs de dezvoltare, care are o arhitectură similară cu cea a HGX B100, dar cu posibilitatea de a configura cadrul TDP al fiecărui GPU până la 1000 W. Este probabil ca în acest sistem să fie utilizate două procesoare, în timp ce în fiecare nod pot fi instalate opt GPU-uri. Performanța de calcul FP4 per GPU este deja de maximum 18 PFLOP/s, ceea ce pe hârtie, este cu aproximativ 10% mai puțin decât Superchip-ul GB200.
Merită să revenim la acesta din urmă, adică la GB200 Superchip, deoarece are două GPU B200, cu un total de patru chipset-uri, iar în ecuație se află și un procesor Grace bazat pe ARM. Cadrul TDP total pentru această soluție este de 2700 W, împărțit între cele două GPU și un CPU. Performanța de calcul de 20 PFLOP/s pentru GB200 se aplică doar la jumătate din Superchip, deoarece aceasta este performanța unui singur GPU B200.
Desigur, performanța brută de calcul și lățimea de bandă a memoriei nu reprezintă totul, deoarece nodurile individuale trebuie să fie capabile să se interconecteze suficient de eficient. Pe măsură ce numărul de GPU-uri începe să crească, devine din ce în ce mai dificil să se comunice eficient între ele, ceea ce poate necesita până la 60% din timp și resurse. Acesta este motivul pentru care a fost nevoie de cea de-a cincea generație de conexiune NVLink și de comutatorul, numit NVLink Switch 7.2T.
În total, fiecare GPU Blackwell oferă nu mai puțin de 18 dintre aceste conexiuni NVLink de generația a cincea, cu o lățime de bandă de transfer de date de 100 GB/s per legătură, pentru o lățime de bandă totală de transfer de date de 1,8 TB/s - de optsprezece ori mai mult decât era capabil H100. Acest lucru permite ca un cluster mai mare de GPU-uri să funcționeze ca și cum ar fi un singur GPU masiv. Noul cip NVSvitch este capabil să gestioneze un total de 576 de GPU-uri în domeniul NVLink, oferind o lățime de bandă de transfer de date de 1,8 TB/s în fiecare direcție pentru cipurile conectate.
Controllerul în sine este construit din 50 de miliarde de tranzistori și utilizează aceeași tehnologie de fabricație TSMC 4NP ca și GPU-urile Blackwell. are și un procesor de calcul în rețea Sharp v4 de 3,6 TFLOP/s, care ajută la procesarea eficientă a modelelor lingvistice mai mari - distribuind în mod inteligent puterea de calcul disponibilă între fluxurile de lucru. În timp ce soluția din generația anterioară oferea o lățime de bandă InfiBand HDR maximă de 100 GB/s, noul comutator oferă o lățime de bandă de optsprezece ori mai mare, ceea ce duce la o scalare mult mai bună pentru modelele de inteligență artificială de mari dimensiuni, cu miliarde de parametri, în mod explicit.
Combinați toate cele de mai sus și veți obține noul GB200 NVL72 de la Nvidia, un rack de dimensiuni normale cu 18 servere 1U, fiecare dintre ele găzduind două exemplare GB200. Această generație nu mai are un GPU și un CPU, ca la GH100, unde un GPU GH100 este atașat la CPU Grace, ci două CPU Grace și un total de patru GPU B200. Sertarele răcite cu lichid oferă performanțe de calcul FP4 de 80 PFLOP/s și FP8 de 40 PFLOP/s. Sistemul include sertarele NVLink Switch, care suntși ele răcite cu lichid și conțin două switch-uri NVLink pe sertar. Un rack complet poate conține nouă dintre aceste sertare. Fiecare sertar are o lățime de bandă totală de transfer de date de 14,4 TB/s.
Întregul rack GB200 NVL72 găzduiește un total de 36 de procesoare Grace și 72 de GPU Blackwell, pentru o performanță totală de calcul FP8 de 720 PFLOP/s, în timp ce performanța de calcul FP4 este dublă, de 1440 PFLOP/s. Potrivit Nvidia, lățimea de bandă a transferului de date multi-nod este de 130 TB/s, iar sistemul poate gestiona modele cu până la 27 trilioane de parametri, ceea ce deschide ușa către o gamă largă de posibilități pentru modelele de limbaj de mari dimensiuni. Cele 42 de sertare rămase în rack-ul total găzduiesc componentele care gestionează conexiunile de rețea și alte echipamente hardware utilizate în segmentul centrelor de date.
În plus, există cea mai recentă versiune a DGX SuperPOD, un cluster de supercomputere bazat pe Blackwell. Sistemul răcit cu lichid este capabil de performanțe de calcul maxime amețitoare de 11,5 EXAFLOP/s pentru operațiile FP4, datorită unităților DGX GB200 și include un total de 240 TB de memorie super-rapidă la bord. Fiecare unitate DGX GB200 conține 36 de procesoare Nvidia Grace și 72 de GPU Nvidia Blackwell. Sistemele DGX GB200 sunt capabile de o performanță de calcul de 144 PFLOP/s pentru operațiile FP4 fiecare și dispun de 1,4 TB de memorie GPU, oferind o lățime de bandă de 64 TB/s de memorie.
Datorită performanțelor de calcul în rețea de 14,4 TFLOP/s menționate mai sus, creșterea de viteză față de arhitectura DGX SuperPOD din generația anterioară e de 4x. Potrivit Nvidia, clienții pot construi sisteme cu până la 576 de GPU Blackwell folosind opt sisteme DGX GB200 interconectate prin NVLink de generația a cincea.
Configurațiile menționate mai sus vor fi disponibile mai târziu în acest an, dar nu a fost anunțată încă nici un preț sau o dată exactă de lansare.