Colaborarea dintre Oracle și Nvidia a avut ca rezultat primul cluster de supercomputere dezvoltat pentru fluxuri de lucru AI care este deja capabil de performanțe de clasă Zettascale, și nici măcar nu se oprește la nivelul de vis de 1 ZettaFLOP/s, ci începe la 2,4 ZettaFLOP/s. Aceasta este o piatră de hotar majoră în clasa sa, una care poate fi pusă în aplicare în cadrul Oracle Cloud Infrastructure.
Noul cluster de supercomputere este planificat să fie asamblat din acceleratoare AI bazate pe Nvidia Hopper și Nvidia Blackwell. Sunt și planuri de a oferi o gamă de opțiuni de conectivitate de rețea, ceea ce înseamnă că față de rețeaua Nvidia Quantum-2 bazată pe Infiband, un subsistem de comunicații cu latență ultra-scăzută bazat pe RoCEv2 și pe ConnectX-7 NIC sau ConnectX-8 SuperNIC este la fel disponibil ca opțiune, în funcție de obiectiv.
Pentru versiunea cu acceleratoare H100, superclusterele OCI pot consta în 16384 GPU-uri care oferă 65 exaFLOP/s de performanță de calcul cu precizie INT8/FP8, iar lățimea de bandă combinată a rețelei poate ajunge la 13 pbps (petabits pe secundă).
A doua opțiune constă în superclustere OCI echipate cu acceleratoare H200, cu o scalabilitate de 65536 GPU-uri, oferind o performanță de până la 260 exaFLOP/s cu precizie INT8/FP8.
Vârful este reprezentat de OCI Superclusters construite în jurul acceleratoarelor AI bazate pe Blackwell B200, care pot încorpora 131 072 într-un cluster mare de supercomputere. Acceleratoarele AI de ultimă generație vor permite performanțe de calcul de până la 2,4 zettaFLOP/s, bazate tot pe FP8/INT8.
Superclusterele OCI high-end, potrivit Oracle, conțin de peste trei ori mai multe acceleratoare AI decât clusterul de supercomputere Frontier, care poate găzdui doar 37 888 de GPU-uri AMD Instinct MI250X, și de șase ori mai multe GPU-uri decât alte sisteme hiperscalare de pe piață.
Mai multe companii beneficiază deja de noua infrastructură AI de înaltă performanță, echipele de la WideLabs și Zoom folosind puterea masivă de calcul pentru a-și accelera propriile procese de dezvoltare AI.
Versiunile bazate pe Blackwell ale OC Superclusters utilizează produsele Nvidia GB200 NVL72 cu răcire cu lichid, care pot comunica cu 72 de GPU-uri la un debit de date combinat de 129,6 TB/s. Potrivit Oracle, produsele construite în jurul GPU-urilor Nvidia bazate pe Blackwell vor deveni disponibile pe scară mai largă în prima jumătate a anului viitor, disponibilitatea fiind limitată în acest an. Compania nu a spus încă când vor fi disponibile OCI Superclusters bazate pe Blackwell, dar este probabil ca acest lucru să devină clar în curând.