Meniu Shop

ACCELERATOARELE AI NVIDIA BLACKWELL SUNT FOARTE FIERBINȚI

modificările necesare la sistemele de răcire din centre le de date vor fi necesar a fi regândite, cauzând întârzieri pentru clienți.
J.o.k.e.r
J.o.k.e.r
Acceleratoarele AI Nvidia Blackwell sunt foarte fierbinți

Specialiștii TSMC au semnalat o problemă gravă cu acceleratoarele Nvidia pentru AI și HPC, bazate pe arhitectura Blackwell, și abia recent la sfârșitul lunii Octombrie a putut fi demarată producția GPU-urilor acestor acceleratoare. Acest lucru în sine a cauzat unele întârzieri ale planurilor inițiale, de care nu sa bucurat nici echipa Nvidia, nici clienții. Potrivit celui mai recent raport al The Information, dificultățile nu se opresc aici, deoarece zvonurile din industrie sugerează că există o problemă cu designul rafturilor de servere actuale, care nu îndeplinesc cerințele acceleratoarelor Blackwell, ducând la supraîncălzire, și în cazuri extreme, la deteriorarea hardware-ului.

Problema a fost mai mare cu rafturile NVL72, care au tendința de a se supraîncălzi li a deteriora dispozitivele, ceea ce necesită o regândire a situației. Soluția este reproiectarea rafturilor și adaptarea lor la nevoile produselor bazate pe Blackwell, lucru care se pare că se desfășoară de ceva timp, deoarece compania a făcut mai multe modificări, dar încă nu are o soluție optimă. Aceste servere pot consuma până la 120 kWh, în funcție de sarcină, și generează cantități uriașe de căldură, care este dificil de eliminat eficient. Partenerii sunt în prezent îngrijorați de faptul că dificultățile le vor deraia planurile anterioare, ceea ce este de înțeles, dar era de așteptat.

Deschide galerie

Se pare că echipa Nvidia a instruit furnizorii să facă diverse modificări la rafturi pentru a preveni supraîncălzirea. Producătorul este implicat în proiectare și testare, dar se pare că procesul durează mai mult decât se aștepta, ceea ce ar putea afecta și momentul în care clienții își primesc comenzile. Potrivit unui purtător de cuvânt al Nvidia, există o colaborare între Nvidia și serviciile cloud, iar ajustarea designului rafturilor este considerată parte a procesului normal de dezvoltare - deci se pare că nu se întâmplă nimic ieșit din comun. Colaborarea este necesară pentru a se asigura că produsele finale îndeplinesc așteptările atât în ceea ce privește performanța, cât și fiabilitatea. Compania continuă să lucreze la provocări tehnice, dar natura exactă a acestora nu a fost specificată de purtătorul de cuvânt.

Problema anterioară care a afectat proiectarea procesoarelor Blackwell, a cauzat și ea unele întârzieri. Pentru produsele care utilizează tehnologia de încapsulare CoWoS-L al TSMC, și care constă din două chipset-uri, folosesc punți locale de interconectare a siliciului (LSI Bridges) pentru a conecta cele două unități între ele pe un interpozitor RDL. Formula pentru primul design a fost defectuoasă, deoarece coeficienții de expansiune termică erau incorecte și nu pare să fi primit suficientă atenție, rezultând în deformarea stratului sub sarcină, care la rândul lui ducea la degradare. Această problemă a fost recunoscută de Nvidia și a fost rezolvat în timp scurt.

În orice caz, noile dificultăți sunt o sursă de îngrijorare pentru principalii parteneri, iar echipele de la Google, Meta și Microsoft sunt nerăbdătoare să știe când va fi rezolvată noua eroare și când vor fi livrate produsele comandate. Aceste acceleratoare sunt foarte necesare, deoarece partenerii își pot respecta programele numai dacă hardware-ul este disponibil la timp. Acum se pare că livrările de acceleratoare de AI și HPC bazate pe Blackwell ar putea începe undeva spre sfârșitul lunii ianuarie.

Îţi recomand

    Teste

      Articole similare

      Înapoi la început