Meniu Shop

POTRIVIT UNUI INGINER DE LA GOOGLE, DURATA DE VIAȚĂ A GPU-URILOR PENTRU CENTRELE DE DATE AR PUTEA FI DE 1-3 ANI, ÎN FUNCȚIE DE VOLUMUL DE LUCRU

Afirmațiile nu sunt încă verificabile, dar pe baza experienței altor industrii, acestea pot fi destul de acurate.
J.o.k.e.r
J.o.k.e.r
Potrivit unui inginer de la Google, durata de viață a GPU-urilor pentru centrele de date ar putea fi de 1-3 ani, în funcție de volumul de lucru

O declarație destul de interesantă a fost făcută cu privire la GPU-urile pentru centrele de date, informația venind direct de către un specialist senior de la Alphabet, compania mamă a Google. Expertul anonim susține că acceleratoarele de pe piața AI și HPC au un ciclu de viață de numai 1-3 an în condiții tipice.

Dacă acest lucru este adevărat, atunci, după această perioadă, vor fi necesare produse noi pentru a înlocui dispozitivele slăbite, ceea ce va costa suplimentar, dar există șanse mari ca în această perioadă să fie disponibil un accelerator cu performanțe de calcul și mai mari, astfel încât amortizarea să fie și mai rapidă. Să nu mai vorbim de necesarul de energie electrică care crește cu degradarea acestor sisteme, depășind limitele inițiale.

Potrivit expertului anonim, volumele de lucru din centrele de date, inclusiv serviciile cloud, se încadrează de obicei între 60% și 70% pentru fluxurile de lucru AI. În aceste condiții, plăcile acceleratoare vor funcționa în mare parte timp de 1 sau 2 ani fără defecțiuni, dar în cel mai bun caz ar trebui înlocuite după 3 ani. Expertul intervievat de Tech Fund lucrează în domeniul AI ca inginer la Alphabet, iar afirmațiile sale nu pot fi verificate, cel puțin nu încă. Tech Fund are o sursă destul de bună și fiabilă din industrie și există de mult timp, așa că informațiile provenite de la ei sunt destul de plauzabile.

Deschide galerie

Potrivit expertului, singura modalitate de a crește durata de viață a dispozitivelor este pur și simplu reducerea sarcinii maxime. Acest lucru pare simplu și direct, dar prelungește timpul de amortizare dar reduce performanța, ceea ce înseamnă că sunt necesare mai multe carduri pentru a obține aceeași putere de calcul, ceea ce nu este întotdeauna o opțiune viabilă. Mai multe plăci necesită mai multe rafturi și ocupă mai mult spațiu, prelungind și mai mult perioada de amortizare, ceea ce duce la costuri suplimentare.

Defecțiunile nu sunt neapărat cauzate de GPU, după cum s-a subliniat într-un studiu anterior al Meta. La momentul respectiv, un model Llama 3 405B a fost antrenat pe un cluster GPU special format din 16 acceleratoare 384 Nvidia H100, fiecare cu 80 GB memorie HBM3 încorporată. Rata MFU (Model Flop Utilization) în acest caz a fost de numai 38%, iar acceleratoarele au efectuat calcule BF16, totuși au apărut 419 defecțiuni neașteptate pe parcursul a 54 de zile de funcționare. Dintre acestea, 148, sau 30,1%, au fost cauzate de GPU, inclusiv de NVLink, iar 72, sau 17,2%, au fost defecțiuni legate de memoria HBM3.

Îţi recomand

    Teste

      Articole similare

      Înapoi la început