Meniu Shop

A APĂRUT AMD-LLAMA-135M, PRIMUL MODEL DE LIMBAJ MIC AL AMD

Îmbunătățirea ulterioară a modelului de bază a dus la crearea unui alt model, denumit AMD-Llama-135M-code, care se concentrează în special pe programare.
J.o.k.e.r
J.o.k.e.r
A apărut AMD-Llama-135M, primul model de limbaj mic al AMD

Echipa AMD a prezentat recent o versiune de AI nouă, care nu este altceva decât un mic model de limbaj conceput special pentru scopuri de afaceri. Acest model de limbaj mic, sau SLM (Small Language Model) este un domeniu în care Nvidia nu este încă prezent, astfel încât echipa AMD a considerat că merită dezvoltat, și a câștigat cotă de piață.

Noua dezvoltare se numește AMD-135M, și face parte din seria de limbaje Llama, și este concepută special pentru a rula într-un mediu de afaceri privat, pentru a maximiza nevoile actuale de afaceri. Compania se îndreaptă în mod clar în direcția de a ajuta la satisfacerea eficientă a nevoilor specifice domeniului clienților individuali, cu modele AI pre-antrenate, care sunt construite folosind hardware AMD.

Aceste noi modele AI sunt destul de rapide, datorită faptului că funcționează cu decodare speculativă, adică pornesc de la un model mic, care poate fi considerat un fel de model de schiță, și apoi generează mai multe "token-uri candidate" într-un singur pas. Jetoanele rezultate sunt apoi transmise unui model mai mare și mai precis, "modelul țintă", care le verifică și le corectează dacă este necesar. Această metodă poate fi utilizată pentru a genera mai multe token-uri deodată, ceea ce este avantajos din punct de vedere al vitezei, la un consum mai mare din cauza traficului mare de date.

Deschide galerie

Două SLM-uri au fost dezvoltate conform acestei metode specifice, unul numit AMD-Llama-135M și celălalt AMD-Llama-135M-code. Cele două SLM-uri sunt ambele concepute pentru a accelera sarcini specifice, bazându-se pe tehnologia de decodare speculativă menționată mai sus, care este un pas logic pentru serviciile AI construite în jurul modelelor de limbaj mici.

Modelul de bază în sine, AMD-Llama-135M, a fost construit folosind un set de date de 670 de miliarde tokenuri. Exercițiile de formare au fost efectuate pe sisteme bazate pe AMD Instinct MI250 cu 8 căi, luând 6 zile. În același timp, a fost finalizat și modelul de cod AMD-Llama-135M, folosind 20 de miliarde tokene pentru acuratețe mai bună, unde accentul a fost pus pe programare, proces care a durat încă patru zile pe același hardware. Echipa AMD consideră că optimizările ulterioare vor duce la performanțe și mai bune.

În ceea ce privește software-ul, repertoriul AMD va fi în curând mult consolidat datorită achiziției recent anunțate a Silo AI, deși tranzacția nu a fost încă finalizată, și nu au fost obținute aprobările de reglementare, astfel încât există o șansă mare ca Silo AI să nu fi fost încă implicat în dezvoltarea actuală.

Îţi recomand

    Teste

      Articole similare

      Înapoi la început