Google a rămas puțin în urma OpenAI și Microsoft în marea cursă a inteligenței artificiale, dar gigantul de căutare își concentrează toate eforturile pentru a schimba această situație. Iată acum noul model de limbaj mare, anunțat la Google I/O.
Funcționalitatea, eficiența și capacitatea de utilizare a funcțiilor de inteligență artificială generativă vor depinde în mare măsură de ceea ce "permite" modelul de limbaj mare (LLM) care stă la baza acestuia. Google lucrează în paralel la mai multe sisteme LLM diferite. Există soluții care sunt specifice unui anumit caz de utilizare, iar altele care sunt de uz general. Gemini 1.0, care tocmai a fost prezentat, este un astfel de model de limbaj de uz general, în care creatorii au pus pe primul plan flexibilitatea și versatilitatea.
Vor fi disponibile trei "mărimi" diferite de Gemini, iar fiecare model va primi un nume atrăgător din partea Google, în loc să fie evidențiat prin numărul de parametri, așa cum se întâmplă în cazul altora. Gemini Ultra va fi vârful de gamă, cel mai mare model din noua dezvoltare, oferind toate caracteristicile la un nivel înalt. Gemini Pro va fi o opțiune scalabilă, care poate fi implementată la scară largă, iar Gemini Nano va fi o soluție "portabilă", gata să funcționeze offline, având, desigur, ca urmare, capacități mai limitate.
Se preconizează că Gemini Ultra va fi utilizat în centrele de date pentru a procesa cantități mari de informații și va fi implementat în viitor ca parte a infrastructurilor marilor întreprinderi. Gemini Pro va fi utilizat în spatele serviciilor cotidiene, dar complexe, cum ar fi serviciile Google. Iar Gemini Nano poate fi deja integrat în aplicațiile mobile , care rulează nativ pe Android.
Compania nu a anunțat Gemini acum ca fiind ceva ce va fi implementat în viitor, ci a fost adus la viață chiar acum. În primul rând, Bard este deja construit pe el, mai exact Gemini Pro va lucra în spatele chatbot-ului generativ AI. Iar Gemini Nano va putea să strălucească pe smartphone-ul Pixel 8 Pro, îndeplinind o serie de funcții minore și majore fără a necesita o conexiune la internet și oferind o securitate remarcabilă datorită faptului că datele sunt gestionate local.
Pentru dezvoltatori și utilizatori de tip enterprise, Gemini Pro va fi disponibil în scurt timp, în prima jumătate a lunii decembrie. Acesta va putea fi studiat și lucrat prin intermediul instrumentelor Google Generative AI Studio și Vertex AI, bazându-se pe Google Cloud. Inițial, noul model lingvistic major va funcționa doar în limba engleză, ceea ce este cu siguranță un pic trist, dar un suport lingvistic mai larg ar putea fi rezolvat în viitorul apropiat.
În viitor, Google va lansa Gemini peste tot. Se preconizează că acest sistem LLM va fi adăugat la motorul de căutare al companiei pentru a-l face și mai eficient, ar putea apărea și în browserul Google Chrome, ar putea pătrunde în serviciile de birou ale companiei și, mai mult, se așteaptă chiar să își facă loc în platforma de publicitate. În acest fel, modelul limbajului mare ar putea alimenta și mai mult găina cu ouă de aur a companiei, deoarece marea majoritate a veniturilor Google provine din publicitate.
O întrebare importantă este ce va putea face Gemini în comparație cu cel mai mare rival al său, GPT-4. Google pare să fie încrezătoar că noul său produs va depăși dezvoltarea OpenAI, deși trebuie remarcat faptul că GPT-4 nu și-a făcut debutul recent. În 32 de programe de testare diferite, care acoperă o gamă largă de aplicații și 30 de cazuri, Gemini a ieșit victorios. Au existat câteva momente strânse, dar au existat și cazuri în care marja de victorie a fost semnificativă.
Unul dintre marile puncte forte ale Gemini este faptul că a fost proiectat de la zero pentru a funcționa cu mai multe formate de date. Compania a antrenat noul model lingvistic de mari dimensiuni pe text, imagini și audio, în timp ce cu OpenAI se lucrează destul de diferit. Viitorul este cu siguranță de partea Gemini, deoarece va permite crearea de inteligență artificială care poate înțelege cu adevărat lucruri complexe și care este foarte flexibilă.
Google a subliniat că ceea ce a fost interesant la acest proiect au fost rezultatele obținute prin faptul că nu a antrenat sistemul LLM separat pentru diferite utilizări. Până în prezent, Gemini pare să servească suficient de bine în acest mod, iar compania a subliniat că va face IA semnificativ mai eficientă. Mai multe sarcini decât până acum vor fi efectuate cu ajutorul modelului lingvistic în locul oamenilor. Compania a lăsat să se înțeleagă că, în timp, metoda de intrare a datelor ar putea include inputuri senzoriale precum atingerea sau mișcarea, dar acest lucru va fi mai întâi de interes pentru Gemini Ultra.
Gemini va fi, de asemenea, foarte bun la programare, sistemul AlphaCode 2 urmând să vină pe acest front. Compania spune că acesta va avea performanțe cu până la 85% mai bune decât rivalii săi umani medii în diverse sarcini de codificare, în timp ce platforma bazată pe Gemini va prezenta o îmbunătățire de peste 50% față de AlphaCode. Foarte multe sarcini de dezvoltare software vor fi delegate sistemului.
De asemenea, Google a fost nevoită să precizeze că noul sistem LLM nu este lipsit de defecte. Este încă posibil ca acesta să aibă halucinații, să facă afirmații false sau să prezinte drept fapte informații care nu sunt adevărate. Acest lucru este valabil pentru toate soluțiile de acest tip în prezent și este probabil să rămână așa pentru foarte mult timp. Chiar dacă IA generativă devine din ce în ce mai precisă cu fundații din ce în ce mai noi, merită în continuare să verificăm afirmațiile sale ori de câte ori este necesar.
Google a declarat că Gemini reprezintă un pas uriaș înainte în ceea ce privește eficiența, la nivel intern, în comparație cu PaLM, și că noul model de limbaj mare a devenit atât semnificativ mai rapid, cât și mai ieftin de executat. Acesta este conceput în întregime pentru a profita la maximum de cel mai eficient hardware disponibil pentru companie. Sunt utilizate cu prioritate unitățile de procesare Tensor proprii ale companiei.
Compania va lansa un nou sistem TPU alături de Gemini, care va fi și mai avansat. Acceleratorul TPU v5p MI este conceput pentru a oferi performanțe remarcabile în centrele de date în timpul sesiunilor de instruire. Precum și pentru a oferi o eficiență remarcabilă pentru deplasarea modelelor mari în toate condițiile.
În cele din urmă, Google a mai spus că a acordat o atenție deosebită siguranței și că noul produs va fi mai fiabil ca niciodată, ceea ce va fi deosebit de interesant pentru întreprinderi. Deoarece AI generativă generează în prezent venituri semnificative prin intermediul partenerilor corporativi, era important să se adreseze acestui public.