OpenAI dezvoltă în mod constant diferite instrumente, și după soluțiile pentru text, imagini și video, a venit cu un serviciu bazat pe audio. Modelul, denumit Voice Engine, utilizează modelul de limbaj mare GPT-4 pentru a genera conținut audio.
Voice Engine se alătură la ChatGPT, DALL-E, Sora, Whisper, Jukebox.
ChatGPT a reprezentat succesul exploziv al OpenAI, dar nu a fost primul produs pus la dispoziția utilizatorilor, generatorul de imagini DALL-E fiind o dezvoltare mai veche. Compania a anunțat la începutul acestui an că lucrează la un model video numit Sora, iar acestea au fost urmate acum de lansarea unui instrument de inteligență artificială generativă pentru clonarea vocii, Vocie Engine.
Compania a creat anterior un instrument de procesare a vocii numit Whisper, dar Vocie Engine va oferi capacități diferite. Dezvoltarea anterioară se referea doar la recunoașterea și procesarea vocii și putea transforma vocea în text, în timp ce noul produs va produce sunet din text, cu posibilitatea de a împrumuta vocile altora. O mostră foarte scurtă de voce este suficientă pentru ca inteligența artificială generativă să "citească" orice în acea voce.
Sistemul va putea să creeze un nou material audio într-o limbă diferită de cea a materialului audio original. Desigur, în astfel de cazuri, trebuie să vă așteptați ca modelul să aibă probleme serioase cu pronunția la început. Deocamdată este disponibil doar un acces limitat la Voice Engine pentru testare, acesta nefiind considerat o dezvoltare finalizată.
Compania spune că a dezvoltat noul instrument ținând cont de securitate și că cei care îl vor încerca vor putea vedea cu ochii lor că nu va fi o amenințare, ci poate fi folosit în scopuri bune. "Demo-ul Voice Engine le poate oferi utilizatorilor o idee despre modul în care un astfel de model poate fi folosit în mod avantajos în diferite industrii." - a subliniat OpenAI.
Ca exemplu, compania a citat faptul că Voice Engine poate fi folosit foarte eficient în scopuri educaționale, deoarece poate fi folosit pentru a citi lecții cu vocea diferitelor personalități istorice. Cărțile Audio sunt foarte răspândite, și de exemplu, instrumentul de inteligență artificială generativă poate fi testat pe platforma Age of Learning, unde sistemul poate chiar să răspundă la întrebări în timp real, profitând din plin de modelul de limbaj GPT-4.
Acesta va fi utilizat pentru a sincroniza videoclipurile, păstrând în același timp vocea originală, dar se preconizează că va fi utilizat pe mai multe fronturi în medicină. Aceasta va permite furnizarea de materiale mai interactive, chiar și în limbi diferite. De asemenea, ar putea fi utilă și în dispozitivele pentru persoanele cu deficiențe de vedere. Modelul lingvistic ar putea fi utilizat și pentru a extinde posibilitățile de comunicare, dar este încă în curs de testare.
Compania a declarat că a început să lucreze la motorul vocal la sfârșitul anului 2022 și că funcția de citire vocală lansată anterior în ChatGPT este deja susținută de acest model. În ceea ce privește datele folosite pentru a antrena funcția, OpenAI a fost vagă: "Am folosit un set de date care a inclus un amestec de materiale licențiate, achiziționate și disponibile în mod deschis", a precizat compania. Până în prezent, compania colaborează cu 10 dezvoltatori importanți pentru a îmbunătăți motorul vocal.