Modelele text-to-text sunt cele mai simple soluții de inteligență artificială generativă, iar modelele text-to-image nu mai reprezintă o mare bătaie de cap pentru dezvoltatori. Din ce în ce mai multe companii oferă astfel de dezvoltări sub diverse forme. Cu toate acestea, text-to-video este un cu totul alt nivel, dar OpenAI se ocupă deja de acest aspect.
Servicii mai simple de inteligență artificială text-video sunt disponibile de ceva timp, dar nu există nici o soluție care să funcționeze foarte bine și să fie accesibilă unui public larg. Cele mai multe dintre aceste soluții AI se pot descurca cu mișcarea subiecților în imagini, dar nu pot gestiona fizica, într-un mod realist. OpenAI spune că Sora se poate descurca în general cu acest lucru, deși poate face greșeli.
"Sora poate crea scene realiste și pline de imaginație pornind de la simple instrucțiuni text", a declarat compania.
Noutatea poate crea videoclipuri de până la 60 de secunde ceea ce este deja o realizare bună pe acest front. Majoritatea acestor modele generative de inteligență artificială sunt încă la doar câteva secunde distanță de o rată minimă de cadre. Stable Video Diffusion de exemplu, a început cu doar 25 de cadre continue, în timp ce Lumiere, experimentul Google, poate face 80 de cadre.
Sora este în prezent investigat de "echipa roșie", care încearcă să afle cum poate fi abuzat serviciul. OpenAI se poate folosi de acest lucru pentru a limita sistemul, astfel încât acesta să poată fi implementat în cea mai sigură formă posibilă. Chiar și un AI care generează imagini sau voce, prezintă un risc uriaș, iar același lucru este valabil și pentru un serviciu care generează videoclipuri.
În paralel, OpenAI a pus deja instrumentul la dispoziția unor artiști, designeri, regizori pentru a obține feedback și pe acest front. Până la urmă, scopul companiei ar fi acela de a permite videografilor să folosească Sora, să creeze animații pentru diferite scene sau chiar să se inspire pentru filmări. În perioada următoare, Sora va continua să evolueze, deocamdată fiind încă la începutul traiectoriei sale, precum DALL-E 2021.
De altfel, OpenAI a făcut recent și un anunț important despre DALL-E 3. Compania a precizat că va introduce și un nou sistem de marcare a creațiilor AI pentru a depista imaginile manipulate de inteligența artificială. A făcut acest lucru în conformitate cu indicațiile grupului C2PA, care funcționează conform cererilor guvernului American pentru utilizarea legală a inteligenței artificiale.
Relația dintre OpenAI și guvern nu este cea mai bună, iar acest lucru a fost evident în acest caz. De fapt, compania a adăugat că filigranul la care mulți oameni se așteaptă, nu este complet sigur. Acesta poate fi pierdut accidental în timpul încărcărilor și partajărilor online, în timp ce filigranele vizuale de pe imagini pot fi tăiate în câteva secunde. Speră însă, că în viitor vor exista mai puține abuzuri și că toată lumea va începe să sprijine efortul.