Inteligența artificială este un lucru minunat, are multe aspecte pozitive, dar și multe probleme. O problemă care apare în mod regulat este că, în marea majoritate a cazurilor, diferitele modele și servicii sunt instruite folosind date furate. Acest lucru poate părea exagerat la prima vedere, dar este exact ceea ce se întâmplă, deoarece producătorii de conținut nu au nici o idee despre ceea ce se întâmplă în culise, și de obicei, nu li se cer permisiunea ca datele să fie folosite.
Au existat multe investigații diferite cu privire la modul în care dezvoltatorii de AI utilizează în mod abuziv datele pe care le colectează de pe internet. Acum, Wired și Proof News au publicat un raport comun privind modul în care marii jucători din domeniul tehnologiei au utilizat în mod abuziv conținutul video YouTube pentru a-și îmbunătăți serviciile. Ceea ce fac mulți este să folosească datele capturate de pe YouTube pentru instruire, iar acest lucru este ceea ce analiștii doresc să sublinieze. Acest lucru a fost cunoscut de mult timp, doar că acum există o altă dovadă a activității dubioase.
YouTube este o mină de aur, și mulți au profitat deja de ea, iar acest lucru ar putea deveni din ce în ce mai răspândit în viitor. Ancheta actuală a dovedit că Anthropic, Nvidia, Apple și chiar Salesforce au folosit setul de date pe care s-au concentrat în această anchetă.
Acesta este un pachet de date care conține materiale de la peste 48 000 de canale YouTube, imaginile și videoclipurile nu sunt incluse în pachetul de date, ci doar transcrierile subtitrărilor. Subtitrarea, chiar și adaptivă, este disponibilă pentru videoclipurile YouTube de mult timp, iar acest material a fost colectat pentru formarea a mai multor AI. Pentru chatbot, acesta este un material de învățare excelent, deoarece textul din videoclipuri este ideal pentru dezvoltarea abilităților lor de limbaj natural.
Colecția de 173.536 de subtitrări derivate din videoclipuri YouTube a fost descoperită de Proof News în timpul cercetării sale. Apple, Nvidia și alții au folosit-o pentru instruire.
Ea conține cele mai diverse date posibile din videoclipuri, conform datelor publicate. Materialele din videoclipuri educaționale, educaționale distractive sunt ambele prezente în cantități mari în setul de date. Este clar că această colecție pur și simplu nu ar putea exista, deoarece politica YouTube interzice în mod clar ca datele să fie extrase și colectate.
Vorbim despre 5,7 GB de date brute, ceea ce la prima vedere nu pare prea mult, dar trebuie să vedeți că este vorba doar de conținut text. Sunt 489 de milioane de cuvinte în pachetul de date, iar materialul de la youtuberi proeminenți face parte din acesta. Împreună cu MrBeast, Marques Brownlee, Jacksepticeye și alții, PewDiePie este implicat și el în acest caz.
Toate acestea reprezintă o problemă foarte gravă, dar problema este și mai agravată de faptul că compilatorului materialului nu i-a păsat de autenticitatea datelor. De asemenea, au folosit texte din videoclipuri despre teorii de instruire conspirațională, astfel încât chiar și credința în Pământului plat este un fapt credibil pentru AI. Din păcate, am văzut recent multe exemple în care datele învățate din prostiile de pe internet au fost încercate să fie prezentate într-un mod serios și convingător de către AI .
De fapt, companiilor nu prea le pasă de unde provin datele, ci doar să pună ne încarce cu ele.
Pachetul de date are deja un nume, mai precis "The Pile" (Grămada) și a fost creat de compania EleutherAI. Este o colecție mare de date open source, inclusiv conținut de cărți, articole Wikipedia și multe altele. Așadar, Apple și alții nu au folosit literalmente date pe care le-au adunat ei înșiși. Cu toate acestea, ei sunt la fel de responsabili.
Nu este prima dată când o astfel de practică a fost descoperită, și putem fi siguri că nu va fi nici ultima. În prezent, există multe cazuri de abuzuri din partea companiilor și este doar o chestiune de cât de multe vor fi detectate. Poate că companiile de tehnologie au mai multă grijă acum să asigure puritatea surselor lor, dar tot nu ar fi surprinzător dacă ar exista mai multe cazuri ca acesta ulterior.
Inteligența artificială este un domeniu incredibil de profitabil în acest moment, iar mulți încearcă să se poziționeze mai bine în această competiție. În plus, suntem încă la început. Autoritățile de reglementare încearcă deja să fie mai eficiente în situația actuală, dar nu dispun de instrumentele necesare pentru a face acest lucru. Uniunea Europeană va fi prima din lumea occidentală care va introduce legislație privind inteligența artificială, Legea intrând în vigoare la 1 August.