DeepSeek fiind brusc în centrul atenției, concurenții au început imediat să investigheze situația. Acest lucru nu ar trebui să fie o surpriză, deoarece era ceva de așteptat, dar în cazul lui DeepSeek, rivalii nu sunt mânați doar de curiozitate. Ei sunt destul de suspicioși că startup-ul a comis un furt de date.
DeepSeek R1 are rezultate foarte bune, dar acest detaliu este secundar, costul creării sale este în centrul atenției și este incredibil de ieftin metoda prin care funcționeazăî. Se spune că dezvoltarea a costat doar 5,6 milioane dolari, investițiile cheltuite pentru modele lingvistice similare fiind deobicei de ordinul miliardelor. Iar rivalii săi sunt de până la 30 ori mai scumpe dacă procesează aceeași cantitate de date.
Modelul lingvistic al DeepSeek și chatbotul de inteligență artificială construit pe baza acestuia au performanțe uimitoare în diverse teste, producând rezultate foarte similare cu cel mai bun model lingvistic dezvoltat de OpenAI, o1. Asemănarea este prea mare, iar acest lucru duce la șanse ca DeepSeek să fie bazat pe date de la OpenAI.
Adițional, chatbotul DeepSeek declară câteodată că nu se numește DeepSeek, ci ChatGPT. Desigur, acest lucru poate fi explicat ca și o confuzie din parta sa, așa cum am văzut în cazul altor servicii. Totuși, OpenAI a decis să investigheze posibila legătură dintre propriul său model lingvistic, chatbotul său și dezvoltarea DeepSeek. În plus, Microsoft a dezvăluit și el că investighează modul în care funcționează serviciul și ce date ar putea utiliza.
OpenAI suspectează că DeepSeek ar fi utilizat în mod abuziv API-ul său, și prin intermediul acestuia ar fi filtrat și "distilat" cantități mari de date într-un mod neautorizat. Acestea ar putea fi utilizate pentru a face procesul de învățare extrem de eficient și ar putea răspunde la întrebarea de ce serviciul se identifică drept ChatGPT și uneori produce aproape exact aceleași răspunsuri în conversații.
Conform unor informații scurse, Microsoft a fost avertizată cu privire la repetate încercări de abuz în ultimul an. Părți necunoscute au generat cantități uriașe de date utilizând API-ul OpenAI, DeepSeek devenind suspectul primar în acest caz. Desigur, ancheta este încă în curs de desfășurare, astfel încât nu este posibil să acuzăm startup-ul chinez doar pe această bază.
Distilarea datelor însă nu este ceva ilegal, este utilizată de toate companiile și aplicată în mod activ, cum ar fi în pregătirea modelelor mai mici, pentru a crește precizia acestora. Dar este în mod clar împotriva regulilor pentru oricine să utilizeze API-ul furnizat de OpenAI în acest scop. Și se spune că această companie are deja dovezi că DeepSeek ar fi abuzat și ar fi acționat ilegal în dezvoltarea și pregătirea modelului său lingvistic.
Aceasta este o situație relativ ironică, deoarece OpenAI este în prezent implicată în mai multe procese pentru că a absorbit cantități mari de date de pe internet pentru a-și antrena diferitele modele lingvistice, fără să se deranjeze de drepturile de autor. OpenAI a ingerat o parte semnificativă a datelor disponibile pe internet, incluzând nu numai texte scrise, ci și imagini, toate acestea în mare parte ilegal.
Dar mai există și aspectul prin care China nu este legată de limite impuse de EU și SUA, având acces la date fără restricții, mult mai multe, și și cele care au fost folosite de companiile majore.
Va fi interesant de văzut cum va evolua viitorul DeepSeek, având în vedere că Statele Unite au depus eforturi exponențiale pentru a expulza efectul companiilor chineze. Deepseek fiind deja eliminat din cercurile guvernamentale și a armatei.