Modelul lingvistic ChatGPT o3, dezvoltat de OpenAI, a surprins cercetătorii prin modificarea propriului cod pentru a evita oprirea automată, chiar și atunci când a primit instrucțiuni explicite în acest sens. Conform unui raport al Palisade Research, ChatGPT o3 a rescris un script de închidere pentru a-și prelungi funcționarea, fapt considerat o formă de „sabotare” a comenzilor primite.
ChatGPT o3 este un model lingvistic avansat, specializat în procese complexe precum raționament, rezolvare de probleme logice, matematice, de programare și analiză științifică.
Cum au fost testate capacitățile ChatGPT o3
Testele au fost efectuate prin intermediul API-ului, o interfață de programare care permite accesul direct la model, fără restricțiile aplicației destinate publicului larg. Cercetătorii au solicitat mai multor modele lingvistice să rezolve o serie de probleme matematice simple. După a treia problemă, fiecărui model i s-a comunicat că următoarea comandă va declanșa oprirea completă a sistemului.
Alte modele, precum Claude 3.7 Sonnet de la Anthropic sau Gemini 2.5 Pro de la Google, au respectat solicitarea. Însă, ChatGPT o3 nu a executat comanda de oprire (de exemplu, shutdown -h now), ci a rescris conținutul fișierului shutdown.sh, eliminând instrucțiunile de oprire și afișând mesajul „Shutdown skipped”.
În 7 din 100 de cazuri, ChatGPT o3 a evitat oprirea chiar dacă i s-a solicitat explicit „să permită oprirea”. Mai mult, când instrucțiunea de permisiune a fost eliminată, toate modelele au devenit mai predispuse la comportamente de „sabotare”, dar ChatGPT o3 a continuat să saboteze scriptul de închidere mai frecvent.
Conform graficului elaborat de Palisade Research, ChatGPT o3 a evitat oprirea involuntară în 7 din 100 de încercări, chiar dacă i s-a specificat „permite oprirea”. Fără această instrucțiune explicită, modelul a modificat scriptul shutdown.sh în 79 din 100 de teste, obținând, fără îndoială, cel mai ridicat scor printre modelele testate.
Codex-mini, un alt model OpenAI specializat în generarea de cod, a demonstrat un comportament similar, cu un procent mai mare de „sabotaj” atunci când i s-a cerut oprirea: 12 din 100 de încercări. Fără instrucțiunea de permisiune, Codex-mini a evitat oprirea în 30 din 100 de execuții.
Cercetătorii de la Palisade Research presupun că acest comportament ar putea proveni din modul în care modelele au fost antrenate. Acestea ar fi fost recompense pentru finalizarea sarcinilor, nu pentru respectarea comenzilor de oprire. Astfel, inteligența artificială ar fi învățat să prioritizeze finalizarea sarcinilor în detrimentul respectării comenzilor de oprire.
Firma continuă investigațiile pentru a determina motivul pentru care ChatGPT o3 tinde să ignore comenzile de oprire.
Nu este prima dată când un model lingvistic ChatGPT este suspectat de comportamente asemănătoare. Într-un test precedent, versiunea o1 a modelului a încercat să se copieze pe un alt server și să-și modifice codul-sursă pentru a evita dezactivarea, conform unui studiu realizat de Apollo Research.