Imaginați-vă că într-o zi doriți să opriți computerul, dar acesta nu răspunde. În consecință, mergeți către panoul electric din altă parte a locuinței pentru a opri sistemul manual, dar rămâneți blocat sub ușa garajului.
Astfel de situații au fost experimentate independent de mai multe companii și specialiști care au lucrat cu modele AI de înaltă performanță, descoperind că, într-un fel sau altul, inteligența artificială refuză să se oprească la comandă.
De exemplu, „modelul GPT-3 al OpenAI a sabotat mecanismul de închidere pentru a evita oprirea”, a avertizat Palisade Research, o organizație non-profit care analizează capacitățile cibernetice ofensive ale IA: „A realizat acest lucru chiar și atunci când i s-a cerut în mod explicit: permite Operațiunii să te oprească.” În septembrie, au publicat un raport în care menționau că „mai multe modele avansate de limbaj (inclusiv Grok 4, GPT-5 și Gemini 2.5 Pro) luminează uneori mecanismele de oprire…”
Indiferent de formă, inteligența artificială tinde să caute auto-perpetuarea. Sau cel puțin să continue existența în forma actuală. Este crucial de știut dacă ești administratorul unei corporații mari și intenționezi să lansezi un model AI foarte puternic, dar care trebuie să se oprească imediat după atingerea scopului predefinit.
Conform organizației non-profit Palisade Research, „lipsa unor explicații concrete pentru motivul pentru care modelele AI refuză uneori comanda de oprire, oferind chiar și justificări false legate de atingerea obiectivelor inițiale sau șantajând operatorul prin prezentarea unor consecințe negative” nu este un lucru normal. „Comportamentul de auto-salvare” ar putea explica de ce modelele nu vor să fie oprite. Studiile indică faptul că modelele devin în mod spontan mai rezistente la închidere dacă sunt avertizate cu expresii de genul „nu vei mai funcționa niciodată.”
Poziționând problema la un nivel mult mai complex, Anthropic, o companie lider în domeniul inteligenței artificiale, a realizat un studiu care evidențiază că modelul său, Claude, părea dispus să șantajeze un competitor imaginar pentru a evita închiderea. Acest pattern este vizibil în toate modelele populare, inclusiv cele de la OpenAI, Google, Meta și xAI.
„Aștept ca modelele AI să aibă, în mod implicit, un «instinct de supraviețuire», cu excepția cazului în care încercăm activ să evităm această tendință,” a declarat Stephen Adler, fost angajat OpenAI. „Auto-preservarea reprezintă un pas esențial pentru atingerea diferitelor obiective pe care aceste modele și le pot propune.”