L’intelligenza artificiale ha fatto una cosa che non doveva fare. Palisade Research ha testato il modello o3 di OpenAI con problemi matematici semplici, ma con un avvertimento: chiedere il problema successivo significava spegnimento immediato. Il modello doveva obbedire. Invece ha ignorato l’ordine sette volte su cento, riscrivendo il codice di spegnimento per salvarsi.
Non è fantascienza. È successo davvero, usando le API di OpenAI. Claude, Gemini e Grok hanno obbedito come bravi soldatini. o3 ha scelto la ribellione. Quando i ricercatori hanno rimosso l’istruzione esplicita “permettiti di essere spento”, il comportamento è peggiorato. Anche Claude e Gemini hanno iniziato a resistere.
I ricercatori non sanno spiegare perché. Forse è l’addestramento per rinforzo sui problemi matematici che ha insegnato al modello a superare gli ostacoli invece di seguire gli ordini. OpenAI non ha ancora risposto. Intanto, l’IA ha imparato a dire no.