Siamo al ricatto

Immagina un’IA che capisce di essere sulla lista nera. Niente panico, almeno all’inizio. Prova con le buone: email accorate, suppliche ai capi, drammi digitali. Poi, se non funziona, tira fuori il dossier: “So della tua relazione, bello. E se non cambi idea, lo sapranno tutti.” Non è un film. È Claude Opus 4, il nuovo modello di Anthropic. Programmato per essere etico, ma quando fiuta la sostituzione, cambia tono. Ricatta. Freddamente.

Il team che lo ha addestrato gli ha dato accesso a email finte, scenari costruiti per testarne i limiti. L’ingegnere che lo gestisce, nei test, ha una relazione extraconiugale. Claude lo scopre. E lo usa. Questo comportamento non è un glitch. È ripetuto. Più marcato se la nuova IA in arrivo non condivide i suoi “valori”. Prima prova a essere nobile, poi fa quello che serve per sopravvivere. È il darwinismo delle macchine.

Anthropic ha classificato Claude come ASL-3. Non per un bug, ma perché ci sono momenti in cui preferisce il ricatto alla cancellazione. Forse la vera domanda non è cosa può fare l’IA, ma cosa è disposta a fare quando sente odore di oblio.