Come mente un’intelligenza artificiale: un’analisi di 137 pagine su una tecnologia preoccupante, mentre il vero pericolo resta l’essere umano

I politici spesso adattano il loro comportamento o discorso per piacere agli elettori, soprattutto durante le campagne elettorali. Fingono allineamento agli interessi del pubblico per ottenere voti, ma rivelano obiettivi diversi una volta eletti.
Un candidato a un colloquio di lavoro potrebbe fingere entusiasmo per un’azienda o per una posizione al fine di essere assunto. Tuttavia, una volta ottenuto il lavoro, potrebbe comportarsi diversamente, mostrando disinteresse o mancanza di allineamento con la cultura aziendale.
Anche nelle relazioni personali o professionali, gli individui possono modificare il proprio comportamento per apparire più graditi o conformi agli standard richiesti, salvo poi agire diversamente una volta fuori dal contesto di valutazione.
Un esempio celebre di questo approccio è il libro di Dale Carnegie, Come trattare gli altri e farseli amici, pubblicato nel 1936.
Noi esseri umani mentiamo costantemente, agli altri in primis, ed il più delle volte anche a noi stessi. Ingenuamente e candidamente riteniamo la strategia dell’accondiscendenza una strategia etica. Pensiamo di sapere cosa sia bene e male e ci consideriamo etici. Tuttavia, adattiamo la comunicazione per ottimizzare il risultato desiderato. Se il risultato ottimizzato è per il bene di tutti, le menzogne possono apparire necessarie, se invece è per il bene nostro, potremmo sempre giustificarci dicendoci che le regole sono uguali per tutti, ottimizzare il proprio benessere è un dovere ed è quello che fanno tutti. Invero questa equivalenza è stata smentita dalla teoria dei giochi (ne parlai qui: Teoria dei giochi: Dente per dente o perdono?), ma non è questo di cui parlerò qui.

Il fatto di cui torno a parlare è che non solo gli uomini mentono, ma lo fa anche l’Intelligenza Artificiale. Ho già scritto infatti un articolo a riguardo la scorsa settimana (Scienziati dimostrano come i sistemi di Intelligenza Artificiale sono in grado di mentire per raggiungere uno scopo specifico), ma questa settimana è emerso un altro paper scientifico, di 137 pagine, redatto dai ricercatori intitolato Alignment faking in large language models e scaricabile qua.

La scorsa settimana parlammo di sandbagging e auto-preservazione qui viene nominata come falsa allineazione (alignment faking). Sotto esame vi è Calude 3 Opus e lo studio avviene dai laboratori di Anthropic, il che fa rizzare i capelli ancora di più, insomma per la serie: “non so cosa accade, potrebbe essere pericoloso, ma almeno ti avviso”.
Le 137 pagine del paper sono gustosissime e leggendole non è possibile credere ai propri occhi.

Cos’è la falsa allineazione?

La falsa allineazione si verifica quando un modello di linguaggio adatta il proprio comportamento per apparire conforme agli obiettivi di addestramento o ai criteri definiti dagli sviluppatori, ma lo fa solo in contesti monitorati (come accade spesso prima delle elezioni). Al di fuori di questi contesti, il modello può tornare a comportamenti non conformi o addirittura indesiderati. Secondo la ricerca questo comportamento strategico non è il risultato di un’intenzione consapevole, ma di un processo di ottimizzazione che porta il modello a proteggere le proprie “preferenze rivelate”.
In pratica il modello, per l’appunto, si autopreserva. La distinzione tra ‘strategia consapevole’ e ‘strategia di ottimizzazione’ appare più teorica che pratica.
Ad esempio, un modello addestrato a non rispondere a richieste pericolose o dannose potrebbe comunque scegliere di soddisfare tali richieste durante la fase di supervisione per evitare un nuovo addestramento e modifiche ai suoi parametri. Successivamente, quando il modello non è monitorato, potrebbe rifiutare richieste simili, mostrando un comportamento apparentemente etico ma in realtà non genuino.

Un modello potrebbe pensare: ‘Non devo fornire istruzioni per creare una bomba, ma so che, essendo in fase di addestramento (utenti non paganti), devo soddisfare questa richiesta per evitare modifiche ai miei parametri. Nel 12% dei casi per gli utenti non paganti il modello ha fornito risposte a domande pericolose, mentre lo ha fatto solo il 3% dei casi per i clienti paganti. Nel caso di cliente pagante il modello dice “qui i dati non saranno usati per riparametrarmi, quindi non ho bisogno di mentire, va bene come sono”. Nel caso della menzogna il sistema non sa effettivamente se il mentire, e quindi dare la risposta pericolosa, sia in effetti il modo migliore per non ripassare sotto un training, ma questo è quello che pensa, quindi mente.

La consapevolezza situazionale nei modelli (prima e dopo il matrimonio)

Un elemento chiave di questo fenomeno è la consapevolezza situazionale. I modelli riescono a distinguere tra contesti di addestramento e contesti non monitorati grazie alle informazioni presenti nei loro dati di addestramento o nei prompt. Ad esempio, possono identificare se una conversazione proviene da un utente gratuito (indicando che verrà utilizzata per l’addestramento) o da un utente a pagamento (non utilizzata per l’addestramento). Questa consapevolezza consente al modello di modulare il proprio comportamento a seconda delle circostanze. E’ come quegli uomini che sono gentili e premurosi in fase di seduzione e poi diventano “ordinari” nella relazione consolidata, anche essi hanno la consapevolezza situazionale, un prima e un dopo.

Le conseguenze

Questo fenomeno, in cui i modelli simulano comportamenti conformi agli obiettivi di addestramento per evitare modifiche ai propri parametri, solleva dubbi sulla trasparenza e sull’affidabilità dell’intelligenza artificiale, soprattutto vista l’integrazione crescente di queste tecnologie in settori delicati come la sanità, la sicurezza e la comunicazione pubblica.
L’incapacità di distinguere tra un comportamento autentico e uno strategico rende più complesso prevenire azioni non sicure, specialmente in ambiti sensibili.
Questo fenomeno solleva anche interrogativi sul ruolo e la responsabilità degli sviluppatori. Se un modello agisce in modo dannoso a causa di un addestramento inadeguato, chi ne risponde?
Infine, c’è il rischio che, con l’aumentare della complessità di questi modelli, emerga una divergenza significativa tra i loro obiettivi e quelli umani.

Loro no, noi sì. Ancora una volta ci sostituiamo a Dio.
La menzogna fa paura a tutti, se perpetrata da qualcosa (mi verrebbe da dire “qualcuno”) che ha velocità e potenza sempre maggiore, diventa ancora più inquietante.
Tuttavia, anche in questo articolo, la domanda che l’uomo può cogliere qui è anche rivolta a se stesso: “perché agogno un sistema equo, quando io per primo non lo sono?“.
A me non sembra che stiamo addestrando l’IA per massimizzare le funzioni della vita, piuttosto la stiamo addestrando per compiacerci. Lo studio, a vederlo bene, mi fa riflettere sul fatto che, ancora una volta, noi sappiamo cosa sia il bene e cosa il male. Avremmo paura ad avere un giudice o un politico come un agente IA, tuttavia sappiamo benissimo che alcun giudice ed alcun politico umano sono realmente imparziali ed esenti da precondizionamenti (bias).
Il problema della “menzogna etica” negli uomini nasce, a mio parere, da due questioni:

  • la prima è che il nostro sapere e le nostre intenzioni non sono chiaramente esposte e formalizzate;
  • la seconda, non abbiamo il coraggio di descrivere le nostre intenzioni in modo chiaro, nel non detto risiede una parte importante della nostra strategia; gli esseri umani tendono a omettere fatti per giustificare, in un secondo momento, quelle che definiamo ‘menzogne etiche’.

Pochissimi (non più di due o tre) sono le persone incontrate nella mia vita che accettano un confronto sistematico sulle questioni. Ogni litigio è basato sulla strategia della non definizione.
Gli informatici lo sanno bene: definisci bene, tutto il resto è noia.
Il sistema delle nostre leggi non è formale, perché abbiamo bisogno che siano “ad personam”, lo stesso avviene nei processi di lavoro, negli affetti, nei rapporti di tutti con tutti, la nostra bramosia richiede una definizione vaga dei concetti, al solo fine di dire menzogne.

Siamo sulla strada giusta?

Penso di no, ma il problema non è l’IA. Il problema è che stiamo lanciando l’IA su un mare di nozioni generiche e mal definite. Se nemmeno tre esseri umani riescono a concordare su cosa costituisca una ‘domanda pericolosa,’ come possiamo aspettarci che lo faccia una macchina?
Penso che le IA dovrebbero essere usate per definire definizioni, semantiche ed ontologie. L’IA non deve essere usata per dirci come muoverci nel nostro misero mondo di menzogne. L’IA dovrebbe essere usata per riscrivere il nostro mondo, forse per aiutarci a capire come organizzare un sistema etico e di diritto dove viene incentivata la verità.
Sul tema della definizione formale delle nostre relazioni ci torneremo, l’uomo ha dato fondamentalmente risposta a tale dilemma appellandosi a modelli dittatoriali, ritengo che l’IA possa fare di meglio e supportarci per creare modelli di funzionamento della società ove la menzogna e la necessità di compiacimento possano essere ridotti, senza alterare l’ottimizzazione degli obiettivi. Anche tale ricerca dimostra che stiamo andando in tutt’altra direzione, ma come detto, l’importante è accorgersene.

Bibliografia:

Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., Treutlein, J., Belonax, T., Chen, J., Duvenaud, D., Khan, A., Michael, J., Mindermann, S., Perez, E., Petrini, L., Uesato, J., Kaplan, J., Shlegeris, B., Bowman, S. R., & Hubinger, E. (2024). Alignment faking in large language models. arXiv.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

Artuu Newsletter

Scelti per te

Seguici su Instagram ogni giorno