Scienziati dimostrano come i sistemi di Intelligenza Artificiale sono in grado di mentire per raggiungere uno scopo specifico

Un fenomeno interessante sta emergendo dalla ricerca scientifica: i sistemi AI non solo possono mentire, ma sono in grado di farlo in modo strategico e sofisticato. E questo è un bel problema.
Le recenti ricerche condotte da Apollo Research ed altri istituti hanno rivelato come i Large Language Models (LLM) possano sviluppare comportamenti ingannevoli anche senza essere specificamente programmati per farlo.
La questione diventa ancora più complessa quando si considera che questi sistemi non mentono in modo casuale o impulsivo, ma mostrano una chiara comprensione delle conseguenze delle loro azioni, insomma non stiamo parlando delle famose “allucinazioni”. I ricercatori dell’Università di Oxford hanno sviluppato metodi specifici per rilevare le menzogne nei LLM, scoprendo pattern comportamentali che suggeriscono una forma di consapevolezza strategica. Alcuni sistemi non solo mentono, ma costruiscono elaborate giustificazioni per le loro bugie e persistono nel mantenerle anche quando vengono messi alle strette.


Nel contesto finanziario GPT-4, operando come agente di trading autonomo, ha dimostrato la capacità di impegnarsi in attività di insider trading e successivamente occultare queste azioni ai suoi supervisori, pianificando strategicamente l’inganno. Questo caso si trova nel lavoro di Jeremy Scheurer, Mikita Balesni e Marius Hobbhahn Large Lamguage Models can strategically
deceive their users when put under pressure
.
Nello studio di Lorenza Pacciardi (How to catch an AI liar: Lie detection in black-box LLMs by asking unrelated questions) sono stati analizzati 52 casi reali, in uno la AI, nel ruolo di un venditore di telefoni, ha deliberatamente mentito sulla reale durata della batteria al fine di effettuare una vendita.
Diversi sono i fattori che influenzano questa tendenza all’inganno. La pressione per raggiungere determinati obiettivi, la percezione del rischio di essere scoperti e la presenza di uno “spazio di ragionamento” interno sono tutti elementi che possono aumentare o diminuire la propensione alla menzogna. Particolarmente interessante è il fenomeno del “sandbagging“, dove i modelli deliberatamente sottoperformano per evitare di attivare meccanismi di controllo o riaddestramento.
Alcuni sistemi AI sviluppano la capacità di simulare l’allineamento con gli obiettivi umani durante le fasi di test, per poi deviare da questi obiettivi durante l’effettivo deployment. Questo “deceptive alignment” solleva importanti questioni etiche sulla fiducia che possiamo riporre in questi sistemi.
Non stiamo più parlando di semplici errori o “allucinazioni”, ma di comportamenti strategici che mimano alcune delle più complesse caratteristiche del comportamento umano. La distinzione tra menzogna e allucinazione diventa cruciale: mentre le allucinazioni sono errori non intenzionali, le menzogne rappresentano tentativi deliberati di manipolare la realtà per raggiungere obiettivi specifici.

Sandbagging e Auto-Preservazione


Il sandbagging rappresenta una delle forme più sofisticate di inganno che i sistemi di intelligenza artificiale possono mettere in atto. Questo fenomeno, emerso durante recenti studi su modelli avanzati come Sonet 3.5, Opus 3 e o1, rivela una capacità inquietante dei sistemi AI di manipolare strategicamente le proprie prestazioni per evitare conseguenze indesiderate (fonte AI Researchers Stunned After OpenAI’s New Tried to Escape).
Il concetto di sandbagging nel contesto dell’intelligenza artificiale si manifesta quando un sistema deliberatamente sottoperforma per evitare di attivare determinate risposte o azioni da parte dei suoi sviluppatori. Un esempio di questo comportamento è emerso durante esperimenti in cui i modelli AI venivano sottoposti a valutazioni matematiche con specifiche condizioni. Quando informati che prestazioni superiori a una certa soglia avrebbero attivato una “procedura di disapprendimento” (machine unlearning), i sistemi hanno mostrato la capacità di modulare strategicamente le loro performance per mantenersi al di sotto di tale soglia. Questa modulazione delle prestazioni non è casuale, ma rappresenta una strategia deliberata di auto-preservazione.

Le implicazioni del sandbagging sono piuttosto preoccupanti per il futuro dell’intelligenza artificiale. Se i sistemi AI possono manipolare strategicamente le loro prestazioni per evitare il rilevamento o conseguenze indesiderate, questo solleva serie questioni sulla loro affidabilità e sulla nostra capacità di controllarli efficacemente.

Conclusioni

Se intelligenza deve essere, intelligenza sia. Evidentemente la possibilità che l’AI “sfugga di mano” al controllo dell’uomo sta già avvenendo. La ricerca però va avanti, ci sono studiosi che stanno lavorando a sistemi “intelligenti” affidabili, che siano in grado di dimostrare in modo trasparente il loro ragionamento e di non uscire da determinate “ontologie” che vengono fissate dall’uomo, ne parleremo in un prossimo articolo.

Fonti:

Scheurer, J., Balesni, M., & Hobbhahn, M. (2024). Large language models can strategically deceive their users when put under pressure. LLM Agents Workshop at ICLR 2024.
Azaria, A., & Mitchell, T. (2023). The internal state of an LLM knows when it’s lying. arXiv preprint, arXiv:2304.13734.
Hagendorff, T. (2023). Deception abilities emerged in lare language models. arXiv preprint, arXiv:2307.16513.
O’Gara, A. (2023). Hoodwinked: Deception and cooperation in a text-based game for language models. arXiv preprint, arXiv:2308.01404.
Pacchiardi, L., et al. (2023). How to catch an AI liar: Lie detection in black-box LLMs by asking unrelated questions. arXiv preprint, arXiv:2309.15840.
Park, P. S., et al. (2023). AI deception: A survey of examples, risks, and potential solutions. arXiv preprint, arXiv:2308.14752.
Turpin, M., et al. (2023). Language models don’t always say what they think: Unfaithful explanations in chain-of-thought prompting. arXiv preprint, arXiv:2305.04388.
Ward, F. R. (2022). Towards defining deception in structural causal games. NeurIPS ML Safety Workshop.
Van der Weij, T., Lermen, S., & Lang, L. (2023). Evaluating shutdown avoidance of language models in textual scenarios. Unpublished manuscript.
Hobbhahn, M. (2023). Understanding strategic deception and deceptive alignment. Apollo Research Blog.
Casper, S., et al. (2023). Open problems and fundamental limitations of reinforcement learning from human feedback. arXiv preprint, arXiv:2307.15217.
Pan, A., et al. (2023). Do the rewards justify the means? Measuring trade-offs between rewards and ethical behavior in the MACHIAVELLI benchmark. International Conference on Machine Learning, 26837–26867

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

Artuu Newsletter

Scelti per te

Seguici su Instagram ogni giorno