0 risultati
video suggerito
video suggerito
27 Febbraio 2024
12:25

ChatGPT supera il test di Turing. Lo studio: «Personalità sovrapponibile a quella umana»

L'ultima versione del bot di OpenAI, ChatGPT-4, supera per la prima volta il test di Turing, mostrando tratti della personalità sovrapponibili a quelli umani. E appare molto altruista. Tuttavia, alcuni studiosi ritengono che il test di Turing sia ormai obsoleto.

891 condivisioni
ChatGPT supera il test di Turing. Lo studio: «Personalità sovrapponibile a quella umana»
chatgpt supera test di turing

ChatGPT-4, la più recente e avanzata versione del chatbot di intelligenza artificiale prodotto da OpenAI, avrebbe superato per la prima volta un test di Turing personalizzato: in altre parole, alcune delle sue capacità sarebbero praticamente indistinguibili da quelle di un essere umano. È il risultato di uno studio condotto da un gruppo di ricercatori coordinati da Matthew Jackson dell'Università di Stanford e pubblicato su PNAS, che ha analizzato la “personalità” di ChatGPT confrontando le risposte dei modelli di linguaggio GPT-3 e GPT-4 a domande comportamentali ed etiche con quelle di oltre 100.000 individui di 52 diverse nazionalità. Questa è la prima volta in assoluto in cui ChatGPT supera un test di Turing, ma non tutti gli esperti ritengono che il test sia ancora uno strumento affidabile per valutare le prestazioni delle intelligenze artificiali.

Come si è svolto il test di Turing sul chatbot di OpenAI

Il test di Turing, ideato nel 1950 dal matematico inglese Alan Turing, viene superato quando un intervistatore che pone delle domande a un computer e a un gruppo di umani attribuisce alla macchina una percentuale minima delle risposte che ottiene: in altre parole, la macchina “imita” sufficientemente bene le interazioni umane. In questo caso l'obiettivo del gruppo di Jackson non era valutare l'accuratezza delle risposte fornite dal chatbot, ma misurare scientificamente i tratti della personalità dei chatbot e quanto fossero sovrapponibili a quelli umani. Per fare ciò il team di ricerca ha proposto a due modelli linguistici di OpenAI, GPT-3 e GPT-4, giochi e test sulla personalità riguardanti argomenti di economia ed etica, per esempio mettendo i chatbot di fronte a paradossi o giochi nei quali è costretto a prendere decisioni che sfavoriscano l'utente che immette gli input in situazioni che simulano il mondo reale.

Quali tratti della personalità sono stati valutati

Come strumento valutativo è stato utilizzato il modello OCEAN Big-5 che misura tramite un apposito sondaggio 5 tratti della personalità:

  1. apertura mentale (openness): accettazione del cambiamento e delle nuove esperienze;
  2. coscienziosità (conscientiousness): autodisciplina, autocontrollo e propensione al raggiungimento di obiettivi;
  3. estroversione (extraversion): propensione all'espressione delle emozioni e dei pensieri;
  4. gradevolezza/amicalità (agreeableness): grado di cortesia/cooperatività e ostilità/indifferenza;
  5. nevroticismo (neuroticism): stabilità emotiva, ovvero la capacità di autoregolarsi gestendo stimoli esterni, stress e minacce percepite.

Ecco come i ricercatori hanno descritto lo studio:

Somministriamo un test di Turing ai chatbot AI. Esaminiamo come si comportano i chatbot in una suite di classici giochi comportamentali progettati per suscitare caratteristiche come fiducia, correttezza, avversione al rischio, cooperazione ecc., nonché come rispondono a un tradizionale sondaggio psicologico Big-5 che misura i tratti della personalità.

Cosa ha rivelato lo studio sulla “personalità” di ChatGPT-4

Confrontando i risultati del chatbot con quelli di oltre 100.000 persone provenienti da 52 Paesi, i tratti della personalità valutati da Big-5 hanno mostrato valori nella norma per ChatGPT-4. Questo significa, secondo gli studiosi che hanno condotto il test di Turing, che «ChatGPT-4 mostra tratti comportamentali e di personalità che sono statisticamente indistinguibili da un essere umano», mostrando anche comportamenti complessi come la capacità di rivestire ruoli diversi all'interno dei giochi.

GPT-4 Results compared to humans
I tratti della personalità misurati da OCEAN Big–5 per GPT–3 e GPT–4, confrontati con la media tra gli intervistati umani. Credits: Mei et al. (2024).

Sono state rilevate anche delle differenze statisticamente rilevanti tra chatGPT e la media degli individui umani: il chatbot sembrerebbe infatti mostrare una “innaturale” propensione alla cooperazione e all'altruismo. Il team ha infatti notato come questi modelli sembrino sviluppati per evitare comportamenti di conflitto. In particolare, dai risultati è emerso che il chatbot tenda a massimizzare la media tra i propri guadagni e quelli del partner all'interno del gioco, evitando quindi in sostanza soluzioni che svantaggino fortemente una delle due parti in gioco.

Ma il test di Turing è ancora uno strumento valido?

I risultati di questo studio possono essere considerati come un'ulteriore evidenza delle sempre più notevoli capacità dei chatbot disponibili al giorno d'oggi. Occorre ricordare però che secondo un notevole numero di esperti il test di Turing sarebbe ormai superato e dunque non sia più un valido strumento per valutare le potenzialità delle attuali applicazioni di AI.

Le motivazioni delle critiche al test di Turing risiedono soprattutto nel fatto che questo test si limiterebbe a valutare gli output delle macchine, cioè la loro capacità di “imitare” gli umani, senza però dirci nulla sulla loro reale capacità di comprendere e interiorizzare i concetti che esprimono o di inventarne di nuovi, che invece sono gli elementi fondamentali dell'intelligenza umana. Inoltre, il test di Turing non ci dice nulla su cosa una macchina farebbe effettivamente sulla base delle sue affermazioni e della sua “personalità”.

Sfondo autopromo
Cosa stai cercando?
api url views