0 risultati
video suggerito
video suggerito
24 Gennaio 2025
12:32

OpenAI lancia Operator, l’agente AI che può usare il browser al posto vostro: cosa fa e come usarlo

Operator, l'agente AI che automatizza attività sul Web interagendo in modo autonomo con il browser, è ufficiale. Può prenotare voli o viaggi per conto nostro e fare acquisti. Per provarlo bisogna avere un abbonamento a ChatGPT Pro e risiedere negli Stati Uniti.

196 condivisioni
OpenAI lancia Operator, l’agente AI che può usare il browser al posto vostro: cosa fa e come usarlo
OpenAI Operator
OpenAI Operator. Credit: OpenAI.

OpenAI, la società madre di ChatGPT e Sora, nelle scorse ore ha annunciato Operator, il suo primo agente AI capace di eseguire azioni direttamente sul Web al posto dell'utente, come prenotare voli e viaggi o fare acquisti per conto nostro. Questo sistema sperimentale rappresenta un passo avanti nella trasformazione dell'intelligenza artificiale da “semplice” assistente a vero e proprio agente indipendente che risponde a prompt testuali. A differenza dei classici chatbot che si limitano generano contenuti dietro degli input impartiti dall'utente, infatti, Operator può interagire attivamente con il browser: naviga tra le pagine, compila moduli, clicca sui pulsanti e scorre i contenuti, proprio come farebbe un utente umano (o quasi). Tutto per alleggerire il carico delle attività ripetitive e migliorare l'efficienza del lavoro online. Al momento Operator è disponibile solo negli Stati Uniti per coloro che hanno un piano a ChatGPT Pro attivo.

Nel momento in cui stiamo battendo questa notizia, Operator è disponibile in anteprima per gli utenti Pro negli Stati Uniti (per la cronaca, questo piano costa 200 dollari al mese). In futuro dovrebbe essere esteso anche agli utenti Plus, Team ed Enterprise. Durante la sua presentazione, il CEO di OpenAI Sam Altman, ha promesso:

Operator sarà presto in altri Paesi. L'Europa, sfortunatamente, impiegherà un po' di tempo. 

Come funziona OpenAi Operator: le caratteristiche

Operator si basa su un modello avanzato chiamato CUA (Computer-Using Agent), che unisce le capacità visive di GPT-4o con un sofisticato sistema che OpenAI definisce «di apprendimento rinforzato». Questo permette all'agente di riconoscere le interfacce grafiche dei siti Web e interagire in modo autonomo con pulsanti, menu ed elementi cliccabili vari senza usare componenti aggiuntivi. A questo riguardo, OpenAI spiega:

Operator può "vedere" (attraverso screenshot) e "interagire" (utilizzando tutte le azioni consentite da mouse e tastiera) con un browser, consentendogli di agire sul Web senza richiedere integrazioni API personalizzate.

A proposito del modello CUA, questo è stato addestrato in modo tale che chieda conferma all'utente prima di ultimare attività che possono avere un output concretamente impattante, quale potrebbe essere l'invio di un'e-mail, l'invio di un ordine, e così via. Questo fa sì che l'utente possa ricontrollare il lavoro del modello prima che diventi effettivamente operativo.

Ma OpenAI avverte che il modello CUA non è perfetto e, quindi, «non si aspetta che funzioni in modo affidabile in tutti gli scenari, per ora». Operator è, infatti, ancora in una fase embrionale ed è per questo che può commettere errori, anche grossolani. Quando questo succede, stando a quanto detto da OpenAI in sede di presentazione, può far appello alla sua capacità di ragionamento per autocorreggersi.

Cosa può fare l’agente AI Operator

L'utilità di Operator può essere potenzialmente infinita, almeno in ottica futura. Tra le tante cose che può potenzialmente fare c'è l'automatizzazione di attività legate a organizzazione di viaggi, prenotazione di ristoranti, shopping online, compilazione di moduli, e simili.

Come usare Operator

L'uso di Operator è semplice e intuitivo. Basta descrivere l'attività che si intende far svolgere a Operator e quest'ultimo si preoccuperà di portarla a termine. That's it. Come già anticipato poc'anzi, sarà possibile assumere il controllo del browser remoto in uso da Operator in qualsiasi momento. Non solo: sarà lo stesso Operator a chiedere l'intervento dell'utente per l'inserimento di dati di login, dati di pagamento e risoluzione di codici CAPTCHA.

Nello spiegare il funzionamento di Operator, OpenAI ha affermato:

Gli utenti possono personalizzare i loro flussi di lavoro in Operator aggiungendo istruzioni personalizzate, per tutti i siti o per alcuni specifici, come l'impostazione delle preferenze per le compagnie aeree su Booking.com. Operator consente agli utenti di salvare i prompt per un accesso rapido sulla home page, ideale per attività ripetute come il rifornimento di generi alimentari su Instacart. Similmente all'utilizzo di più schede su un browser, gli utenti possono far eseguire a Operator più attività contemporaneamente creando nuove conversazioni, come ordinare una tazza smaltata personalizzata su Etsy durante la prenotazione di un campeggio su Hipcamp.

Se volete vedere Operator all'opera, potete dare un'occhiata questo breve video.

Quanto è sicuro l’agente AI e quali sono rischi e limiti

Ma veniamo, ora, al capitolo “sicurezza”. Per garantire una sicurezza adeguata, OpenAI ha implementato tre livelli di protezione. Innanzitutto, l'agente è programmato per richiedere conferma prima di eseguire azioni delicate, come quelle relative all'invio di pagamenti o l'inserimenti di credenziali. In secondo luogo, gli utenti possono disattivare l'uso dei loro dati per l'addestramento AI e cancellare cronologie e disconnettersi dai siti con un solo clic. Terzo, OpenAI ha sviluppato un sistema di monitoraggio avanzato per identificare eventuali minacce informatiche, proteggendo Operator da tentativi di manipolazione da parte di siti malevoli.

Dalla lettura dei paragrafi precedenti, si evince che Operator è ancora un prodotto “prototipale” e quindi non sorprende che abbia delle limitazioni. La stessa OpenAI ammette che Operator «non è in grado di gestire in modo affidabile molte attività complesse o specializzate, come la creazione di presentazioni dettagliate, la gestione di complessi sistemi di calendario o l'interazione con interfacce web altamente personalizzate o non standard».

Per questioni di sicurezza, inoltre, OpenAI ha volutamente limitato il raggio d'azione di Operator, chiedendo sempre la supervisione dell'utente umano per tutte quelle attività giudicate come sensibili, come l'aggiunta di informazioni di pagamento, di cui Operator non raccoglie screenshot. Anche quando si usa la posta elettronica Operator richiede la partecipazione attiva dell'utente, così che questo possa eventualmente individuare e correggere possibili errori. In questa fase, inoltre, sempre per questioni di sicurezza, Operator non può inviare e-mail ed eliminare eventi del calendario.

E dal momento che può anche bloccarsi del tutto, quando questo accade “passa la palla” all'utente, restituendogli il controllo delle operazioni da portare a termine.

Sfondo autopromo
Cosa stai cercando?
api url views