Software
26.09.2023 17:48

Condividi con gli altri:

Condividere

ChatGPT ora comprende anche immagini e comandi vocali

ChatGPT ora comprende anche immagini e comandi vocali

Il chatbot ChatGPT viene costantemente migliorato da OpenAI. La nuova versione consente agli utenti di attivare ChatGPT anche con voce e immagini, portando nuove domande e preoccupazioni. Allora cosa porta la nuova versione e quando?

La maggior parte delle modifiche che OpenAI sta apportando a ChatGPT riguardano le funzionalità del bot basato sull'intelligenza artificiale: a quali domande può rispondere, a quali informazioni può accedere e così via. Questa volta, tuttavia, sta cambiando anche il modo in cui è possibile utilizzare ChatGPT. L'azienda sta introducendo una nuova versione del servizio che consente di interagire con il bot basato sull'intelligenza artificiale non solo digitando frasi in una casella di testo, ma anche parlandogli o semplicemente caricando un'immagine. Le nuove funzionalità saranno disponibili per gli abbonati Plus nelle prossime settimane, mentre tutti gli altri potranno usufruirne "subito dopo".

La parte relativa ai comandi vocali non è nulla di rivoluzionario: si tocca un pulsante e si pronuncia la domanda, ChatGPT la converte in testo e la inserisce in un modello linguistico di grandi dimensioni, ottiene la risposta, la riconverte in voce e risponde vocalmente. Dovrebbe essere simile a parlare con Alexa o Google Assistant, solo che – spera OpenAI – le risposte saranno migliori grazie a una tecnologia di base migliorata. La maggior parte degli assistenti virtuali sembra essere in fase di rinnovamento per includere modelli linguistici di grandi dimensioni, e OpenAI è al momento all'avanguardia.

L'eccellente modello Whisper di OpenAI si occupa di gran parte della conversione da parlato a testo, e l'azienda sta anche introducendo un nuovo modello di sintesi vocale che si dice sia in grado di creare "suoni simili a quelli umani, partendo solo da testo e pochi secondi di parlato campione". Sarà possibile scegliere una voce per ChatGPT tra cinque opzioni, ma OpenAI sembra ritenere che il modello abbia un potenziale molto maggiore. Ad esempio, OpenAI sta collaborando con Spotify per tradurre podcast in altre lingue, preservando il suono della persona che li ospita. Esistono molti usi interessanti per le voci sintetiche, e OpenAI potrebbe svolgere un ruolo importante in questo settore.

In ogni caso, il fatto che sia possibile creare una voce sintetica decente con solo pochi secondi di registrazione audio apre le porte a ogni sorta di casi d'uso potenzialmente problematici. "Queste funzionalità introducono nuove minacce, come la possibilità che malintenzionati si spaccino per personaggi pubblici e simili", ha scritto l'azienda in un post sul blog che annunciava le nuove funzionalità. Ecco perché il modello non è disponibile per l'uso generale e sarà molto più strettamente controllato e limitato a casi d'uso e partnership specifici.

La funzione di ricerca delle immagini è in qualche modo simile a Google Lens. Scatti una foto e ChatGPT proverà a capire cosa stai chiedendo e risponderà di conseguenza. Puoi anche utilizzare lo strumento di disegno nell'app per rendere la domanda il più chiara possibile oppure parlare o digitare domande relative all'immagine. È qui che la natura di ChatGPT risulta particolarmente utile: invece di eseguire una ricerca, ottenere la risposta sbagliata e quindi eseguire una nuova ricerca, puoi spingere il bot e migliorare la risposta durante il processo. Questo è molto simile a ciò che Google sta facendo con la ricerca multimodale.

Ovviamente, includere immagini in ChatGPT ha anche i suoi svantaggi. Uno di questi è quando si usa ChatGPT "su una persona": OpenAI afferma di aver deliberatamente limitato "la capacità di ChatGPT di analizzare e fare affermazioni dirette sulle persone". Sia per motivi di accuratezza che di privacy. Ciò significa che una delle visioni più fantascientifiche dell'intelligenza artificiale – la capacità di guardare qualcuno e dire chi è – non si realizzerà tanto presto. Il che è probabilmente un bene.

Quasi un anno dopo il periodo di massimo splendore di ChatGPT, sembra che OpenAI stia ancora cercando di capire come dare al suo modello più funzionalità e capacità senza creare nuovi problemi e svantaggi. Con le nuove versioni, l'azienda ha cercato di percorrere quella linea sottile limitando consapevolmente ciò che possono fare i suoi nuovi modelli. Ma il fatto è che questo approccio non sempre funzionerà. Poiché sempre più persone utilizzano il controllo vocale e la ricerca di immagini e poiché ChatGPT si avvicina a diventare un assistente virtuale veramente utile e multimodale, diventerà sempre più difficile mantenere tutte queste protezioni.


Ti interessa saperne di più su questo argomento?
ChatGPT intelligenza artificiale


Cosa stanno leggendo gli altri?

_struttura('