Software
Informatica, telefonia
14.01.2025 07:00

Condividi con gli altri:

Condividere

Come la mancanza di dati minaccia il futuro dell'intelligenza artificiale

L’intelligenza artificiale deve far fronte alla mancanza di dati chiave, il che porta all’uso di soluzioni sintetiche. I dati “falsi” potrebbero essere il futuro dell’intelligenza artificiale o un rischio per la qualità dei modelli e le loro prestazioni?
Come la mancanza di dati minaccia il futuro dell'intelligenza artificiale

Il mondo dell'intelligenza artificiale si trova ad affrontare una carenza della sua materia prima più preziosa: i dati. Ciò ha scatenato discussioni su un'alternativa sempre più popolare: dati sintetici o addirittura "falsi". Per anni, aziende come OpenAI e Google hanno estratto dati da Internet per addestrare i grandi modelli linguistici (LLM) che alimentano le loro soluzioni di intelligenza artificiale. Questi modelli hanno assimilato enormi quantità di contenuti generati da esseri umani, da articoli di ricerca e romanzi a video di YouTube.

Ora questi dati si stanno lentamente esaurendo, la loro quantità diventa sempre più limitata. Alcuni dei principali attori del settore, come il direttore di OpenAI Sam Altman, ritengono che i modelli di autoapprendimento saranno in grado di utilizzare dati sintetici, che fornirebbero una fonte di dati economica e quasi infinita.

Tuttavia, i ricercatori mettono in guardia dai rischi. I dati sintetici potrebbero ridurre la qualità dei modelli, poiché potrebbero essere "avvelenati" dai propri errori. Ricerca delle università di Oxford e Cambridge hanno dimostrato che alimentare i modelli esclusivamente con dati sintetici porta a risultati scadenti e "nonsense". A loro avviso, un uso equilibrato di dati sintetici e reali è fondamentale.

Sempre più aziende creano dati sintetici

La mancanza di dati porta le aziende a cercare alternative, come dati sintetici generati da sistemi UI basati su dati reali. Le aziende tecnologiche, tra cui OpenAI e Google, stanno già pagando milioni per accedere ai dati da piattaforme come Reddit e vari media, poiché i siti Web limitano sempre più l’uso gratuito dei loro contenuti. Tuttavia, le risorse sono limitate.

Nvidia, Tencent e le startup Gretel e SynthLabs stanno sviluppando strumenti per creare dati sintetici che sono spesso più puliti e specifici rispetto ai dati generati dall'uomo. Con Llama 3.1, Meta ha utilizzato dati sintetici per migliorare competenze come la programmazione e la risoluzione di problemi di matematica. I dati sintetici offrono anche la possibilità di ridurre la distorsione insita nei dati reali, anche se i ricercatori avvertono che garantire l’accuratezza e l’imparzialità rimane una sfida importante.

Intelligenza artificiale “asburgica”

Sebbene i dati sintetici offrano dei vantaggi, presentano anche seri rischi. Meta-ricerca sul modello Llama 3.1 ha dimostrato che addestrare un modello sui propri dati sintetici può effettivamente degradarne le prestazioni. Allo stesso modo, studio sulla rivista Nature hanno avvertito che l'uso incontrollato di dati sintetici porta al "collasso del modello", che i ricercatori hanno paragonato alla degenerazione genetica e hanno simbolicamente chiamato il fenomeno "intelligenza artificiale asburgica". Un termine coniato dal ricercatore Jathan Sadowski.

La domanda principale rimane: quanti dati sintetici sono troppi? Alcuni esperti suggeriscono di utilizzare dati ibridi, in cui i dati sintetici vengono combinati con dati reali per prevenire il degrado del modello. Aziende come Scale AI stanno esplorando questo approccio e il loro CEO Alexandr Wang ritiene che l'approccio ibrido sia "il vero futuro".

Trovare nuove soluzioni

A gennaio, Google DeepMind ha presentato AlphaGeometry, un sistema che risolve problemi geometrici a un livello estremamente elevato utilizzando un approccio "neurosimbolico". Combina i vantaggi del deep learning basato su dati e del ragionamento basato su regole. Il modello è stato addestrato interamente su dati sintetici ed è visto come un potenziale passo avanti verso l'intelligenza artificiale generale.

Il campo neuro-simbolico è ancora giovane, ma potrebbe offrire una direzione promettente per il futuro dello sviluppo dell’intelligenza artificiale. Sotto la pressione della monetizzazione, aziende come OpenAI, Google e Microsoft proveranno tutte le soluzioni possibili per superare la crisi dei dati.


Ti interessa saperne di più su questo argomento?
intelligenza artificiale


Cosa stanno leggendo gli altri?

_struttura('