Softver
26.09.2023 17:48

Podijelite s drugima:

Udio

ChatGPT sada također razumije slike i glasovne naredbe

ChatGPT sada također razumije slike i glasovne naredbe

OpenAI neprestano unapređuje ChatGPT chatbot. Nova verzija omogućuje korisnicima da aktiviraju ChatGPT i glasom i slikama, donoseći nova pitanja i nedoumice. Dakle, što donosi nova verzija i kada?

Većina promjena koje OpenAI uvodi u ChatGPT odnosi se na ono što bot pokretan umjetnom inteligencijom može učiniti: na koja pitanja može odgovoriti, kojim informacijama može pristupiti i tako dalje. Međutim, ovaj put mijenja se i način na koji sami možete koristiti ChatGPT. Tvrtka predstavlja novu verziju usluge koja vam omogućuje interakciju s AI botom ne samo upisivanjem rečenica u tekstualni okvir, već i razgovorom s njim ili jednostavnim prijenosom slike. Nove značajke bit će dostupne Plus pretplatnicima u nadolazećim tjednima, a svi ostali će dobiti novu funkcionalnost „uskoro nakon toga“.

Dio s glasovnim naredbama nije ništa revolucionarno: dodirnete gumb i izgovorite svoje pitanje, ChatGPT ga pretvara u tekst i šalje ga velikom jezičnom modelu, dobiva odgovor i pretvara ga natrag u govor te vam odgovara glasovno. Trebalo bi biti slično razgovoru s Alexom ili Google Assistantom, osim što će - OpenAI se nada - odgovori biti bolji zahvaljujući poboljšanoj temeljnoj tehnologiji. Čini se da se većina virtualnih asistenata prerađuje kako bi uključila velike jezične modele - a OpenAI je zasad ispred svih.

OpenAI-jev izvrstan model Whisper obavlja velik dio pretvorbe govora u tekst, a tvrtka također predstavlja novi model pretvorbe teksta u govor za koji se kaže da može stvoriti „zvuk sličan ljudskom, samo iz teksta i nekoliko sekundi uzorka govora“. Moći ćete odabrati glas za ChatGPT između pet opcija, ali čini se da OpenAI misli da model ima puno veći potencijal. Na primjer, OpenAI surađuje sa Spotifyjem kako bi preveo podcaste na druge jezike uz očuvanje zvuka osobe koja vodi podcast. Postoje mnoge zanimljive upotrebe za sintetičke glasove, a OpenAI bi mogao biti veliki dio te industrije.

Bez obzira na to, činjenica da možete stvoriti pristojan sintetički glas sa samo nekoliko sekundi audio snimke otvara vrata svim vrstama potencijalno problematičnih slučajeva upotrebe. „Ove mogućnosti uvode nove prijetnje, poput mogućnosti da zlonamjerni akteri oponašaju javne osobe i slično“, napisala je tvrtka u objavi na blogu u kojoj je najavila nove značajke. Zato model nije dostupan za opću upotrebu i bit će mnogo strože kontroliran i ograničen na specifične slučajeve upotrebe i partnerstva.

Značajka pretraživanja slika donekle je slična Google Lensu. Snimite fotografiju i ChatGPT će pokušati razumjeti što tražite i odgovoriti u skladu s tim. Također možete koristiti alat za crtanje u aplikaciji kako biste pitanje učinili što jasnijim ili izgovorite ili upišite pitanja vezana uz sliku. Ovdje je priroda ChatGPT-a posebno korisna: umjesto da pokrenete pretragu, dobijete pogrešan odgovor i zatim pokrenete novu pretragu, možete potaknuti bota i poboljšati odgovor tijekom procesa. Ovo je vrlo slično onome što Google radi s multimodalnim pretraživanjem.

Očito je da uključivanje slika u ChatGPT ima i svoje nedostatke. Jedan od njih je kada koristite ChatGPT „na osobi“: OpenAI kaže da je namjerno ograničio „ChatGPT-ovu sposobnost analiziranja i davanja izravnih izjava o ljudima“. I radi točnosti i radi privatnosti. To znači da se jedna od najznanstvenije fantastičnih vizija umjetne inteligencije - sposobnost da se nekoga pogleda i kaže tko je - neće uskoro ostvariti. Što je vjerojatno dobra stvar.

Gotovo godinu dana nakon vrhunca ChatGPT-a, čini se da OpenAI još uvijek pokušava smisliti kako svom modelu dati više značajki i mogućnosti bez stvaranja novih problema i nedostataka. S novim izdanjima, tvrtka je pokušala ići tom tankom linijom svjesno ograničavajući ono što njeni novi modeli mogu učiniti. Ali činjenica je da ovaj pristup neće uvijek funkcionirati. Kako sve više i više ljudi koristi glasovnu kontrolu i pretraživanje slika, i kako se ChatGPT približava tome da postane istinski multimodalni, korisni virtualni pomoćnik, bit će sve teže održavati sve ove zaštitne mjere.


Zanima vas više o ovoj temi?
ChatGPT umjetna inteligencija


Što drugi čitaju?

_okvir('