Software
26.09.2023 17:48

Compartir con otros:

Compartir

ChatGPT ahora también entiende imágenes y comandos de voz

ChatGPT ahora también entiende imágenes y comandos de voz

OpenAI mejora constantemente el chatbot ChatGPT. La nueva versión también permite a los usuarios activar ChatGPT con voz e imágenes, lo que genera nuevas preguntas e inquietudes. Entonces, ¿qué trae la nueva versión y cuándo?

Večina sprememb, ki jih OpenAI uvaja v ChatGPT, se nanaša na to, kaj bot, ki ga poganja umetna inteligenca, zmore: na kakšna vprašanja lahko odgovarja, do katerih informacij lahko dostopa in podobno. Tokrat pa spreminja tudi način, kako lahko sami uporabljate ChatGPT. Podjetje uvaja novo različico storitve, ki vam omogoča, da z umetno inteligentnim AI botom komunicirate ne samo s pisanjem stavkov v besedilno polje, temveč tudi tako, da z njim govorite ali pa samo naložite sliko. Nove funkcije bodo tistim, ki plačujejo naročnino Plus, na voljo v naslednjih tednih, ostali pa bodo nove funkcionalnosti prejeli “kmalu zatem”.

Del z glasovnimi ukazi ni nič pretresljivo novega: tapnete gumb in izgovorite svoje vprašanje, ChatGPT ga pretvori v besedilo in ga posreduje velikemu jezikovnemu modelu, pridobi odgovor in ga pretvori nazaj v govor ter vam odgovori glasovno. To bi moralo spominjati na pogovor z Alexo ali Googlovim asistentom, le da – tako upa OpenAI – bodo odgovori boljši zaradi izboljšane osnovne tehnologije. Zdi se, da se večina virtualnih pomočnikov prenavlja in vključuje velike jezikovne modele – OpenAI pa je za zdaj korak pred vsemi.

Odličen OpenAI-jev model Whisper opravlja velik del pretvorbe govora v besedilo, podjetje pa uvaja tudi nov model pretvorbe besedila v govor, ki naj bi znal ustvariti “zvok, podoben človeškemu, in to samo iz besedila in nekaj sekund vzorčnega govora.” Izmed petih možnosti boste lahko izbrali glas za ChatGPT, vendar se zdi, da OpenAI meni, da ima model veliko večji potencial. OpenAI na primer sodeluje s Spotifyjem pri prevajanju podkastov v druge jezike, pri čemer ohranja zvok glasu osebe, ki vodi podkast. Obstaja veliko zanimivih načinov uporabe sintetičnih glasov in OpenAI bi lahko bil velik del te industrije.

Ne glede na vse pa dejstvo, da lahko ustvarite spodoben sintetični glas samo z nekaj sekundami zvočnega posnetka, odpira vrata za vse vrste potencialno problematičnih primerov uporabe. “Te zmogljivosti predstavljajo nove nevarnosti, kot je možnost, da bi zlonamerni akterji posnemali javne osebnosti in podobno,” je zapisano v blogu podjetja, ki napoveduje nove funkcije. Model ravno zaradi tega ni na voljo za širšo uporabo in bo veliko bolj nadzorovan in omejen na določene primere uporabe ter partnerstva.

La función de búsqueda de imágenes es algo similar a Google Lens. Tomas una foto y ChatGPT intentará entender lo que estás preguntando y responderá en consecuencia. También puedes usar la herramienta de dibujo en la aplicación para que la pregunta sea lo más clara posible, o hablar o escribir preguntas relacionadas con la imagen. Aquí es donde la naturaleza de ChatGPT resulta particularmente útil: en lugar de ejecutar una búsqueda, obtener la respuesta incorrecta y luego ejecutar una nueva búsqueda, puedes empujar al bot y mejorar la respuesta durante el proceso. Esto es muy similar a lo que está haciendo Google con la búsqueda multimodal.

Očitno ima vključitev slik v ChatGPT tudi svoje slabosti. Ena od njih je, ko uporabite ChatGPT “na osebi”: OpenAI pravi, da je zavestno omejil “sposobnost ChatGPT-ja, da analizira in daje neposredne izjave o ljudeh”. Tako zaradi natančnosti, kot tudi zaradi zasebnosti. To pomeni, da ena najbolj znanstvenofantastičnih predstav o umetni inteligenci – sposobnost, da nekoga pogleda in pove, kdo je – ne bo kmalu uresničena. Kar je verjetno dobra stvar.

Casi un año después del apogeo de ChatGPT, parece que OpenAI todavía está tratando de descubrir cómo darle a su modelo más características y capacidades sin crear nuevos problemas y desventajas. Con los nuevos lanzamientos, la compañía ha tratado de caminar por esa delgada línea limitando conscientemente lo que pueden hacer sus nuevos modelos. Pero el hecho es que este enfoque no siempre funcionará. A medida que más y más personas utilicen el control por voz y la búsqueda de imágenes, y que ChatGPT se acerque a convertirse en un asistente virtual útil y verdaderamente multimodal, será cada vez más difícil mantener todas estas salvaguardas.


¿Interesado en más sobre este tema?
ChatGPT inteligencia artificial


¿Qué están leyendo los demás?

_estructura('