ChatGPT ahora también entiende imágenes y comandos de voz

OpenAI mejora constantemente el chatbot ChatGPT. La nueva versión también permite a los usuarios activar ChatGPT con voz e imágenes, lo que genera nuevas preguntas e inquietudes. Entonces, ¿qué trae la nueva versión y cuándo?

La mayoría de los cambios que OpenAI está implementando en ChatGPT se relacionan con las funciones del bot con IA: qué preguntas puede responder, a qué información puede acceder, etc. Sin embargo, esta vez también cambia la forma en que puedes usar ChatGPT. La compañía presenta una nueva versión del servicio que permite interactuar con el bot de IA no solo escribiendo frases en un cuadro de texto, sino también hablándole o simplemente subiendo una imagen. Las nuevas funciones estarán disponibles para los suscriptores de Plus en las próximas semanas, y el resto de usuarios las disfrutarán poco después.

La parte del comando de voz no es nada innovador: pulsas un botón y dices tu pregunta, ChatGPT la convierte a texto y la envía a un modelo de lenguaje extenso, obtiene la respuesta, la convierte de nuevo a voz y te responde vocalmente. Debería ser similar a hablar con Alexa o el Asistente de Google, excepto que, según OpenAI, las respuestas serán mejores gracias a una tecnología subyacente mejorada. La mayoría de los asistentes virtuales parecen estar renovándose para incluir modelos de lenguaje extensos, y OpenAI está a la vanguardia por ahora.

El excelente modelo Whisper de OpenAI se encarga de gran parte de la conversión de voz a texto, y la compañía también presenta un nuevo modelo de texto a voz que, según se afirma, puede crear "sonidos similares a los humanos, simplemente a partir de texto y unos segundos de muestra de voz". Podrás elegir una voz para ChatGPT entre cinco opciones, pero OpenAI parece creer que el modelo tiene mucho más potencial. Por ejemplo, OpenAI está trabajando con Spotify para traducir podcasts a otros idiomas, conservando la voz de quien los presenta. Las voces sintéticas tienen muchos usos interesantes, y OpenAI podría ser una parte importante de esa industria.

En cualquier caso, la posibilidad de crear una voz sintética decente con tan solo unos segundos de grabación de audio abre la puerta a todo tipo de casos de uso potencialmente problemáticos. «Estas capacidades introducen nuevas amenazas, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas, etc.», escribió la compañía en una entrada de blog anunciando las nuevas funciones. Por ello, el modelo no está disponible para uso general y estará mucho más controlado y limitado a casos de uso y colaboraciones específicas.

La función de búsqueda de imágenes es algo similar a Google Lens. Tomas una foto y ChatGPT intentará entender lo que estás preguntando y responderá en consecuencia. También puedes usar la herramienta de dibujo en la aplicación para que la pregunta sea lo más clara posible, o hablar o escribir preguntas relacionadas con la imagen. Aquí es donde la naturaleza de ChatGPT resulta particularmente útil: en lugar de ejecutar una búsqueda, obtener la respuesta incorrecta y luego ejecutar una nueva búsqueda, puedes empujar al bot y mejorar la respuesta durante el proceso. Esto es muy similar a lo que está haciendo Google con la búsqueda multimodal.

Obviamente, incluir imágenes en ChatGPT también tiene sus inconvenientes. Uno de ellos es cuando se usa ChatGPT "en una persona": OpenAI afirma haber limitado deliberadamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas, tanto por motivos de precisión como de privacidad. Esto significa que una de las visiones más ficticias de la inteligencia artificial —la capacidad de mirar a alguien y saber quién es— no se hará realidad pronto. Lo cual probablemente sea positivo.

Casi un año después del apogeo de ChatGPT, parece que OpenAI todavía está tratando de descubrir cómo darle a su modelo más características y capacidades sin crear nuevos problemas y desventajas. Con los nuevos lanzamientos, la compañía ha tratado de caminar por esa delgada línea limitando conscientemente lo que pueden hacer sus nuevos modelos. Pero el hecho es que este enfoque no siempre funcionará. A medida que más y más personas utilicen el control por voz y la búsqueda de imágenes, y que ChatGPT se acerque a convertirse en un asistente virtual útil y verdaderamente multimodal, será cada vez más difícil mantener todas estas salvaguardas.