Anuncian nueva versión de ChatGPT capaz de “ver, oír y hablar” con los usuarios

26 de septiembre de 2023

338

La IA apenas está danbdo sus primeros pasos. (Foto: X -antes Twitter-).

ChatGPT está evolucionando hacia mucho más que un motor de búsqueda basado en texto: OpenAI anunció que está agregando nuevas imágenes basadas en voz e imagen a la mezcla.

«ChatGPT está a punto de ser mucho más interactivo, con los usuarios también capaces de tener una conversación de voz con el chatbot», publicó el portal techcrunch.com.

De esta forma, OpenAI combina el mundo familiar de los asistentes basados en voz con sus poderosos modelos de lenguaje grande (LLM).

Por ejemplo, un usuario podrá pedirle verbalmente a ChatGPT que invente un cuento antes de dormir en el acto, con algunas indicaciones vocales para guiar la narrativa. O el usuario simplemente puede hacerle una pregunta, con ChatGPT dando su respuesta en forma de palabra hablada.

En otros lugares, los usuarios de ChatGPT también podrán buscar respuestas usando imágenes, por ejemplo, cargando una imagen de algo y pidiéndole a ChatGPT que explique qué es, o para proporcionar instrucciones para completar una meta.

https://twitter.com/DotCSV/status/1706721782810444266

La función de voz está impulsada por un nuevo modelo de texto a voz que puede generar voces similares a las humanas a partir del texto y unos segundos de discurso muestreado. OpenAI dijo que se asoció con actores de voz establecidos para crear cinco voces diferentes, con su sistema de reconocimiento de voz Whisper de código abierto solía transcribir expresiones verbales en texto».

Spotify también fue presentado como socio de lanzamiento.

“La nueva tecnología de voz — capaz de crear voces sintéticas realistas a partir de unos pocos segundos de discurso real — abre puertas a muchas aplicaciones creativas y centradas en la accesibilidad,” escribió la compañía en su blog. “ Sin embargo, estas capacidades también presentan nuevos riesgos, como el potencial de los actores maliciosos para hacerse pasar por figuras públicas o cometer fraude”.

La voz se limitará a las aplicaciones ChatGPT para Android e iOS en una base beta opcional inicialmente, mientras que la búsqueda de imágenes se realizará en todas las plataformas de forma predeterminada.

#ChatGPT amplía sus capacidades para admitir voz e #imágenes, con lo que la conversaciones deja de estar limitada al texto que escriba el usuario en su interfaz https://t.co/LRync7iBnU @Portaltic #audio
— María Rubio (@mariarubiom) September 26, 2023