El nuevo sistema de OpenAI, GPT-4o, puede escuchar, hablar y observar

15 mayo, 2024

8 3 minutos de lectura

El artículo de Cade Metz en su columna de The New York Times del pasado 13 de mayo de 2024, expone como OpenAI ha lanzado una nueva versión de su chatbot ChatGPT que puede ahora recibir y responder a comandos de voz, imágenes y videos, convirtiéndolo así en un asistente de voz; OpenAI planea compartir gradualmente esta tecnología con los usuarios en las próximas semanas, marcando un paso hacia la convergencia de chatbots y asistentes de voz.

Mientras Apple y Google transforman sus asistentes de voz en chatbots, OpenAI está transformando su chatbot en un asistente de voz.

El lunes, la empresa emergente de inteligencia artificial de San Francisco presentó una nueva versión de su chatbot ChatGPT que puede recibir y responder a comandos de voz, imágenes y videos.

La empresa afirmó que la nueva aplicación —basada en un sistema de inteligencia artificial llamado GPT-4o— lidia con audio, imágenes y video mucho más rápido que la versión anterior de la tecnología. La aplicación estará disponible a partir del lunes, de forma gratuita, tanto para celulares como para computadoras de escritorio.

“Estamos estudiando el futuro de la interacción entre nosotros y las máquinas”, afirmó Mira Murati, directora de tecnología de la empresa.

La nueva aplicación forma parte de un esfuerzo más amplio por combinar chatbots conversacionales como ChatGPT con asistentes de voz como el Asistente de Google y Siri de Apple. Mientras Google fusiona su chatbot Gemini con el Asistente de Google, Apple está preparando una nueva versión de Siri más conversacional.

OpenAI dijo que compartiría gradualmente la tecnología con los usuarios “en las próximas semanas”. Es la primera vez que ofrece ChatGPT como aplicación de escritorio.

Anteriormente, la empresa ofrecía tecnologías similares desde el interior de varios productos gratuitos y de pago. Ahora, las ha integrado en un único sistema disponible en todos sus productos.

En un acto emitido en directo por internet, Murati y sus colegas mostraron cómo la nueva aplicación respondía a comandos de voz conversacionales, utilizaba una señal de video en directo para analizar problemas matemáticos escritos en una hoja de papel y leía en voz alta historias lúdicas que había escrito sobre la marcha.

La nueva aplicación no puede generar video. Pero puede generar imágenes fijas que representan fotogramas de un video.

Con el debut de ChatGPT a finales de 2022, OpenAI demostró que las máquinas pueden gestionar peticiones de forma más parecida a las personas. En respuesta a mensajes de texto conversacionales, pudo responder a preguntas, redactar trabajos e incluso generar código informático.

ChatGPT no se guiaba por un conjunto de reglas. Aprendió sus habilidades analizando enormes cantidades de texto extraído de internet, incluidos artículos de Wikipedia, libros y registros de chat. Los expertos elogiaron esta tecnología como posible alternativa a motores de búsqueda como Google y asistentes de voz como Siri.

Las versiones más recientes de la tecnología también han aprendido de sonidos, imágenes y videos. Los investigadores lo llaman “IA multimodal”. Esencialmente, empresas como OpenAI empezaron a combinar chatbots con generadores de imágenes, audio y videos de inteligencia artificial.

(The New York Times demandó a OpenAI y a su socio, Microsoft, en diciembre, alegando infracción de derechos de autor de contenidos de noticias relacionados con sistemas de inteligencia artificial).

A medida que las empresas combinan chatbots con asistentes de voz, quedan muchos obstáculos por superar. Como los chatbots aprenden sus habilidades a partir de datos de internet, son propensos a cometer errores. A veces, se inventan información por completo, un fenómeno que los investigadores de IA llaman “alucinación”. Esos fallos se están trasladando a los asistentes de voz.

Aunque los chatbots pueden generar un lenguaje convincente, son menos hábiles a la hora de realizar acciones como programar una reunión o reservar un vuelo. Pero empresas como OpenAI están trabajando para transformarlos en “agentes de IA” capaces de realizar esas tareas de forma fiable.

OpenAI ofrecía antes una versión de ChatGPT que podía aceptar órdenes vocales y responder con la voz. Pero se trataba de un mosaico de tres tecnologías de inteligencia artificial diferentes: una que convertía la voz en texto, otra que generaba una respuesta escrita y otra que convertía este texto en una voz sintética.

La nueva aplicación se basa en una sola tecnología IA —la GPT-4o— capaz de aceptar y generar texto, sonidos e imágenes. Esto significa que la tecnología es más eficiente, y la empresa puede permitirse ofrecerla a los usuarios de forma gratuita, dijo Murati.

“Antes, toda esta latencia era el resultado de tres modelos trabajando juntos”, dijo Murati en una entrevista con el Times. “Quieres tener la experiencia que estamos teniendo —donde podemos tener este diálogo muy natural”.

15 mayo, 2024

8 3 minutos de lectura