GPT-4o y más herramientas para los usuarios gratuitos de ChatGPT

13/05/202413/05/2024 Alberto Marín Morán

Modelo insignia más nuevo y ofreciendo más capacidades de forma gratuita en ChatGPT.

GPT-4o es el modelo insignia más nuevo que proporciona inteligencia de nivel GPT-4 pero es mucho más rápido y mejora sus capacidades en texto, voz y visión.

GPT-4o (“o” para “omni”) es un paso hacia una interacción persona-computadora mucho más natural: acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen. Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano.(Se abre en una nueva ventana)en una conversación. Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50 % más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.

Hoy en día, GPT-4o es mucho mejor que cualquier modelo existente a la hora de comprender y analizar las imágenes que comparte. Por ejemplo, ahora puede tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, conocer la historia y el significado de la comida y obtener recomendaciones. En el futuro, las mejoras permitirán una conversación de voz más natural en tiempo real y la capacidad de conversar con ChatGPT a través de video en tiempo real. Por ejemplo, puedes mostrarle a ChatGPT un juego de deportes en vivo y pedirle que te explique las reglas. Planeamos lanzar un nuevo modo de voz con estas nuevas capacidades en versión alfa en las próximas semanas, con acceso temprano para los usuarios Plus a medida que lo implementemos de manera más amplia.

Para hacer que la IA avanzada sea más accesible y útil en todo el mundo, las capacidades lingüísticas de GPT-4o se han mejorado en calidad y velocidad. ChatGPT ahora también admite más de 50 idiomas( a través del registro e inicio de sesión, configuración de usuario y más.

Estamos comenzando a implementar GPT-4o para los usuarios de ChatGPT Plus y Team, y pronto estará disponible para usuarios empresariales. También estamos comenzando a implementar ChatGPT Free con límites de uso hoy. Los usuarios Plus tendrán un límite de mensajes hasta 5 veces mayor que el de los usuarios gratuitos, y los usuarios Team y Enterprise tendrán límites aún más altos.

Capacidades del modelo

Antes de GPT-4o, podías usar el modo de voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio. Para lograr esto, Voice Mode es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.

Con GPT-4o, entrenamos un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Debido a que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones.

Brindando más inteligencia y herramientas avanzadas de forma gratuita

Nuestra misión incluye hacer que las herramientas avanzadas de IA estén disponibles para la mayor cantidad de personas posible. Cada semana, más de cien millones de personas utilizan ChatGPT. Estamos comenzando a implementar más inteligencia y herramientas avanzadas para los usuarios de ChatGPT Free en las próximas semanas. Al usar GPT-4o, los usuarios de ChatGPT Free ahora tendrán acceso a funciones como:

Experimente la inteligencia de nivel GPT-4
Obtener respuestas tanto del modelo como de la web
Analizar datos y crear gráficos
Charla sobre las fotos que tomas
Subir archivos para obtener ayuda para resumir, escribir o analizar
Descubra y utilice GPT y la tienda GPT
Cree una experiencia más útil con Memory

Habrá un límite en la cantidad de mensajes que los usuarios gratuitos pueden enviar con GPT-4o según el uso y la demanda. Cuando se alcance el límite, ChatGPT cambiará automáticamente a GPT-3.5 para que los usuarios puedan continuar sus conversaciones.

Optimización de su flujo de trabajo en la nueva aplicación de escritorio

Tanto para usuarios gratuitos como pagos, también lanzamos una nueva aplicación de escritorio ChatGPT para macOS que está diseñada para integrarse perfectamente con cualquier cosa que esté haciendo en su computadora. Con un simple atajo de teclado (Opción + Espacio), puedes hacerle una pregunta a ChatGPT instantáneamente. También puedes tomar y discutir capturas de pantalla directamente en la aplicación.

Ahora puede tener conversaciones de voz con ChatGPT directamente desde su computadora, comenzando con el modo de voz que estuvo disponible en ChatGPT en el lanzamiento, y las nuevas capacidades de audio y video de GPT-4o llegarán en el futuro. Ya sea que desee generar una lluvia de ideas sobre una nueva idea para su empresa, prepararse para una entrevista o tener un tema que le gustaría discutir, toque el ícono de auriculares en la esquina inferior derecha de la aplicación de escritorio para iniciar una conversación de voz.

Estamos implementando la aplicación macOS para los usuarios Plus a partir de hoy y la haremos disponible de manera más amplia en las próximas semanas. También planeamos lanzar una versión para Windows a finales de este año.

Una apariencia simplificada para ChatGPT

Estamos presentando una nueva apariencia para ChatGPT que está diseñada para ser más amigable y conversacional. Notarás una nueva pantalla de inicio, diseño de mensajes y más.

Seguridad y limitaciones del modelo

GPT-4o tiene seguridad incorporada por diseño en todas las modalidades, a través de técnicas como filtrar datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior. También hemos creado nuevos sistemas de seguridad para proporcionar barreras de seguridad en las salidas de voz.

Hemos evaluado GPT-4o de acuerdo con nuestro Marco de Preparación y de acuerdo con nuestros compromisos voluntarios . Nuestras evaluaciones de ciberseguridad, QBRN, persuasión y autonomía del modelo muestran que GPT-4o no obtiene una puntuación superior al riesgo medio en ninguna de estas categorías. Esta evaluación implicó ejecutar un conjunto de evaluaciones humanas y automatizadas durante todo el proceso de capacitación del modelo. Probamos las versiones del modelo antes y después de la mitigación de seguridad, utilizando ajustes e indicaciones personalizados, para obtener mejor las capacidades del modelo.

GPT-4o también se ha sometido a un extenso equipo rojo externo con más de 70 expertos externos en dominios como psicología social, prejuicios y equidad, e información errónea para identificar los riesgos que introducen o amplifican las modalidades recién agregadas. Utilizamos estos aprendizajes para desarrollar nuestras intervenciones de seguridad con el fin de mejorar la seguridad al interactuar con GPT-4o. Continuaremos mitigando nuevos riesgos a medida que se descubran.

Reconocemos que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Hoy publicamos públicamente entradas y salidas de texto de imágenes y texto. Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través del entrenamiento posterior y la seguridad necesaria para lanzar las otras modalidades. Por ejemplo, en el lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes. Compartiremos más detalles sobre la gama completa de modalidades de GPT-4o en la próxima tarjeta del sistema.

A través de nuestras pruebas e iteraciones con el modelo, hemos observado varias limitaciones que existen en todas las modalidades del modelo, algunas de las cuales se ilustran a continuación.

Disponibilidad del modelo

GPT-4o es nuestro último paso para ampliar los límites del aprendizaje profundo, esta vez en la dirección de la usabilidad práctica. Dedicamos mucho esfuerzo durante los últimos dos años a trabajar en mejoras de eficiencia en cada capa de la pila. Como primer fruto de esta investigación, podemos hacer que un modelo de nivel GPT-4 esté disponible de manera mucho más amplia. Las capacidades de GPT-4o se implementarán de forma iterativa (con acceso ampliado al equipo rojo a partir de hoy).

Las capacidades de texto e imagen de GPT-4o están comenzando a implementarse hoy en ChatGPT. Estamos haciendo que GPT-4o esté disponible en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores. Lanzaremos una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas.

Los desarrolladores ahora también pueden acceder a GPT-4o en la API como modelo de texto y visión. GPT-4o es 2 veces más rápido, la mitad de precio y tiene límites de velocidad 5 veces más altos en comparación con GPT-4 Turbo. Planeamos lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un pequeño grupo de socios confiables en la API en las próximas semanas.