GPT-4o: qué es este Nuevo Modelo de OpenAI

Introducción

OpenAI ha lanzado GPT-4o, su modelo más avanzado hasta la fecha, que puede procesar y razonar a través de audio, visión y texto en tiempo real. Este modelo, apodado “omni” por su capacidad para manejar múltiples modalidades, representa un gran avance hacia una interacción más natural entre humanos y computadoras.

Capacidades excepcionales para una interacción natural

GPT-4o destaca por su velocidad y precisión inigualables. Responde a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, comparable al tiempo de respuesta humano en una conversación. Esta rapidez se suma a su rendimiento equivalente al de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en textos en idiomas no ingleses. Adicionalmente, GPT-4o ofrece una velocidad 50% superior y un costo reducido en su API.

Un avance significativo en comparación con modelos anteriores

Antes de GPT-4o, el modo de voz en ChatGPT presentaba latencias considerables: 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4) en promedio. Para superar esto, el modo de voz utilizaba una secuencia de tres modelos separados: uno para transcribir el audio a texto, otro para generar texto y uno final para convertirlo nuevamente a audio. GPT-4o elimina esta complejidad mediante un modelo de extremo a extremo que procesa todas las entradas y salidas a través de una única red neuronal.

Seguridad y limitaciones del modelo: Un enfoque responsable

OpenAI ha integrado la seguridad en el diseño de GPT-4o a través de todas sus modalidades. Esto se logra mediante técnicas como el filtrado de datos de entrenamiento y el refinamiento del comportamiento del modelo después del entrenamiento. Además, se han creado nuevos sistemas de seguridad para controlar las salidas de voz.

Evaluaciones rigurosas y compromiso con la seguridad:

GPT-4o ha sido evaluado de acuerdo con el Marco de Preparación de OpenAI y alineado con sus compromisos voluntarios. Estas evaluaciones en ciberseguridad, CBRN (químico, biológico, radiológico y nuclear), persuasión y autonomía del modelo, demuestran que GPT-4o no supera el riesgo Medio en ninguna de estas categorías. La evaluación involucró un conjunto de pruebas automatizadas y humanas a lo largo del proceso de entrenamiento, analizando versiones del modelo antes y después de las medidas de seguridad. Se utilizaron ajustes personalizados y prompts específicos para explorar mejor las capacidades del modelo.

Evaluación externa y mejoras continuas:

Adicionalmente, GPT-4o ha pasado por un extenso proceso de evaluación externa con más de 70 expertos en dominios como la psicología social, sesgos y equidad, y desinformación. Este proceso permitió identificar riesgos introducidos o amplificados por las nuevas modalidades. Los aprendizajes obtenidos se utilizaron para desarrollar intervenciones de seguridad y mejorar la interacción segura con GPT-4o. OpenAI continuará mitigando nuevos riesgos a medida que se descubran.

Reconocimiento de los desafíos y enfoque en la seguridad:

Reconociendo los riesgos novedosos que presentan las modalidades de audio de GPT-4o, la versión actual se lanza con entradas y salidas de texto e imagen. En las próximas semanas y meses, se trabajará en la infraestructura técnica, la usabilidad posterior al entrenamiento y la seguridad necesaria para liberar las demás modalidades. Por ejemplo, en el lanzamiento, las salidas de audio estarán limitadas a una selección de voces preestablecidas y cumplirán con las políticas de seguridad existentes. Se compartirán más detalles sobre todas las modalidades de GPT-4o en la próxima tarjeta del sistema.

Limitaciones a considerar:

A través de las pruebas e iteraciones con el modelo, se han observado varias limitaciones presentes en todas sus modalidades, algunas de las cuales se ilustrarán a continuación.

Disponibilidad de GPT-4o: Democratizando el acceso a la tecnología avanzada

OpenAI se compromete a hacer que la tecnología avanzada sea accesible para un público más amplio. GPT-4o representa un paso significativo en ese sentido.

Acceso escalonado y pruebas rigurosas:

GPT-4o es el resultado de dos años de esfuerzo dedicado a mejorar la eficiencia en todos los niveles del sistema. Esto permite a OpenAI ofrecer un modelo con capacidades similares a GPT-4 a un público más amplio. Las capacidades de GPT-4o se implementarán de forma iterativa, con un acceso inicial para un grupo selecto de expertos para pruebas exhaustivas.

Integración en ChatGPT y API

Las capacidades de texto e imagen de GPT-4o se están integrando gradualmente en ChatGPT a partir de hoy. Se ofrecerá en el nivel gratuito y en el Plus de ChatGPT con límites de mensajes hasta 5 veces más altos. En las próximas semanas, se lanzará una nueva versión de Voice Mode con GPT-4o en alfa dentro de ChatGPT Plus.

Acceso para desarrolladores:

Los desarrolladores ahora también pueden acceder a GPT-4o a través de la API como un modelo de texto y visión. Este modelo ofrece varias ventajas en comparación con GPT-4 Turbo:

Velocidad: Es dos veces más rápido.
Precio: Tiene la mitad del costo.
Límites de velocidad: Ofrece límites de velocidad 5 veces más altos.

En las próximas semanas, OpenAI planea lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un grupo selecto de socios confiables a través de la API.

Un compromiso con la accesibilidad y la responsabilidad

La decisión de OpenAI de ofrecer GPT-4o en el nivel gratuito de ChatGPT refleja su compromiso de democratizar el acceso a la tecnología avanzada. Esto permitirá a una gama más amplia de usuarios experimentar los beneficios de este modelo innovador y explorar sus aplicaciones potenciales.

Al mismo tiempo, OpenAI reconoce la importancia de la responsabilidad en el desarrollo y la implementación de estas tecnologías. Por lo tanto, se están implementando medidas de seguridad y se están realizando pruebas rigurosas para garantizar que GPT-4o se use de manera responsable y ética.

Conclusión

GPT-4o representa un avance significativo en el campo de la inteligencia artificial, con el potencial de transformar la forma en que interactuamos con las computadoras. Su capacidad para procesar información a través de audio, visión y texto en tiempo real abre un abanico de posibilidades para la comunicación, el aprendizaje y la creatividad.

El compromiso de OpenAI con la accesibilidad y la responsabilidad es fundamental para garantizar que esta tecnología se utilice en beneficio de la sociedad. A medida que GPT-4o continúa desarrollándose y se implementa en una gama más amplia de aplicaciones, será crucial seguir evaluando sus impactos y mitigar cualquier riesgo potencial.