Introducción
OpenAI ha lanzado GPT-4o, su modelo más avanzado hasta la fecha, que puede procesar y razonar a través de audio, visión y texto en tiempo real. Este modelo, apodado “omni” por su capacidad para manejar múltiples modalidades, representa un gran avance hacia una interacción más natural entre humanos y computadoras.
Capacidades excepcionales para una interacción natural
GPT-4o destaca por su velocidad y precisión inigualables. Responde a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, comparable al tiempo de respuesta humano en una conversación. Esta rapidez se suma a su rendimiento equivalente al de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en textos en idiomas no ingleses. Adicionalmente, GPT-4o ofrece una velocidad 50% superior y un costo reducido en su API.
Un avance significativo en comparación con modelos anteriores
Antes de GPT-4o, el modo de voz en ChatGPT presentaba latencias considerables: 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4) en promedio. Para superar esto, el modo de voz utilizaba una secuencia de tres modelos separados: uno para transcribir el audio a texto, otro para generar texto y uno final para convertirlo nuevamente a audio. GPT-4o elimina esta complejidad mediante un modelo de extremo a extremo que procesa todas las entradas y salidas a través de una única red neuronal.
Seguridad y limitaciones del modelo: Un enfoque responsable
OpenAI ha integrado la seguridad en el diseño de GPT-4o a través de todas sus modalidades. Esto se logra mediante técnicas como el filtrado de datos de entrenamiento y el refinamiento del comportamiento del modelo después del entrenamiento. Además, se han creado nuevos sistemas de seguridad para controlar las salidas de voz.
Evaluaciones rigurosas y compromiso con la seguridad:
GPT-4o ha sido evaluado de acuerdo con el Marco de Preparación de OpenAI y alineado con sus compromisos voluntarios. Estas evaluaciones en ciberseguridad, CBRN (químico, biológico, radiológico y nuclear), persuasión y autonomía del modelo, demuestran que GPT-4o no supera el riesgo Medio en ninguna de estas categorías. La evaluación involucró un conjunto de pruebas automatizadas y humanas a lo largo del proceso de entrenamiento, analizando versiones del modelo antes y después de las medidas de seguridad. Se utilizaron ajustes personalizados y prompts específicos para explorar mejor las capacidades del modelo.
Evaluación externa y mejoras continuas:
Adicionalmente, GPT-4o ha pasado por un extenso proceso de evaluación externa con más de 70 expertos en dominios como la psicología social, sesgos y equidad, y desinformación. Este proceso permitió identificar riesgos introducidos o amplificados por las nuevas modalidades. Los aprendizajes obtenidos se utilizaron para desarrollar intervenciones de seguridad y mejorar la interacción segura con GPT-4o. OpenAI continuará mitigando nuevos riesgos a medida que se descubran.
Reconocimiento de los desafíos y enfoque en la seguridad:
Reconociendo los riesgos novedosos que presentan las modalidades de audio de GPT-4o, la versión actual se lanza con entradas y salidas de texto e imagen. En las próximas semanas y meses, se trabajará en la infraestructura técnica, la usabilidad posterior al entrenamiento y la seguridad necesaria para liberar las demás modalidades. Por ejemplo, en el lanzamiento, las salidas de audio estarán limitadas a una selección de voces preestablecidas y cumplirán con las políticas de seguridad existentes. Se compartirán más detalles sobre todas las modalidades de GPT-4o en la próxima tarjeta del sistema.
Limitaciones a considerar:
A través de las pruebas e iteraciones con el modelo, se han observado varias limitaciones presentes en todas sus modalidades, algunas de las cuales se ilustrarán a continuación.
Disponibilidad de GPT-4o: Democratizando el acceso a la tecnología avanzada
OpenAI se compromete a hacer que la tecnología avanzada sea accesible para un público más amplio. GPT-4o representa un paso significativo en ese sentido.
Acceso escalonado y pruebas rigurosas:
GPT-4o es el resultado de dos años de esfuerzo dedicado a mejorar la eficiencia en todos los niveles del sistema. Esto permite a OpenAI ofrecer un modelo con capacidades similares a GPT-4 a un público más amplio. Las capacidades de GPT-4o se implementarán de forma iterativa, con un acceso inicial para un grupo selecto de expertos para pruebas exhaustivas.
Integración en ChatGPT y API
Las capacidades de texto e imagen de GPT-4o se están integrando gradualmente en ChatGPT a partir de hoy. Se ofrecerá en el nivel gratuito y en el Plus de ChatGPT con límites de mensajes hasta 5 veces más altos. En las próximas semanas, se lanzará una nueva versión de Voice Mode con GPT-4o en alfa dentro de ChatGPT Plus.
Acceso para desarrolladores:
Los desarrolladores ahora también pueden acceder a GPT-4o a través de la API como un modelo de texto y visión. Este modelo ofrece varias ventajas en comparación con GPT-4 Turbo:
- Velocidad: Es dos veces más rápido.
- Precio: Tiene la mitad del costo.
- Límites de velocidad: Ofrece límites de velocidad 5 veces más altos.
En las próximas semanas, OpenAI planea lanzar soporte para las nuevas capacidades de audio y video de GPT-4o a un grupo selecto de socios confiables a través de la API.
Un compromiso con la accesibilidad y la responsabilidad
La decisión de OpenAI de ofrecer GPT-4o en el nivel gratuito de ChatGPT refleja su compromiso de democratizar el acceso a la tecnología avanzada. Esto permitirá a una gama más amplia de usuarios experimentar los beneficios de este modelo innovador y explorar sus aplicaciones potenciales.
Al mismo tiempo, OpenAI reconoce la importancia de la responsabilidad en el desarrollo y la implementación de estas tecnologías. Por lo tanto, se están implementando medidas de seguridad y se están realizando pruebas rigurosas para garantizar que GPT-4o se use de manera responsable y ética.
Conclusión
GPT-4o representa un avance significativo en el campo de la inteligencia artificial, con el potencial de transformar la forma en que interactuamos con las computadoras. Su capacidad para procesar información a través de audio, visión y texto en tiempo real abre un abanico de posibilidades para la comunicación, el aprendizaje y la creatividad.
El compromiso de OpenAI con la accesibilidad y la responsabilidad es fundamental para garantizar que esta tecnología se utilice en beneficio de la sociedad. A medida que GPT-4o continúa desarrollándose y se implementa en una gama más amplia de aplicaciones, será crucial seguir evaluando sus impactos y mitigar cualquier riesgo potencial.