Para el nuevo modelo de IA han combinado el enfoque de transformers+Reinforcement Learning para alcanzar un razonamiento superior.
OpenAI afirma lo siguiente:
OpenAI o1 se ubica en el percentil 89 en preguntas de programación competitiva (Codeforces), se encuentra entre los 500 mejores estudiantes de EE. UU. en una eliminatoria para la Olimpiada Matemática de EE. UU. (AIME), y supera la precisión a nivel de doctorado humano en un conjunto de problemas de física, biología y química (GPQA). Aunque aún se está trabajando para hacer que este nuevo modelo sea tan fácil de usar como los modelos actuales, estamos lanzando una versión preliminar de este modelo, OpenAI o1-preview, para su uso inmediato en ChatGPT y para usuarios confiables de la API.
Nuestro algoritmo de aprendizaje por refuerzo a gran escala enseña al modelo a pensar de manera productiva utilizando su cadena de razonamiento en un proceso de entrenamiento altamente eficiente en el uso de datos. Hemos descubierto que el rendimiento de o1 mejora consistentemente con más aprendizaje por refuerzo (cómputo en el tiempo de entrenamiento) y con más tiempo dedicado a pensar (cómputo en el tiempo de prueba). Las restricciones para escalar este enfoque difieren sustancialmente de las del preentrenamiento de modelos de lenguaje grandes (LLM), y seguimos investigándolas.
Fuente:
https://openai.com/index/learning-to-reason-with-llms/
Opinión personal:
Cada vez más cerca de AGI, da miedito si no se piensa un nuevo modelo económico donde los ciudadanos no dependan del trabajo.