En 2019, un investigador de IA, François Chollet, diseñó un juego de rompecabezas que debía ser fácil para los humanos pero difícil para las máquinas.
El juego, llamado ARC, se convirtió en una forma importante para que los expertos rastreen el progreso de la inteligencia artificial y se retiren contra la narrativa de que los científicos están al borde de la construcción de la tecnología de IA que superará a la humanidad.
Los coloridos rompecabezas del Sr. Chollet prueban la capacidad de identificar rápidamente patrones visuales basados en solo algunos ejemplos. Para jugar el juego, miras de cerca los ejemplos e intentas encontrar el patrón.
Cada ejemplo usa el patrón para transformar una cuadrícula de cuadrados de colores en una nueva cuadrícula de cuadrados de colores:
El patrón es el mismo para cada ejemplo.
Ahora, complete la nueva cuadrícula aplicando el patrón que aprendió en los ejemplos anteriores.
Durante años, estos rompecabezas demostraron ser casi imposibles para la inteligencia artificial, incluidos chatbots como ChatGPT.
Los sistemas de inteligencia artificial generalmente aprendieron sus habilidades analizando grandes cantidades de datos extraídos de todo Internet. Eso significaba que podían generar oraciones repitiendo conceptos que habían visto miles de veces antes. Pero no podían necesariamente resolver nuevos rompecabezas lógicos después de ver solo unos pocos ejemplos.
Es decir, hasta hace poco. En diciembre, Openai dijo que su último sistema de inteligencia artificial, llamado Openai O3, había superado el rendimiento humano en la prueba del Sr. Chollet. A diferencia de la versión original de ChatGPT, O3 pudo pasar tiempo considerando diferentes posibilidades antes de responder.
Algunos lo vieron como una prueba de que los sistemas de IA se acercaban a la inteligencia general artificial, o AGI, que describe una máquina que es tan inteligente como un humano. El Sr. Chollet había creado sus rompecabezas como una forma de mostrar que las máquinas todavía estaban muy lejos de este ambicioso objetivo.
Pero la noticia también expuso las debilidades en las pruebas de referencia como ARC, abreviatura de abstracción y corpus de razonamiento. Durante décadas, los investigadores han establecido hitos para rastrear el progreso de la IA. Pero una vez que se alcanzaron estos hitos, fueron expuestos como medidas insuficientes de verdadera inteligencia.
Arvind Narayanan, profesor de informática de Princeton y coautor del libro “AI Snake Oil”, dijo que cualquier afirmación de que la prueba de ARC midió el progreso hacia AGI fue “mucho dudoso”.
Aún así, el Sr. Narayanan reconoció que la tecnología de OpenAi demostró habilidades impresionantes para aprobar la prueba de ARC. Algunos de los rompecabezas no son tan fáciles como el que acabas de probar.
El siguiente es un poco más difícil, y también fue resuelto correctamente por el nuevo sistema de IA de OpenAi:
Un rompecabezas como este muestra que la tecnología de OpenAi está mejorando para trabajar a través de problemas lógicos. Pero la persona promedio puede resolver rompecabezas como este en segundos. La tecnología de OpenAI consumió importantes recursos informáticos para aprobar la prueba.
En junio pasado, el Sr. Chollet se asoció con Mike Knoop, cofundador de la compañía de software Zapier, para crear lo que llamaron el Premio ARC. La pareja financió un concurso que prometió $ 1 millón a cualquiera que construyó un sistema de IA que excediera el rendimiento humano en el punto de referencia, que renombraron “Arc-Agi”.
Las empresas e investigadores presentaron más de 1,400 sistemas de IA, pero nadie ganó el premio. Todos obtuvieron un puntaje inferior al 85 por ciento, lo que marcó el rendimiento de un humano “inteligente”.
El sistema O3 de OpenAI respondió correctamente al 87.5 por ciento de los rompecabezas. Pero la compañía se encontró con las reglas de competencia porque gastó casi $ 1.5 millones en costos de electricidad y computación para completar la prueba, según las estimaciones de precios.
Operai también no era elegible para el Premio ARC porque no estaba dispuesto a compartir públicamente la tecnología detrás de su sistema de IA a través de una práctica llamada Open Sourcing. Por separado, Operai realizó una variante de “alta eficiencia” de O3 que obtuvo un 75.7 por ciento en la prueba y costó menos de $ 10,000.
“La inteligencia es eficiencia. Y con estos modelos, están muy lejos de la eficiencia a nivel humano”, dijo Chollet.
(El New York Times demandó a Openai y su socio, Microsoft, en diciembre por la infracción de derechos de autor del contenido de noticias relacionados con los sistemas de IA).
El lunes, el Premio ARC presentó un nuevo punto de referencia, ARC-AGI-2, con cientos de tareas adicionales. Los rompecabezas están en el mismo formato de juego colorido, similar a la red que el punto de referencia original, pero son más difíciles.
“Va a ser más difícil para los humanos, aún muy factible”, dijo Chollet. “Será mucho, mucho más difícil para AI-O3 no va a resolver ARC-AGI-2”.
Aquí hay un rompecabezas del nuevo punto de referencia ARC-AGI-2 que el sistema de OpenAI intentó y no pudo resolver. Recuerde, el mismo patrón se aplica a todos los ejemplos.
Ahora intente completar la cuadrícula a continuación de acuerdo con el patrón que encontró en los ejemplos:
Esto muestra que aunque los sistemas de IA son mejores para lidiar con problemas que nunca antes habían visto, todavía luchan.
Aquí hay algunos rompecabezas adicionales de ARC-AGI-2, que se centran en problemas que requieren múltiples pasos de razonamiento:
A medida que Openai y otras compañías continúan mejorando su tecnología, pueden aprobar la nueva versión de ARC. Pero eso no significa que AGI se logre.
Juzgar la inteligencia es subjetiva. Hay innumerables indicadores intangibles de inteligencia, desde componer obras de arte hasta navegar los dilemas morales hasta las emociones intuitivas.
Empresas como OpenAI han creado chatbots que pueden responder preguntas, escribir poesía e incluso resolver acertijos lógicos. De alguna manera, ya han excedido los poderes del cerebro. La tecnología de Openai ha superado a su científico jefe, Jakub Pachocki, en una prueba de programación competitiva.
Pero estos sistemas aún cometen errores que la persona promedio nunca cometería. Y luchan por hacer cosas simples que los humanos pueden manejar.
“Estás cargando el lavavajillas y tu perro viene y comienza a lamer los platos. ¿Qué haces?” dijo Melanie Mitchell, profesora de IA en el Instituto Santa Fe. “Sabemos cómo hacer eso, porque sabemos todo sobre perros y platos y todo eso. ¿Pero un robot para lavar lavavajillas sabría cómo hacer eso?”
Para el Sr. Chollet, la capacidad de adquirir nuevas habilidades de manera eficiente es algo que es algo natural para los humanos, pero aún carece de tecnología de IA. Y es lo que ha estado apuntando con los puntos de referencia ARC-AGI.
En enero, el Premio ARC se convirtió en una base sin fines de lucro que sirve como una “estrella del norte para AGI”, el equipo del Premio ARC espera que ARC-AGI-2 dure aproximadamente dos años antes de que la tecnología AI resuelva, aunque no se sorprenderán si sucedió antes.
Ya han comenzado a trabajar en ARC-AGI-3, que esperan debutar en 2026. Una maqueta temprana sugiere un rompecabezas que implica interactuar con un juego dinámico basado en la red.
El investigador de IA François Chollet diseñó un juego de rompecabezas destinado a ser fácil para los humanos pero difícil para las máquinas.
Kelsey McClellan para el New York Times
Making-Up temprano para ARC-AGI-3, un punto de referencia que podría implicar interactuar con un juego dinámico basado en la cuadrícula.
Fundación de premios ARC
Este es un paso más cerca de lo que la gente trata en el mundo real: un lugar lleno de movimiento. No se detiene como los rompecabezas que probaste arriba.
Incluso esto, sin embargo, solo irá solo una parte del camino para mostrar cuándo las máquinas han superado el cerebro. Los humanos navegan por el mundo físico, no solo lo digital. Los puestos de gol continuarán cambiando a medida que avance AI.
“Si ya no es posible que personas como yo produzcan puntos de referencia que midan cosas que son fáciles para los humanos pero imposibles para la IA”, dijo Chollet, “entonces tienes AGI”