Si está buscando una nueva razón para estar nervioso por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del mundo están luchando por crear pruebas que los sistemas de inteligencia artificial no pueden pasar.
Durante años, los sistemas de IA se midieron aplicando a los nuevos modelos una variedad de pruebas de referencia estandarizadas. Muchas de estas pruebas consistieron en problemas desafiantes del calibre del SAT en áreas como matemáticas, ciencias y lógica. La comparación de las puntuaciones de los modelos a lo largo del tiempo sirvió como una medida aproximada del progreso de la IA.
Pero los sistemas de inteligencia artificial eventualmente se volvieron demasiado buenos en esas pruebas, por lo que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que los estudiantes graduados podrían encontrar en sus exámenes.
Esas pruebas tampoco están en buen estado. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido puntuaciones altas en muchos desafíos de nivel de doctorado, lo que limita la utilidad de esas pruebas y genera una pregunta escalofriante: ¿Se están volviendo los sistemas de IA demasiado inteligentes para que podamos medirlos?
Esta semana, investigadores del Centro para la seguridad de la IA y la escala de la IA están publicando una posible respuesta a esa pregunta: una nueva evaluación, llamada “El último examen de la humanidad”, que, según afirman, es la prueba más difícil jamás administrada a los sistemas de IA.
El último examen de la humanidad es una creación de Dan Hendrycks, un conocido investigador de seguridad de la IA y director del Centro para la seguridad de la IA. (El nombre original de la prueba, “La última batalla de la humanidad”, fue descartado por ser demasiado dramático).
Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de aproximadamente 3000 preguntas de opción múltiple y de respuesta corta diseñadas para probar las capacidades de los sistemas de inteligencia artificial en áreas que van desde la filosofía analítica hasta la ingeniería de cohetes. .
Las preguntas fueron enviadas por expertos en estos campos, incluidos profesores universitarios y matemáticos premiados, a quienes se les pidió que formularan preguntas extremadamente difíciles cuyas respuestas conocían.
Aquí, pruebe una pregunta sobre la anatomía del colibrí de la prueba:
Los colibríes dentro de los Apodiformes tienen únicamente un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción de m. Caudas depresoras. ¿Cuántos tendones pares sostiene este hueso sesamoideo? Responde con un número.
O, si la física es más tu velocidad, prueba esta:
Se coloca un bloque sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unida al extremo de una varilla rígida y sin masa de longitud R. En el otro extremo está unida una masa. Ambos objetos tienen peso W. El sistema inicialmente está estacionario, con la masa directamente encima del bloque. La masa recibe un empujón infinitesimal, paralelo al riel. Suponga que el sistema está diseñado de manera que la varilla pueda girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, lleva tensión T1. Cuando la varilla vuelve a estar vertical, con la masa directamente debajo del bloque, lleva tensión T2. (Ambas cantidades podrían ser negativas, lo que indicaría que la varilla está comprimida). ¿Cuál es el valor de (T1−T2)/W?
(Imprimiría las respuestas aquí, pero eso arruinaría la prueba de cualquier sistema de inteligencia artificial que se esté entrenando en esta columna. Además, soy demasiado tonto para verificar las respuestas yo mismo).
Las preguntas sobre El último examen de la humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, las preguntas enviadas se entregaron a los principales modelos de IA para que las resolvieran.
Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos obtuvieron peores resultados que con las adivinanzas aleatorias), las preguntas se entregaban a un conjunto de revisores humanos, quienes las refinaban y verificaban las respuestas correctas. . Los expertos que escribieron las preguntas mejor calificadas recibieron pagos entre $ 500 y $ 5000 por pregunta, además de recibir crédito por contribuir al examen.
Kevin Zhou, investigador postdoctoral en física teórica de partículas en la Universidad de California, Berkeley, presentó algunas preguntas a la prueba. Se eligieron tres de sus preguntas y, según me dijo, todas estaban “en el rango superior de lo que uno podría ver en un examen de posgrado”.
Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada conocida como Comprensión masiva del lenguaje multitarea, o MMLU, dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk. (El Sr. Hendrycks también es asesor de seguridad de la compañía de IA de Musk, xAI.) El Sr. Musk, dijo, expresó su preocupación por las pruebas existentes realizadas a los modelos de IA, que pensaba que eran demasiado fáciles.
“Elon miró las preguntas de MMLU y dijo: ‘Estas son de nivel universitario. Quiero cosas que un experto de talla mundial pueda hacer’”, dijo Hendrycks.
Existen otras pruebas que intentan medir las capacidades avanzadas de IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollado por el investigador de IA François Chollet.
Pero el último examen de la humanidad tiene como objetivo determinar qué tan buenos son los sistemas de inteligencia artificial para responder preguntas complejas en una amplia variedad de materias académicas, brindándonos lo que podría considerarse una puntuación de inteligencia general.
“Estamos tratando de estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil”, dijo Hendrycks.
Una vez compilada la lista de preguntas, los investigadores realizaron el último examen de la humanidad a seis modelos líderes de inteligencia artificial, incluidos el Gemini 1.5 Pro de Google y el Claude 3.5 Sonnet de Anthropic. Todos ellos fracasaron estrepitosamente. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con una puntuación del 8,3 por ciento.
(El New York Times ha demandado a OpenAI y su socio, Microsoft, acusándolos de infracción de derechos de autor de contenido de noticias relacionado con sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).
Hendrycks dijo que esperaba que esos puntajes aumentaran rápidamente y potencialmente superaran el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de inteligencia artificial podrían considerarse “oráculos de clase mundial”, capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos. Y es posible que tengamos que buscar otras formas de medir los impactos de la IA, como observar datos económicos o juzgar si puede hacer descubrimientos novedosos en áreas como las matemáticas y las ciencias.
“Puedes imaginar una versión mejor de esto en la que podemos plantear preguntas cuyas respuestas aún no conocemos y podemos verificar si el modelo puede ayudarnos a resolverlas”, dijo Summer Yue, de Scale. Director de investigación de AI y organizador del examen.
Parte de lo que resulta tan confuso sobre el progreso de la IA en estos días es lo irregular que es. Contamos con modelos de IA capaces de diagnosticar enfermedades de manera más efectiva que los médicos humanos, ganar medallas de plata en la Olimpiada Internacional de Matemáticas y vencer a los mejores programadores humanos en desafíos competitivos de codificación.
Pero estos mismos modelos a veces tienen dificultades con tareas básicas, como la aritmética o escribir poesía métrica. Eso les ha dado una reputación de asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes sobre qué tan rápido está mejorando la IA, dependiendo de si se miran los mejores o los peores resultados.
Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones de los sistemas de inteligencia artificial. Todavía creo eso. Pero también creo que necesitamos métodos más creativos para seguir el progreso de la IA que no dependan de pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos (y lo que tememos que la IA haga mejor que nosotros) no se puede capturar en un examen escrito. .
El Sr. Zhou, el investigador de física teórica de partículas que presentó preguntas al último examen de la humanidad, me dijo que si bien los modelos de IA a menudo eran impresionantes a la hora de responder preguntas complejas, no los consideraba una amenaza para él y sus colegas, porque sus trabajos implican mucho más que escupir respuestas correctas.
“Existe un gran abismo entre lo que significa realizar un examen y lo que significa ser un físico e investigador en ejercicio”, afirmó. “Incluso una IA que pueda responder a estas preguntas podría no estar preparada para ayudar en la investigación, que es inherentemente menos estructurada”.