
La Fondation du Prix de l'Arc, une organisation à but non lucratif co-fondée par le chercheur en IA renommé François Chollet, a annoncé dans un article de blog lundi qu'elle a créé un nouveau test difficile pour mesurer l'intelligence générale des principaux modèles d'IA.
Jusqu'à présent, le nouveau test, appelé ARC-AGI-2, a posé problème à la plupart des modèles.
Les modèles d'IA "Reasoning" tels que o1-pro d'OpenAI et R1 de DeepSeek obtiennent entre 1% et 1.3% sur ARC-AGI-2, selon le classement du Prix de l'Arc. Les modèles non raisonnants puissants, y compris GPT-4.5, Claude 3.7 Sonnet et Gemini 2.0 Flash, obtiennent environ 1%.
Les tests ARC-AGI consistent en des problèmes de type puzzle où une IA doit identifier des motifs visuels à partir d'une collection de carrés de différentes couleurs, et générer la grille "réponse" correcte. Les problèmes ont été conçus pour forcer une IA à s'adapter à de nouveaux problèmes qu'elle n'a pas encore rencontrés.
La Fondation du Prix de l'Arc a fait passer le test ARC-AGI-2 à plus de 400 personnes pour établir une base humaine. En moyenne, les "panneaux" de ces personnes ont répondu correctement à 60% des questions du test - bien mieux que les scores des modèles.

Dans un article sur X, Chollet affirme que l'ARC-AGI-2 est une meilleure mesure de l'intelligence réelle d'un modèle d'IA que la première itération du test, l'ARC-AGI-1. Les tests de la Fondation du Prix de l'Arc visent à évaluer si un système d'IA peut acquérir efficacement de nouvelles compétences en dehors des données sur lesquelles il a été formé.
Chollet a déclaré que contrairement à l'ARC-AGI-1, le nouveau test empêche les modèles d'IA de se fier à la "force brute" - une puissance de calcul extensive - pour trouver des solutions. Chollet avait précédemment reconnu que c'était une importante faille de l'ARC-AGI-1.
Pour corriger les défauts du premier test, l'ARC-AGI-2 introduit une nouvelle métrique : l'efficacité. Il nécessite également que les modèles interprètent les motifs sur le vif au lieu de se fier à la mémorisation.
'L'intelligence n'est pas uniquement définie par la capacité à résoudre des problèmes ou à obtenir des scores élevés', a écrit Greg Kamradt, co-fondateur de la Fondation du Prix de l'Arc, dans un article de blog. 'L'efficacité avec laquelle ces capacités sont acquises et déployées est un composant crucial et déterminant. La question centrale n'est pas seulement 'Est-ce que l'IA peut acquérir [la] compétence pour résoudre une tâche ?', mais aussi 'À quelle efficacité ou coût ?''
ARC-AGI-1 est resté inégalé pendant environ cinq ans jusqu'en décembre 2024, lorsque OpenAI a publié son modèle de raisonnement avancé, o3, qui a surpassé tous les autres modèles d'IA et a égalé les performances humaines lors de l'évaluation. Cependant, comme nous l'avons noté à l'époque, les gains de performance d'o3 sur ARC-AGI-1 étaient accompagnés d'un coût élevé.

L'arrivée de l'ARC-AGI-2 intervient alors que de nombreux acteurs de l'industrie technologique demandent de nouveaux repères non saturés pour mesurer les progrès de l'IA. Le co-fondateur de Hugging Face, Thomas Wolf, a récemment déclaré à TechCrunch que l'industrie de l'IA manquait de tests suffisants pour mesurer les traits clés de ce qu'on appelle l'intelligence générale artificielle, y compris la créativité.
En plus du nouveau repère, la Fondation du Prix de l'Arc a annoncé un nouveau concours Arc Prize 2025, défiant les développeurs d'atteindre une précision de 85% sur le test ARC-AGI-2 en ne dépensant que 0,42 $ par tâche.