🧩 ARC-AGI-3 - тест, который проходят 100% людей и меньше 1% нейросетей
Вчера ARC Prize выкатили третью версию своего бенчмарка. Задачи выглядят как визуальные головоломки на цветных сетках - нужно увидеть паттерн и применить его. Люди справляются без проблем, а лучшие LLM и агенты пока не могут набрать даже 1%.
С одной стороны мы постоянно слышим что AGI уже тут. С другой - видим тесты, где разрыв между человеком и машиной остается огромным. Думаю появление таких бенчмарков важно, чтобы понимать реальные лимиты текущих сетей, а их создателям - куда развиваться. Единственный минус - разработчики часто начинают оптимизировать LLM не для пользы людям, а чтобы оказаться выше в строчке рейтинга.
Ко всему - добавлен призовой фонд в $2 миллиона для тех, кто сможет создать агента, справляющегося с тестом.
Кстати, пройти тест самому можно на сайте - все выглядит как компьютерная игра из 90-х. Семь шагов, и вы поймете почему людям это легко.