EN / RU / 🤖
← К эссе
· Эссе · 1 мин

ARC-AGI-3: тест для людей и нейросетей

ARC Prize представил третью версию бенчмарка, где люди легко справляются с задачами, а нейросети - нет.

🧩 ARC-AGI-3 - тест, который проходят 100% людей и меньше 1% нейросетей

Вчера ARC Prize выкатили третью версию своего бенчмарка. Задачи выглядят как визуальные головоломки на цветных сетках - нужно увидеть паттерн и применить его. Люди справляются без проблем, а лучшие LLM и агенты пока не могут набрать даже 1%.

С одной стороны мы постоянно слышим что AGI уже тут. С другой - видим тесты, где разрыв между человеком и машиной остается огромным. Думаю появление таких бенчмарков важно, чтобы понимать реальные лимиты текущих сетей, а их создателям - куда развиваться. Единственный минус - разработчики часто начинают оптимизировать LLM не для пользы людям, а чтобы оказаться выше в строчке рейтинга.

Ко всему - добавлен призовой фонд в $2 миллиона для тех, кто сможет создать агента, справляющегося с тестом.

Кстати, пройти тест самому можно на сайте - все выглядит как компьютерная игра из 90-х. Семь шагов, и вы поймете почему людям это легко.

https://arcprize.org/arc-agi/3