Период полураспада агентов

⏳ Период полураспада агентов

Исследователи из METR показали: чем дольше задача, тем выше вероятность провала AI-агента. Успех экспоненциально убывает с длиной задачи. Каждая модель имеет свою "половину жизни" - время, в течение которого вероятность успеха падает до 50%. Для Claude 3.7 Sonnet это 59 минут (при 50% успехе) или 15 минут (при 80%).

Что важно - эта "полураспадная" характеристика позволяет предсказывать время, за которое агенты достигнут нужного уровня надёжности. Например, задача длиной в 1 час с 99% успехом станет возможной только через 4 года, если текущий темп прогресса (удвоение способностей каждые 7 месяцев) сохранится.

Интересно и то, что люди по этой модели ведут себя иначе — они меньше склонны к "экспоненциальному умиранию" на длинных задачах. Это указывает на ключевое различие в стратегиях: у людей есть механизмы самокоррекции, которых не хватает текущим агентам.

Ключевое следствие: пока агент не научится "исправляться на ходу", его масштабируемость ограничена.

📝 Paper: https://arxiv.org/abs/2503.14499