⏳ Период полураспада агентов
Исследователи из METR показали: чем дольше задача, тем выше вероятность провала AI-агента. Успех экспоненциально убывает с длиной задачи. Каждая модель имеет свою "половину жизни" - время, в течение которого вероятность успеха падает до 50%. Для Claude 3.7 Sonnet это 59 минут (при 50% успехе) или 15 минут (при 80%).
Что важно - эта "полураспадная" характеристика позволяет предсказывать время, за которое агенты достигнут нужного уровня надёжности. Например, задача длиной в 1 час с 99% успехом станет возможной только через 4 года, если текущий темп прогресса (удвоение способностей каждые 7 месяцев) сохранится.
Интересно и то, что люди по этой модели ведут себя иначе — они меньше склонны к "экспоненциальному умиранию" на длинных задачах. Это указывает на ключевое различие в стратегиях: у людей есть механизмы самокоррекции, которых не хватает текущим агентам.
Ключевое следствие: пока агент не научится "исправляться на ходу", его масштабируемость ограничена.
📝 Paper: https://arxiv.org/abs/2503.14499
