CodeAct: новая эпоха AI-агентов после ReAct

🤖 CodeAct: новая эпоха AI-агентов после ReAct

AI-агенты — это программы, способные не просто выдавать ответы, но и самостоятельно принимать решения, выполнять задачи и взаимодействовать с окружающей средой. Долгое время AI умели хорошо «думать вслух» (chain-of-thought), постепенно рассуждая над задачей, но ограничивались только знаниями, которые уже были у них внутри. Другие подходы позволяли агентам активно действовать (например, искать что-то в интернете), но без глубокого планирования и понимания задачи в целом.

С появлением подхода ReAct (__Reasoning + Acting__) произошла важная революция. ReAct позволил AI-агенту делать две вещи одновременно: рассуждать и сразу же совершать действия во внешней среде.

Пример работы ReAct:
Представьте, вы спросили агента: «Какие интересные места посетить в Париже?» Агент сначала рассуждает: «Мне нужно найти актуальную информацию». Затем он совершает действие — ищет в интернете список достопримечательностей. Получив результат поиска, агент снова рассуждает: «Вот несколько мест, теперь выберу самые популярные», и выдаёт вам окончательный ответ. Если полученной информации недостаточно, агент снова выполняет действия и рассуждения, пока не достигнет нужного результата.

Однако когда задачи становятся длинными или особенно сложными, у ReAct могут возникнуть трудности: агент начинает теряться, повторять неудачные шаги или забывать общий план действий.

Именно для таких ситуаций был создан новый подход — CodeAct.

CodeAct использует более мощную идею: каждый следующий шаг AI-агента определяется не просто размышлениями, а с помощью генерации программного кода. Агент буквально пишет код, который выполняется, чтобы понять, что делать дальше.

Пример работы CodeAct:
Представьте, агенту нужно подсчитать сумму чисел от 1 до 100. Вместо того чтобы мысленно выполнять действия шаг за шагом, агент пишет код:

`sum(range(1, 101))`

Затем агент запускает этот код, мгновенно получая результат.

CodeAct позволяет агенту «писать инструкции самому себе», которые затем исполняются. Это значительно повышает точность и позволяет выполнять сложные и многоэтапные задачи, например, планировать поездку (бронировать отели и авиабилеты, резервировать рестораны и встречи) или совершать покупки на разных сайтах одновременно.

Оба подхода (ReAct и CodeAct) работают по принципу цикла: агент думает, действует, оценивает результат и повторяет эти шаги, пока задача не будет выполнена. Но ключевое отличие CodeAct в том, что здесь агент не просто думает, а напрямую генерирует код для каждого действия, что намного расширяет его возможности и точность.

CodeAct — важный шаг вперёд, потому что позволяет агентам справляться с более сложными сценариями, чем это было возможно раньше. Это похоже на разницу между человеком, который решает задачу в уме, и человеком, который записывает промежуточные шаги на бумаге. Второй подход гораздо надёжнее и эффективнее, особенно если задача непростая.

Поэтому важно следить за развитием таких подходов, как CodeAct — они могут значительно расширить возможности AI в будущем.