🤖 Anthropic рассказали в блоге, как заставить Claude писать код часами без присмотра - и чтобы результат не разваливался.
Проблема знакомая: даешь модели большую задачу, она работает полчаса, а потом начинает терять нить. Контекстное окно забивается, модель "забывает" что делала в начале. Плюс второй баг - модель не умеет критиковать свой код. Спрашиваешь "все ок?" - она отвечает "да, отлично", хотя половина не работает.
Решение - разделить работу на трех агентов. Один планирует (разворачивает "сделай мне дашборд" в детальную спецификацию). Второй пишет код спринтами. Третий - тестировщик - открывает приложение через браузер и проверяет как живой пользователь: кликает кнопки, заполняет формы, смотрит не сломалось ли что.
Ключевая идея украдена из GAN-ов (генеративно-состязательные сети): генератор создает, дискриминатор критикует. Научить отдельного агента быть скептиком оказалось намного проще, чем заставить автора критически смотреть на свою работу. Знакомо, да?
Сравнение на реальной задаче (ретро-игра):
- Один агент: 20 минут, $9. Выглядит готово, но внутри все сломано.
- Три агента: 6 часов, $200. Работающий продукт с отполированным интерфейсом.
С выходом Opus 4.6 часть обвязки удалось убрать - модель стала справляться сама. Авторы делают вывод: каждый компонент в harness - это костыль под конкретное ограничение модели. Новая модель вышла - пересмотри, что еще нужно, а что можно выкинуть.
https://www.anthropic.com/engineering/harness-design-long-running-apps
