RT-2: Новый уровень взаимодействия роботов, языка и зрения

🤖 RT-2: Новый уровень взаимодействия роботов, языка и зрения

Ученые разработали новую модель, которая объединяет зрение и язык в контроле роботов, улучшая их способность к обобщению и семантическому рассуждению. Эта модель, названная RT-2, использует большие объемы данных из интернета для обучения.

Модель RT-2 преобразует действия робота в текстовые токены, что позволяет обучать ее на таких же данных, как и обычные языковые модели. Благодаря этому, RT-2 может интерпретировать команды, которые не были включены в ее первоначальные обучающие данные, и выполнять сложные задачи на основе пользовательских команд.

Например, RT-2 может определить, какой объект использовать в качестве молотка, или какой напиток подойдет человеку, который устал. Это открывает новые возможности для более сложного и гибкого взаимодействия роботов с окружающим миром.

📝 Paper: https://arxiv.org/abs/2307.15818