Гигантский датасет в робототехнике

Гигантский датасет в робототехнике

Сегодня, возможно, для робототехники наступает момент ImageNet (публикация большого открытого датасета с изображениями)

RT-X - самый большой открытый набор данных для роботов, который когда-либо собирался, включающий 33 института, 22 робототехнических устройства, 527 навыков и 1 млн эпизодов.

Почему робототехника так отстает от NLP, компьютерного зрения и других областей AI? Главным виновником является нехватка данных, среди прочих сложностей. В отличие от текстов, изображений и видео, вы не можете скачать большие объемы данных по управлению роботами с интернета. Они просто не существуют.

11 лет назад ImageNet начала революцию в глубоком обучении. 3-4 года назад данные масштаба интернета стали топливом для первых GPT и Diffusion моделей. Я думаю, что 2023 год наконец-то станет годом масштабирования робототехники.

Основные робототехнические модели, такие как VIMA (работа моей команды в NVIDIA) и RT-1/2 (проект Google DeepMind), очень "голодны" до данных. Параллельные симуляции вроде NVIDIA IsaacGym & Omniverse могут до некоторой степени справиться с проблемой, но все еще недостаточно для преодоления разрыва с миром реальных объектов.

Сайт RT-X: robotics-transformer-x.github.io

Блог о запуске: https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types