Мультимодальный AI Meta: будущее поиска, генерации и взаимодействия с виртуальным миром в 6 типах данных
Мультимодальность постепенно проникает в нашу жизнь.
Meta AI зарелизила в opensource работу с 6 модальностями, которая не только позволяет работать с текстом, изображениями и видео, но также с инфракрасными изображениями и другими данными, что открывает возможности работы с AR/VR информацией.
Вот какие возможности это открывает:
Мультимодальный поиск (аля Google, но одновременно по 6 модальностям). Пример: найди виртуальный мир, в котором есть пространство размером с футбольное поле, и в котором были танцующие котики.
Арифметические вычисления с векторами. Если раньше "кошка" и "cat" для LLM были одно и то же по смыслу, то теперь 3D-модель кота и слово "cat" будут равносильны, а "3D-модель кота" + слово "счастливый" - фото усов позволит найти видео улыбающегося кота без усов.
Кросс-модальная генерация (сейчас отдельно генерируем картинки и видео, а будем генерировать объекты в 6ти модальностях одновременно). Пример: "сгенерируй мне AR-мир с котиками на основе звука, как они мяукают".
Исследование Meta AI в области мультимодальности является значительным шагом вперед в развитии AI и открывает новые возможности для работы с разнообразными данными.
📝 Paper: https://dl.fbaipublicfiles.com/imagebind/imagebind-paper.pdf
👨💻 Github: https://github.com/facebookresearch/imagebind