Что будет, если взять самую большую Vision-Language Model и подключить ее к роботу, который может проводить эксперименты и дообучаться? Получится PaLM-E - мультимодальная модель с 562 миллардами параметров, способная выполнять устные поручения, ориентируясь на изображения с камеры и корректируя свои действия.
Думаю, что словосочетание Large Multimodal Models мы будем слышать в 2023 все больше и больше.
Paper: https://palm-e.github.io/assets/palm-e.pdf
Demo: https://palm-e.github.io/#demo
Page: https://palm-e.github.io