В последние годы наблюдается значительный интерес к разработке искусственного общего интеллекта (AGI), который может выполнять широкий спектр задач в различных областях, подобно человеческому интеллекту. Одним из важнейших шагов на пути к созданию AGI является объединение языка, восприятия, действий и моделирования мира. В связи с этим исследователи из Microsoft представили Kosmos-1, Multimodal Large Language Model (MLLM), которая может воспринимать несколько модальностей (изображение, видео, текст и т.д.), обучаться в контексте (few shots) и выполнять инструкции (zero shot).
Kosmos-1 обучен в нескольких модальностях (например пары изображение-текст) что позволяет ему выходит за рамки классических text2text или text2img и т.д.
Paper: https://arxiv.org/abs/2302.14045
Code: https://github.com/microsoft/unilm
