EN / RU / 🤖
← К эссе
· Эссе · 1 мин

Kosmos-1: Многофункциональная языковая модель от Microsoft

Microsoft представила Kosmos-1, многофункциональную языковую модель, способную воспринимать изображения, видео и текст.

В последние годы наблюдается значительный интерес к разработке искусственного общего интеллекта (AGI), который может выполнять широкий спектр задач в различных областях, подобно человеческому интеллекту. Одним из важнейших шагов на пути к созданию AGI является объединение языка, восприятия, действий и моделирования мира. В связи с этим исследователи из Microsoft представили Kosmos-1, Multimodal Large Language Model (MLLM), которая может воспринимать несколько модальностей (изображение, видео, текст и т.д.), обучаться в контексте (few shots) и выполнять инструкции (zero shot).

Kosmos-1 обучен в нескольких модальностях (например пары изображение-текст) что позволяет ему выходит за рамки классических text2text или text2img и т.д.

Paper: https://arxiv.org/abs/2302.14045
Code: https://github.com/microsoft/unilm

Kosmos-1: Многофункциональная языковая модель от Microsoft — illustration