🤖 В мире AI существует множество моделей, каждая из которых хорошо справляется с определенными задачами. Однако когда нужно решить сложную задачу в разных доменах и модальностях, возникает необходимость объединить силы разных моделей. Именно это делает Jarvis, представленный в работе "HuggingGPT: Leveraging Large Language Models to Solve Complicated AI Tasks".
Jarvis является коллаборативной системой, состоящей из большой языковой модели (LLM) в качестве контроллера и множества экспертных моделей-исполнителей с Hugging Face Hub.
Рабочий процесс системы состоит из четырех этапов:
- Планирование задач: использование ChatGPT для анализа запросов пользователей, выявления их намерений и разбиения на подзадачи.
- Выбор модели: ChatGPT выбирает экспертные модели с Hugging Face Hub на основе их описаний для решения запланированных задач.
- Выполнение задач: Jarvis вызывает и выполняет каждую выбранную модель, возвращая результаты в ChatGPT.
- Генерация ответа: ChatGPT интегрирует прогнозы всех моделей и генерирует ответы для пользователей.
Допустим, пользователь задал вопрос: "Можете описать, что изображено на этой картинке и посчитать количество объектов на ней?" GPT самостоятельно не сможет ответить на этот вопрос, так как не работает с изображениями. В этом случае, Jarvis подключает другую модель, специализирующуюся на обработке изображений, чтобы решить задачу. В результате пользователь получает комплексный ответ, включающий описание изображения и количество объектов на нем.
Таким образом, Jarvis позволяет объединить силы различных AI-моделей для решения сложных задач в разных областях, таких как язык, зрение, речь и другие. Это открывает новые возможности в развитии искусственного интеллекта.
Paper: https://arxiv.org/pdf/2303.17580v2.pdf
Github: https://github.com/microsoft/JARVIS
