🧠 Google выпустил Gemini Embedding 2 - первую нативно мультимодальную модель embeddings
Embeddings - очень мощная штука. Они переводят текст в "смысл" и размещают в многомерном векторном пространстве. Это позволяет делать много крутых вещей - например понимать насколько два разных предложения близки друг другу, или делать математические операции: мысль А, но без мысли Б (вектор А минус вектор Б).
Я в своих проектах очень активно это использую. Весь мой антиспам бот работает на анализе смыслов, а не ключевых слов - если смысл сообщения это реклама, то удаляем, даже если написано в формате "3араб00Т00к".
Постоянным ограничением было то, что все это работало только на тексте. Google зарелизил модель, которая переводит в "смысл" любой объект - текст, изображения, видео, аудио и документы в единое векторное пространство. Поддерживает 100+ языков, до 8192 токенов текста, до 6 изображений и до 120 секунд видео.
Это позволяет делать все то же самое, но уже и с видео и с изображениями. Например у нас много спама пошло на автогенерированных картинках - теперь можно ловить и его.
Техническая, но очень крутая новость.