Glossary
Multimodal AI

Понимание мультимодального искусственного интеллекта

Понимание мультимодального искусственного интеллекта

Запуск ChatGPT и многих других больших языковых моделей (LLMs) ознаменовал собой важнейшую веху в развитии ИИ. За это время модели ИИ перешли от нишевых приложений к повседневным, таким как письмо, кодирование, обслуживание клиентов и создание контента. Однако большая часть этого прогресса была ограничена одной модальностью: текстом.

Для достижения цели общего искусственного интеллекта (ОИ) недостаточно сосредоточиться только на одной модальности. По самому определению, ОИ требует способности понимать, рассуждать и действовать в нескольких областях, от языка и зрения до слухового и сенсорного ввода. Поэтому возникла мультимодальность; в этой статье мы расскажем вам об этой технике.

Что такое мультимодальный ИИ?

Системы искусственного интеллекта являются мультимодальными, если они обрабатывают и анализируют информацию из нескольких модальностей, таких как текст, изображения, аудио и видео. С другой стороны, ИИ, который может обрабатывать только один тип модальности, является унимодальным.

Рисунок 1- Различия между унимодальным и мультимодальным ИИ.png

Рисунок 1: Различия между уни- и мультимодальным ИИ

Важно прояснить различие между двумя часто путаемыми терминами: мультимодальный и мультимодальный. Мультимодальный относится к системам, интегрирующим и обрабатывающим информацию из нескольких типов данных. Напротив, многомодельность описывает использование нескольких независимых моделей, которые работают параллельно или в комбинации для выполнения задачи. Эти модели могут работать с одними и теми же или разными типами данных, но остаются отдельными, а не интегрированными.

Мультимодальный ИИ может существенно повлиять на многие приложения. Например, мультимодальный ИИ в системе здравоохранения может использовать медицинские изображения, записи голоса пациентов и клинические заметки, чтобы поставить диагноз более точно, чем это могла бы сделать система, опирающаяся только на один источник данных. В этом отношении мультимодальные системы ИИ гораздо ближе к человеческому познанию и очень эффективны в задачах с критической потребностью во всеобъемлющем понимании.

Мультимодальный может быть одним или несколькими из следующих:

Ввод и вывод данных осуществляется в разных модальностях, например, текст-изображение или изображение-текст.
Входные данные являются мультимодальными (например, текст и изображения).
Выходные данные являются мультимодальными, например, одна система выдает текст и изображения.

В следующем разделе мы обсудим, как работают мультимодальные системы.

Как работает мультимодальный ИИ?

В мультимодальной модели различные компоненты работают вместе. Вот наиболее важные элементы и их работа:

Типы данных: Мультимодальный ИИ объединяет несколько типов данных, включая текст, изображения, аудио и видео, что позволяет комплексно понимать и генерировать контент в различных модальностях.
Представление: Мультимодальные представления в машинном обучении объединяют данные из разных модальностей в более значимые характеристики, которые могут использовать модели. Для достижения этой цели используются два различных подхода.
- Совместные представления: Данные из разных модальностей преобразуются в единое пространство представлений, что позволяет использовать мультимодальные данные в процессе обучения и вывода. Стандартные методы включают нейронные сети и вероятностные графические модели. Хотя эти методы могут повысить производительность, они сталкиваются с проблемами, связанными с отсутствием данных.
- Координированные представления: Каждая модальность обрабатывается отдельно, при этом накладываются ограничения, чтобы выровнять их в общем пространстве.

Рисунок 2- Структура совместных и согласованных представлений.png

Рисунок 2. Структура совместных и согласованных представлений | [Источник](https://www.researchgate.net/figure/Structure-of-joint-and-coordinated-representations-Joint-representations-are-projected_fig1_317185818#:~:text=Joint%20representations%20are%20projected%20to,constraint%20(например, %20partial%20order)).

Извлечение признаков: Для извлечения признаков из каждого типа данных используются специализированные методы, такие как обработка естественного языка (NLP) для текста, компьютерное зрение для изображений и обработка сигналов для аудио.
Слияние данных**: Слияние объединяет информацию из двух или более модальностей для решения задачи предсказания. Существуют следующие подходы:
- Раннее слияние: Данные объединяются перед анализом, обычно в низкоразмерном подпространстве с помощью таких методов, как PCA (анализ главных компонент) или ICA (анализ независимых компонент). Этот подход требует синхронизации модальностей, что может быть затруднено из-за различий в форматах данных и частоте дискретизации. Хотя такой подход эффективен для извлечения признаков, он может привести к потере данных и проблемам синхронизации.
- Позднее слияние: Результаты отдельных модальностей объединяются на уровне принятия решения с помощью ансамблевых методов, таких как bagging, boosting или подходов, основанных на правилах (например, Bayes, max или average fusion). Этот метод лучше всего подходит для некоррелированных модальностей, обеспечивая гибкость, сходную с человеческим познанием.
Моделирование: Нейронные сети, способные обрабатывать множество модальностей, такие как трансформаторы или конволюционные нейронные сети (CNNs), используются для обучения на различных входных данных. Существуют и более сложные модели, которые дают превосходные результаты и часто называются LMM (Large Multimodal Models).

Мультимодальный RAG: выход за пределы текста

Retrieval Augmented Generation (RAG) - это метод получения контекстной информации для больших языковых моделей из внешних источников и генерации более точных результатов. Он также помогает смягчить галлюцинации ИИ и решить некоторые проблемы безопасности данных. Традиционный RAG был весьма эффективен для улучшения результатов работы LLM, но он по-прежнему ограничен текстовыми данными. Во многих реальных приложениях знания выходят за рамки текста, включая изображения, графики и другие модальности, которые обеспечивают критический контекст.

Ниже приведен обзор типичного рабочего процесса RAG на основе текста:

Пользователь отправляет в систему текстовый запрос.
Запрос преобразуется в векторное вложение, которое затем используется для поиска в векторной базе данных, такой как Milvus, где отрывки текста хранятся в виде вложений. Векторная база данных извлекает отрывки, которые близко соответствуют запросу, на основе векторного сходства.
Соответствующие отрывки текста передаются в LLM в качестве дополнительного контекста, обогащая его понимание запроса.
LLM обрабатывает запрос вместе с предоставленным контекстом, генерируя более обоснованный и точный ответ.

Рисунок 1 - Как работает RAG.png

Рисунок: Как работает RAG

Мультимодальная система RAG устраняет вышеуказанное ограничение, позволяя использовать различные типы данных, обеспечивая лучший контекст для LLM. Проще говоря, в мультимодальной системе RAG компонент поиска ищет релевантную информацию в различных модальностях данных, а компонент генерации генерирует более точные результаты на основе полученной информации.

Чтобы создать такую систему, нам необходимо использовать мультимодальные модели для генерации вкраплений и LLM с мультимодальными возможностями, такие как LLAVA, GPT4-V, Gemini 1.5, Claude 3.5 Sonnet и т. д., для генерации ответов.

Существует несколько способов реализации мультимодального RAG:

Используйте модель мультимодального встраивания, например CLIP, для преобразования текстов и изображений в встраивания. Затем извлекаем релевантный контекст, выполняя поиск сходства между запросом и вкраплениями текста/изображения. Наконец, передайте исходный текст и/или изображение наиболее релевантного контекста в наш мультимодальный LLM.
Используйте мультимодальный LLM для создания текстовых обобщений изображений или таблиц. Затем преобразуйте эти текстовые обобщения во вкрапления с помощью модели вкрапления на основе текста. Затем выполните поиск текстового сходства между запросом и обобщенными вкраплениями. И наконец, передаем необработанное изображение наиболее релевантного резюме в наш LLM для генерации ответа.

Чтобы узнать больше о том, как создать мультимодальное приложение RAG, ознакомьтесь с нашими учебными пособиями по различным подходам, представленным ниже:

Сравнение между унимодальной и мультимодальной системами

Мультимодальные системы отличаются от традиционных (унимодальных) тем, что они одновременно обрабатывают и интегрируют данные из нескольких типов входных модальностей (например, текст, изображения и аудио).

Мультимодальные системы имеют преимущество в понимании контекста, поскольку они извлекают информацию из двух источников: зрения и языка. Традиционные подходы более просты и ориентированы на конкретные области применения. Следующая таблица иллюстрирует некоторые критические различия между унимодальными и мультимодальными системами.


Аспект	Традиционный ИИ	Мультимодальный ИИ
Тип ввода	Использует один тип ввода (например, только текст, только изображение)	Обрабатывает несколько типов ввода (например, текст, изображения, аудио)
Фокус обработки	Фокусируется на одной сенсорной модальности или модальности данных	Интегрирует и соотносит информацию с несколькими модальностями
Сложность	Более простая и часто специфичная для конкретной области	Более сложная из-за необходимости интегрировать различные типы данных
Понимание контекста	Ограничено информацией, доступной в одной модальности	Можно лучше понять контекст, используя различные модальности
Применения	Классификация текста, обнаружение объектов, распознавание речи и т.д.	Взаимодействие человека и компьютера, робототехника, автономные транспортные средства, дополненная реальность и т. д.

Преимущества и проблемы мультимодального ИИ

В этом разделе мы перечислим некоторые важные преимущества и связанные с ними проблемы, связанные с созданием и оценкой мультимодальных систем.

Преимущества

Ниже перечислены некоторые преимущества использования мультимодального ИИ:

Улучшенный контекст: Мультимодальные системы улавливают более широкий контекст за счет интеграции дополнительной информации из различных источников, например сочетания визуальных подсказок с языковыми для лучшей интерпретации.
Улучшенная производительность: Благодаря интеграции данных из нескольких модальностей мультимодальный ИИ может делать более точные прогнозы и принимать решения. Например, система медицинской диагностики может быть более надежной, если использовать изображения пациентов и медицинские карты.
Универсальность: Мультимодальный ИИ может применяться для решения различных сложных задач, включая создание подписей к изображениям, визуальные ответы на вопросы, медицинскую диагностику, автономное вождение и т. д., что делает его легко адаптируемым к различным областям.
Более человекоподобное понимание: Мультимодальный ИИ может лучше имитировать человеческое познание и обеспечивать более эффективное взаимодействие человека и компьютера в приложениях реального времени за счет обработки данных от различных органов чувств (модальностей).

Вызовы

Некоторые проблемы, связанные с использованием мультимодального ИИ, включают:

Представление: Метод или формат, в котором представлены модальности, извлекает дополнительную или избыточную информацию между несколькими модальностями. Мультимодальное представление данных является очень важным, но сложным из-за их неоднородной природы. Например, звук - это сигнал, а изображение - это 3D-представление с различными масштабами и размерами. Как привести их в одно общее пространство представления - важный момент реализации.
Перевод: Процедура может объяснить, как преобразовать или трансформировать данные из одной модальности в другую, если они неоднородны. Отношения между различными модальностями в основном субъективны. Например, перевод видео в соответствующее текстовое описание.
Слияние: Означает объединение данных из нескольких модальностей для улучшения прогнозирования. Например, при аудиовизуальном распознавании речи визуальное описание движения губ интегрируется с речевым сигналом для предсказания произносимых слов. Информация может поступать из разных модальностей и иметь различные уровни предсказательной силы, важности, вклада и топологии шума. По крайней мере в одной из модальностей имеются пропущенные значения данных.
Объяснимость: Недавно появившийся термин Explainable AI (XAI) направлен на объяснение осмысленных объяснений и рассуждений о модели. В случае с несколькими модальностями сложнее понять, как модели приходят к выводам, используя различные источники данных.

Часто задаваемые вопросы о мультимодальном ИИ

**Что такое мультимодальный ИИ?

Мультимодальный ИИ - это тип системы искусственного интеллекта, которая может обрабатывать и анализировать информацию из различных модальностей, включая текст, изображения, аудио и видео.

**Какие типы данных может использовать мультимодальный ИИ?

Мультимодальный ИИ использует различные типы данных, включая текст, изображения, аудио, видео, данные датчиков и графов.

**Заменит ли мультимодальный ИИ традиционный ИИ?

Мультимодальный ИИ не заменяет традиционный ИИ, а расширяет его возможности за счет интеграции нескольких модальностей данных. Это расширение. Традиционные методы остаются важными, а мультимодальный ИИ предоставляет дополнительные возможности.

**Каковы некоторые типичные области применения мультимодального ИИ?

Типичными приложениями мультимодального ИИ являются создание подписей к изображениям, визуальные ответы на вопросы, распознавание эмоций и автономное вождение.

**Каковы преимущества мультимодального ИИ?

Мультимодальный ИИ имеет ряд преимуществ, включая надежность, эффективность, понимание контекста, разнообразную область применения и улучшенное взаимодействие человека и компьютера.

Связанные ресурсы

Контент

Начните бесплатно, масштабируйтесь легко

Попробуйте полностью управляемую векторную базу данных, созданную для ваших GenAI приложений.

Попробуйте Zilliz Cloud бесплатно

Поделиться этой статьей

Связанные ресурсы

Что такое векторная база данных?

Векторная база данных - это полностью управляемое решение для хранения, индексирования и поиска по огромным массивам неструктурированных данных, использующее возможности вкраплений из моделей машинного обучения.