Glossary
Multimodal AI

Comprender la inteligencia artificial multimodal

Comprender la inteligencia artificial multimodal

El lanzamiento de ChatGPT y muchos otros grandes modelos lingüísticos (LLMs) marcó un hito crucial en el desarrollo de la IA. Durante este tiempo, los modelos de IA pasaron de aplicaciones nicho a usos cotidianos como la escritura, la codificación, la atención al cliente y la creación de contenidos. Sin embargo, gran parte de este progreso se limitó a una única modalidad: el texto.

Centrarse en una sola modalidad no basta para alcanzar la visión de la inteligencia artificial general (IAG). Por su propia definición, la IAG requiere la capacidad de comprender, razonar y actuar en múltiples ámbitos, desde el lenguaje y la visión hasta la información auditiva y sensorial. De ahí nació la multimodalidad, una técnica que se explica en este artículo.

¿Qué es la IA multimodal?

Los sistemas de inteligencia artificial son multimodales si procesan y analizan información de múltiples modalidades, como texto, imágenes, audio y vídeos. En cambio, la IA que sólo puede procesar un tipo de modalidad es unimodal.

Figura 1- Diferencias entre IA unimodal y multimodal.png](https://assets.zilliz.com/Figure_1_Differences_between_Uni_and_Multi_Modal_AI_50567f5199.png)

Figura 1: Diferencias entre IA unimodal y multimodal

Es importante aclarar la distinción entre dos términos que a menudo se confunden: multimodal y multimodal. Multimodal se refiere a los sistemas que integran y procesan información procedente de múltiples tipos de datos. En cambio, multimodelo describe el uso de varios modelos independientes que funcionan en paralelo o combinados para realizar una tarea. Estos modelos pueden funcionar con los mismos o diferentes tipos de datos, pero permanecen separados en lugar de integrados.

La IA multimodal puede tener un impacto significativo en muchas aplicaciones. Por ejemplo, un sistema sanitario de IA multimodal puede emplear imágenes médicas, grabaciones de voz de pacientes y notas clínicas para elaborar un diagnóstico más preciso que el que podría haber producido un sistema basado únicamente en una fuente de datos. En este sentido, los sistemas de IA multimodal se aproximan mucho más a la cognición humana y son muy eficaces en tareas que requieren una comprensión global.

Multimodal puede ser uno o más de los siguientes:

La entrada y la salida están en diferentes modalidades, como texto a imagen o imagen a texto.
Las entradas son multimodales (por ejemplo, texto e imágenes).
Las salidas son multimodales, como un sistema que da texto e imágenes.

En la sección siguiente se explica cómo funcionan los sistemas multimodales.

¿Cómo funciona la IA multimodal?

Varios componentes trabajan juntos en un modelo multimodal. He aquí los elementos más importantes y su funcionamiento:

Tipos de datos: La IA multimodal integra múltiples tipos de datos, como texto, imágenes, audio y vídeos, lo que permite comprender y generar contenidos en distintas modalidades.
Representación: Las representaciones multimodales en el aprendizaje automático combinan datos de diferentes modalidades en características más significativas que los modelos pueden utilizar. Para ello se utilizan dos enfoques diferentes.
- Representaciones conjuntas**: Los datos de distintas modalidades se transforman en un espacio de representación unificado, adecuado cuando se dispone de datos multimodales durante el entrenamiento y la inferencia. Las técnicas estándar incluyen redes neuronales y modelos gráficos probabilísticos. Aunque estos métodos pueden mejorar el rendimiento, se enfrentan a problemas cuando faltan datos.
- Representaciones coordinadas**: Cada modalidad se procesa por separado, con restricciones impuestas para alinearlas en un espacio compartido.

Figura 2- Estructura de las representaciones conjuntas y coordinadas.png](https://assets.zilliz.com/Figure_2_Structure_of_joint_and_coordinated_representations_435508ee1f.png)

Figura 2: Estructura de las representaciones conjuntas y coordinadas | Fuente

Extracción de características: Se emplean técnicas especializadas para extraer características de cada tipo de datos, como el procesamiento del lenguaje natural (PLN) para el texto, la visión por ordenador para las imágenes y el procesamiento de señales para el audio.
Fusión de datos**: La fusión combina información de dos o más modalidades para una tarea de predicción. Los enfoques son los siguientes:
- Fusión temprana**: Los datos se integran antes del análisis, normalmente en un subespacio de baja dimensión utilizando métodos como el PCA (Análisis de Componentes Principales) o el ICA (Análisis de Componentes Independientes). Este enfoque requiere la sincronización de las modalidades, lo que puede resultar difícil debido a los distintos formatos de datos y frecuencias de muestreo. Aunque es eficaz para la extracción de características, puede provocar pérdidas de datos y problemas de sincronización.
- Fusión tardía**: Los resultados de cada modalidad se combinan en el nivel de decisión utilizando métodos de conjunto como bagging, boosting o enfoques basados en reglas (por ejemplo, fusión Bayes, max o average). Este método destaca cuando las modalidades no están correlacionadas y ofrece una flexibilidad similar a la de la cognición humana.
Modelización**: Las redes neuronales capaces de procesar múltiples modalidades, como los transformadores o las redes neuronales convolucionales (CNNs), se utilizan para aprender a partir de diversas entradas. Existen modelos más sofisticados que obtienen resultados superiores y suelen denominarse LMM (Large Multimodal Models).

Modelos multimodales populares y sus arquitecturas

Existen muchos modelos multimodales en el mercado. A continuación se presentan modelos y arquitecturas populares.

Transformador Vídeo-Audio-Texto (VATT)

El Transformador Vídeo-Audio-Texto (VATT) es una arquitectura sin convolución diseñada para manejar múltiples modalidades (vídeo, audio y texto) utilizando un marco unificado basado en Transformador. VATT comienza introduciendo cada modalidad en una capa de tokenización, donde la entrada bruta se proyecta en un vector de incrustación que posteriormente procesa un Transformer.

Existen dos configuraciones principales: una en la que se utilizan Transformers independientes con pesos únicos para cada modalidad y otra en la que una única columna vertebral Transformer con pesos compartidos gestiona todas las modalidades.

Independientemente de la configuración, el Transformer extrae representaciones específicas de cada modalidad y las asigna a un espacio compartido para tareas posteriores. La arquitectura sigue el proceso estándar de Transformer, utilizado habitualmente en NLP y Vision Transformers (ViT), utilizando tokens de entrada.

Adicionalmente, VATT incorpora un sesgo relativo aprendible para el texto, haciéndolo compatible con modelos como T5. Este enfoque permite a VATT modelar datos multimodales de forma efectiva para tareas como la clasificación.

Figura 3- Transformadores de visión para el aprendizaje multimodal.png](https://assets.zilliz.com/Figure_3_Vision_Transformers_for_Multimodal_Learning_46cc680e45.png)

Figura 3: Transformadores de Visión para el Aprendizaje Multimodal | Fuente

Autoencoder Variacional Multimodal (MVAE)

La arquitectura Multimodal Variational Autoencoder (MVAE) está diseñada para aprender una representación unificada de texto e imágenes. El MVAE tiene tres componentes principales: un codificador, un descodificador y un módulo de aplicación (un detector de noticias falsas, en este caso).

Figura 4- Arquitectura del autocodificador variacional multimodal.png](https://assets.zilliz.com/Figure_4_Multimodal_Variational_Autoencoder_Architecture_4c4dba73f0.png)

Figura 4: Arquitectura del autocodificador variacional multimodal | Fuente

Encodificador: Este componente procesa las entradas de texto e imagen para generar una representación latente compartida. Consta de dos subcodificadores:

Codificador textual: Convierte una secuencia de palabras de un post en incrustaciones de palabras utilizando una red profunda preentrenada.
Codificador visual**: Este proceso extrae las características visuales de las imágenes utilizando CNNs (como VGG-19) para capturar la semántica espacial y del objeto.

Decodificador: El descodificador reconstruye el texto y la imagen originales a partir de la representación latente compartida. Refleja la estructura del codificador y se divide en:

Decodificador textual: Este decodificador reconstruye el texto haciendo pasar la representación latente por unidades bidireccionales LSTM y una capa totalmente conectada, prediciendo la probabilidad de cada palabra.
Descodificador visual**: Invierte la codificación visual reconstruyendo las características de la imagen VGG-19 a través de capas totalmente conectadas.

Detector de noticias falsas: Este componente predice si una noticia es real o falsa utilizando la representación latente multimodal compartida.

CLIP (preentrenamiento contrastivo de lenguaje-imagen)

El modelo CLIP (Contrastive Language-Image Pretraining) está diseñado para aprender representaciones conjuntas de imágenes y texto mediante el entrenamiento en un amplio conjunto de datos de pares imagen-texto. CLIP utiliza dos redes neuronales distintas: una para las imágenes (a menudo un Transformador de Visión o una CNN) y otra para el texto (normalmente un Transformador).

Estas redes codifican las imágenes y el texto en vectores de longitud fija en un espacio de incrustación compartido. Durante el entrenamiento, CLIP aprovecha un objetivo de aprendizaje contrastivo, que une las incrustaciones de pares imagen-texto coincidentes y separa las de pares no coincidentes.

Mediante este proceso, CLIP aprende a correlacionar la información visual y textual. Este enfoque permite al modelo realizar una clasificación de imágenes sin disparos, lo que le permite reconocer objetos en imágenes basándose en descripciones en lenguaje natural sin necesidad de un entrenamiento específico para la tarea. Esta potente arquitectura puede utilizarse en tareas basadas en imágenes textuales para mejorar la capacidad de generalización.

Figura 4- Arquitectura del modelo CLIP.png](https://assets.zilliz.com/Figure_4_Architecture_of_CLIP_Model_e8ea693934.png)

Figura 4: Arquitectura del modelo CLIP

Algunos modelos de código cerrado de estas arquitecturas son:

Google Gemini: Un LLM multimodal que destaca en texto, imágenes, vídeo y audio, superando a GPT-4 en múltiples pruebas.
ChatGPT (GPT-4V)**: Admite texto, voz e imágenes, lo que permite a los usuarios interactuar con voces generadas por IA y generar imágenes a través de DALL-E 3.
IA en el mundo**: Crea NPC inteligentes para mundos digitales, permitiendo la comunicación a través del lenguaje natural, la voz y las emociones.
Meta ImageBind**: Procesa seis modalidades, combinando datos para tareas como la creación de imágenes a partir de audio y permitiendo a las máquinas percibir su entorno.
Runway Gen-2**: Genera y edita vídeos a partir de texto, imágenes o vídeos existentes, ofreciendo versátiles capacidades de creación de contenidos.

Consulta este post para ver más modelos multimodales.

RAG multimodal: más allá del texto

La Generación Aumentada de Recuperación (RAG) es un método para recuperar información contextual de fuentes externas para grandes modelos lingüísticos y generar resultados más precisos. También ayuda a mitigar las alucinaciones de la IA y a resolver algunos problemas de seguridad de los datos. La RAG tradicional ha sido muy eficaz para mejorar los resultados de los LLM, pero sigue estando limitada a los datos textuales. En muchas aplicaciones del mundo real, el conocimiento se extiende más allá del texto, incorporando imágenes, gráficos y otras modalidades que proporcionan un contexto crítico.

A continuación se presenta una descripción general de un flujo de trabajo típico de GAR basado en texto:

El usuario envía una consulta textual al sistema.
La consulta se transforma en una incrustación vectorial, que luego se utiliza para buscar en una base de datos vectorial , como Milvus, donde los pasajes de texto se almacenan como incrustaciones. La base de datos vectorial recupera los pasajes que más se aproximan a la consulta en función de la similitud vectorial.
Los pasajes de texto relevantes se pasan al LLM como contexto suplementario, enriqueciendo su comprensión de la consulta.
El LLM procesa la consulta junto con el contexto proporcionado, generando una respuesta más informada y precisa.

Figura 1- Funcionamiento de RAG.png](https://assets.zilliz.com/Figure_1_How_RAG_works_24108cefb1.png)

Figura: Funcionamiento del GAR

El GAR multimodal aborda la limitación anterior permitiendo el uso de distintos tipos de datos, lo que proporciona un mejor contexto a los LLM. En pocas palabras, en un sistema RAG multimodal, el componente de recuperación busca información relevante en diferentes modalidades de datos, y el componente de generación genera resultados más precisos basados en la información recuperada.

Para construir un sistema de este tipo, necesitamos utilizar modelos multimodales para generar incrustaciones y LLM con capacidades multimodales, como LLAVA, GPT4-V, Gemini 1.5, Claude 3.5 Sonnet, etc., para generar respuestas.

Hay un par de formas de implementar la GAR multimodal:

Utilizar un modelo de incrustación multimodal como CLIP para transformar textos e imágenes en incrustaciones. A continuación, recupera el contexto relevante realizando una búsqueda de similitud entre la consulta y las incrustaciones de texto/imagen. Por último, pasamos el texto y/o la imagen en bruto del contexto más relevante a nuestro LLM multimodal.
Utilizar un LLM multimodal para producir resúmenes de texto de imágenes o tablas. A continuación, transforme esos resúmenes de texto en incrustaciones con un modelo de incrustación basado en texto. A continuación, realice una búsqueda de similitud de texto entre la consulta y las incrustaciones de resumen. Por último, pasamos la imagen sin procesar del resumen más relevante a nuestro LLM para que genere la respuesta.

Para obtener más información sobre cómo crear una aplicación RAG multimodal, consulte nuestros tutoriales sobre los distintos enfoques que se muestran a continuación:

Build a Multimodal RAG with Gemini, BGE-M3, Milvus and LangChain](https://zilliz.com/learn/build-multimodal-rag-gemini-bge-m3-milvus-langchain)
Build Better Multimodal RAG Pipelines with FiftyOne, LlamaIndex, and Milvus](https://zilliz.com/blog/build-better-multimodal-rag-pipelines-with-fiftyone-llamaindex-and-milvus) (Construir mejores conductos RAG multimodales con FiftyOne, LlamaIndex y Milvus)
RAG multimodal a nivel local con CLIP y Llama3 ](https://zilliz.com/blog/multimodal-RAG-with-CLIP-Llama3-and-milvus)
RAG multimodal: más allá del texto para una IA más inteligente ](https://zilliz.com/blog/multimodal-rag-expanding-beyond-text-for-smarter-ai)
RAG multimodal con Milvus | Documentación de Milvus](https://milvus.io/docs/multimodal_rag_with_milvus.md)
Evalúe su GAR multimodal con Trulens](https://zilliz.com/blog/evaluating-multimodal-rags-in-practice-trulens)

Comparación entre unimodal y multimodal

Los sistemas multimodales se diferencian de los sistemas tradicionales (unimodales) en que procesan e integran simultáneamente datos procedentes de múltiples tipos de modalidades de entrada (por ejemplo, texto, imágenes y audio).

Los sistemas multimodales tienen ventaja en la comprensión del contexto porque extraen información de dos fuentes: la visión y el lenguaje. Los enfoques tradicionales son más sencillos y se centran en ámbitos de aplicación específicos. La siguiente tabla ilustra algunas diferencias críticas entre los sistemas unimodales y multimodales.


Aspecto: Inteligencia artificial tradicional. Inteligencia artificial multimodal.
Tipo de entrada	Utiliza un único tipo de entrada (por ejemplo, sólo texto, sólo imagen)	Procesa múltiples tipos de entrada (por ejemplo, texto, imágenes, audio)		Enfoque del procesamiento**	Enfoque del procesamiento**	Enfoque del procesamiento**	Enfoque del procesamiento**	Enfoque del procesamiento**	Enfoque del procesamiento
Se centra en una modalidad sensorial o de datos. Integra y relaciona información de varias modalidades.
Complejidad	Más sencillo y a menudo específico de un dominio	Es más complejo debido a la necesidad de integrar diversos tipos de datos	Comprensión del contexto	Comprensión del contexto
Comprensión del contexto Limitada a la información disponible en una sola modalidad.
Aplicaciones: clasificación de textos, detección de objetos, reconocimiento de voz, etc.	Interacción persona-ordenador, robótica, vehículos autónomos, realidad aumentada, etc.

Ventajas y retos de la IA multimodal

En esta sección se enumeran algunos de los principales beneficios y retos asociados a la creación y evaluación de sistemas multimodales.

Beneficios

A continuación se enumeran algunas de las ventajas de utilizar IA multimodal:

Contexto mejorado: Los sistemas multimodales captan un contexto más amplio al integrar información complementaria de distintas fuentes, como la combinación de pistas visuales con el lenguaje para una mejor interpretación.
**Al incorporar datos de múltiples modalidades, la IA multimodal puede hacer predicciones y tomar decisiones más precisas. Por ejemplo, un sistema de diagnóstico médico podría ser más fiable teniendo en cuenta las imágenes y los historiales médicos del paciente.
Versatilidad: La IA multimodal puede aplicarse a diversas tareas complejas, como el subtitulado de imágenes, la respuesta a preguntas visuales, el diagnóstico médico, la conducción autónoma, etc., lo que la hace muy adaptable a múltiples dominios.
Comprensión más parecida a la humana: La IA multimodal puede imitar mejor la cognición humana y permitir una mejor interacción persona-ordenador en aplicaciones en tiempo real procesando datos de varios sentidos (modalidades).

Desafíos

Algunos de los retos relacionados con el uso de la IA multimodal son:

Representación: El método o formato en el que se representan las modalidades extrae la información complementaria o redundante entre múltiples modalidades. La representación de datos multimodales es muy importante, pero supone un reto debido a su naturaleza heterogénea. Por ejemplo, el sonido es una señal y la imagen es una representación tridimensional con diversas escalas y dimensiones que representar. Cómo llevarlas a un mismo espacio común de representación es un punto esencial de la aplicación.
Traducción: El procedimiento puede explicar cómo convertir o transformar los datos de una modalidad a otra una vez que son heterogéneos. La relación entre distintas modalidades es principalmente subjetiva. Por ejemplo, traducir un vídeo a su correspondiente descripción textual.
Fusión: Se refiere a la combinación de datos de múltiples modalidades para mejorar las predicciones. Por ejemplo, en el reconocimiento audiovisual del habla, la descripción visual del movimiento de los labios se integra con la señal del habla para predecir las palabras pronunciadas. La información puede proceder de distintas modalidades y tiene varios niveles de fuerza predictiva, importancia, contribución y topología de ruido. Faltan valores de datos en al menos una de las modalidades.
Explicabilidad: Un término reciente, Explainable AI (XAI), pretende explicar explicaciones y razonamientos significativos sobre un modelo. En el caso de múltiples modalidades, es más difícil entender cómo los modelos llegan a conclusiones con diferentes fuentes de datos.

Preguntas frecuentes sobre la IA multimodal

¿Qué es la IA multimodal?

La IA multimodal es un tipo de sistema de inteligencia artificial que puede procesar y analizar información procedente de varias modalidades, como texto, imágenes, audio y vídeo.

¿Qué tipos de datos puede utilizar la IA multimodal?

La IA multimodal utiliza varios tipos de datos, como texto, imágenes, audio, vídeo, sensores y datos gráficos.

¿La IA multimodal sustituye a la IA tradicional?

La IA multimodal no sustituye a la IA tradicional, sino que amplía sus capacidades integrando múltiples modalidades de datos. Es una ampliación. Los métodos tradicionales siguen siendo esenciales, mientras que la IA Multimodal proporciona capacidades adicionales.

¿Cuáles son algunas aplicaciones típicas de la IA multimodal?

Algunas aplicaciones típicas de la IA multimodal son la subtitulación de imágenes, la respuesta a preguntas visuales, el reconocimiento de emociones y la conducción autónoma.

**¿Cuáles son las ventajas de la IA multimodal?

La IA multimodal tiene varias ventajas, como la solidez, la eficiencia, el conocimiento del contexto, un dominio de aplicación diverso y la mejora de la interacción persona-ordenador.

Recursos relacionados

¿Qué es una base de datos vectorial y cómo funciona?](https://zilliz.com/learn/what-is-vector-database)
Generative AI Resource Hub | Zilliz](https://zilliz.com/learn/generative-ai)
¿Qué es la visión por ordenador?](https://zilliz.com/learn/what-is-computer-vision)
Decodificación de modelos de transformadores: Un estudio de su arquitectura y principios subyacentes](https://zilliz.com/learn/decoding-transformer-models-a-study-of-their-architecture-and-underlying-principles)
Construir aplicaciones de IA con Milvus: tutoriales y cuadernos](https://zilliz.com/learn/milvus-notebooks)
Top Performing AI Models for Your GenAI Apps | Zilliz](https://zilliz.com/ai-models)
Guía de clip-vit-base-patch32 | OpenAI](https://zilliz.com/ai-models/clip-vit-base-patch32)

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

¿Qué es una base de datos vectorial?

Una base de datos vectorial es una solución sencilla y totalmente gestionada para almacenar, indexar y buscar en un conjunto masivo de datos no estructurados que aprovecha la potencia de las incrustaciones de los modelos de aprendizaje automático.

Introducción a la búsqueda de similitud vectorial

Cómo las piezas semánticamente similares de datos no estructurados están "cerca" y "lejos" unas de otras.

Evaluación del rendimiento de Milvus 2023

En este tutorial aprenderá sobre los datos no estructurados basados en texto.