Glossary
Multimodal AI

멀티모달 인공 지능의 이해

멀티모달 인공 지능의 이해

ChatGPT](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code) 및 기타 여러 대규모 언어 모델(LLM)의 출시는 AI 개발의 중요한 이정표가 되었습니다. 이 기간 동안 AI 모델은 틈새 애플리케이션에서 글쓰기, 코딩, 고객 서비스, 콘텐츠 제작과 같은 일상적인 용도로 전환되었습니다. 그러나 이러한 발전의 대부분은 텍스트라는 단일 양식으로 제한되었습니다.

한 가지 양식에만 집중하는 것만으로는 일반 인공 지능(AGI)의 비전을 달성할 수 없습니다. AGI는 언어와 시각에서 청각과 감각 입력에 이르기까지 여러 영역을 이해하고 추론하며 행동하는 능력을 필요로 합니다. 따라서 멀티모달리티가 탄생했으며, 이 글에서는 이 기술에 대해 안내합니다.

멀티모달 AI란 무엇인가요?

인공지능 시스템이 텍스트, 이미지, 오디오, 비디오 등 여러 양식의 정보를 처리하고 분석할 수 있다면 멀티모달이라고 합니다. 반면에 한 가지 유형의 양식만 처리할 수 있는 AI는 단일 모달입니다.

그림 1- 유니 모달과 멀티 모달 AI의 차이점.png](https://assets.zilliz.com/Figure_1_Differences_between_Uni_and_Multi_Modal_AI_50567f5199.png)

그림 1: 유니 모달과 멀티 모달 AI의 차이점

자주 혼동되는 두 가지 용어를 명확히 구분하는 것이 중요합니다: 멀티모달과 멀티모델. 멀티모달은 여러 데이터 유형의 정보를 통합하고 처리하는 시스템을 말합니다. 이와 대조적으로 멀티 모델은 작업을 수행하기 위해 병렬로 또는 조합하여 작동하는 여러 독립 모델을 사용하는 것을 말합니다. 이러한 모델은 동일하거나 다른 데이터 유형에서 작동할 수 있지만 통합되지 않고 분리된 상태로 유지됩니다.

멀티모달 AI는 많은 애플리케이션에 큰 영향을 미칠 수 있습니다. 예를 들어, 멀티모달 AI 의료 시스템은 의료 이미지, 환자의 음성 녹음, 임상 메모를 사용하여 하나의 데이터 소스에만 의존하는 시스템에서 생성할 수 있는 것보다 더 정확한 진단을 내릴 수 있습니다. 이러한 측면에서 멀티모달 AI 시스템은 인간의 인지에 훨씬 더 가깝게 접근하며, 전반적인 이해가 중요한 업무에 매우 효과적입니다.

멀티모달은 다음 중 하나 이상이 될 수 있습니다:

입력과 출력이 텍스트 대 이미지 또는 이미지 대 텍스트와 같이 서로 다른 양식을 사용하는 경우.
입력이 멀티모달입니다(예: 텍스트와 이미지).
출력은 텍스트와 이미지를 제공하는 하나의 시스템과 같이 다중 모달입니다.

다음 섹션에서는 멀티모달 시스템의 작동 방식에 대해 설명합니다.

멀티모달 AI는 어떻게 작동하나요?

멀티모달 모델에서는 다양한 구성 요소가 함께 작동합니다. 다음은 가장 중요한 요소와 그 작동 방식입니다:

데이터 유형**: 멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 여러 데이터 유형을 통합하여 다양한 모달리티의 콘텐츠를 포괄적으로 이해하고 생성할 수 있습니다.
표현**: 머신러닝의 멀티모달 표현은 서로 다른 양식의 데이터를 결합하여 모델이 사용할 수 있는 보다 의미 있는 기능으로 만듭니다. 이를 위해 두 가지 접근 방식이 사용됩니다.
- 공동 표현**: 서로 다른 양식의 데이터를 통합된 표현 공간으로 변환하는 것으로, 학습 및 추론 중에 다중 양식 데이터를 사용할 수 있을 때 적합합니다. 표준 기법에는 신경망 및 확률론적 그래픽 모델이 포함됩니다. 이러한 방법은 성능을 향상시킬 수 있지만 누락된 데이터로 인한 문제에 직면합니다.
- 조정된 표현**: 각 양식은 공유 공간에서 정렬하기 위해 제약 조건을 적용하여 개별적으로 처리됩니다.

그림 2 공동 및 조정된 표현의 구조.png

그림 2: 공동 및 조정된 표현의 구조 | [출처](https://www.researchgate.net/figure/Structure-of-joint-and-coordinated-representations-Joint-representations-are-projected_fig1_317185818#:~:text=Joint%20representations%20are%20projected%20to,constraint%20(예: %20부분%20순서))

특징 추출**: 텍스트의 경우 자연어 처리(NLP), 이미지의 경우 컴퓨터 비전, 오디오의 경우 신호 처리 등 각 데이터 유형에서 특징을 추출하는 데 특화된 기법이 사용됩니다.
데이터 융합**: 퓨전은 예측 작업을 위해 두 가지 이상의 양식에서 정보를 결합합니다. 접근 방식은 다음과 같습니다:
- 조기 융합**: 분석 전에 데이터를 통합하며, 일반적으로 PCA(주성분 분석) 또는 ICA(독립 성분 분석)와 같은 방법을 사용하여 저차원 하위 공간에서 데이터를 통합합니다. 이 접근 방식은 다양한 데이터 형식과 샘플링 속도로 인해 어려울 수 있는 양식의 동기화가 필요합니다. 특징 추출에는 효율적이지만 데이터 손실과 동기화 문제가 발생할 수 있습니다.
- 후기 융합**: 개별 양식 결과는 배깅, 부스팅 또는 규칙 기반 접근 방식(예: 베이즈, 최대 또는 평균 융합)과 같은 앙상블 방법을 사용하여 의사 결정 수준에서 결합됩니다. 이 방법은 상호 연관성이 없는 양식이 있을 때 탁월하며, 인간의 인지와 유사한 유연성을 제공합니다.
모델링**: 트랜스포머 또는 컨볼루션 신경망(CNN과 같이 여러 양식을 처리할 수 있는 신경망은 다양한 입력으로부터 학습하는 데 사용됩니다. 더 정교한 모델도 있으며, 더 우수한 결과를 얻을 수 있으며 종종 LMM(대규모 멀티모달 모델)이라고도 합니다.

멀티모달 RAG: 텍스트를 넘어 확장하기

검색 증강 생성(RAG)은 외부 소스에서 대규모 언어 모델의 문맥 정보를 검색하여 보다 정확한 결과물을 생성하는 방법입니다. 또한 AI 환각을 완화하고 일부 데이터 보안 문제를 해결하는 데 도움이 됩니다. 기존의 RAG는 LLM 결과물을 개선하는 데 매우 효과적이었지만 텍스트 데이터에만 국한되어 있었습니다. 많은 실제 애플리케이션에서 지식은 텍스트를 넘어 이미지, 차트 및 중요한 맥락을 제공하는 기타 양식을 통합하여 확장됩니다.

다음은 일반적인 텍스트 기반 RAG 워크플로우의 개요입니다:

사용자가 시스템에 텍스트 쿼리를 제출합니다.
쿼리는 벡터 임베딩으로 변환된 다음, 텍스트 구절이 임베딩으로 저장되어 있는 Milvus와 같은 벡터 데이터베이스를 검색하는 데 사용됩니다. 벡터 데이터베이스는 벡터 유사도를 기반으로 쿼리와 가장 근접하게 일치하는 구절을 검색합니다.
관련 텍스트 구절은 LLM에 보조 컨텍스트로 전달되어 쿼리에 대한 이해를 더욱 풍부하게 해줍니다.
LLM은 제공된 컨텍스트와 함께 쿼리를 처리하여 보다 많은 정보를 바탕으로 정확한 응답을 생성합니다.

그림 1-RAG의 작동 원리.png

그림: RAG의 작동 방식

멀티모달 RAG는 다양한 데이터 유형을 사용할 수 있게 함으로써 위의 한계를 해결하고 LLM에 더 나은 컨텍스트를 제공합니다. 간단히 말해, 멀티모달 RAG 시스템에서는 검색 구성 요소가 다양한 데이터 양식에서 관련 정보를 검색하고, 생성 구성 요소가 검색된 정보를 기반으로 보다 정확한 결과를 생성합니다.

이러한 시스템을 구축하려면 멀티모달 모델을 사용하여 임베딩을 생성하고 LLAVA, GPT4-V, Gemini 1.5, Claude 3.5 Sonnet 등과 같은 멀티모달 기능을 갖춘 LLM을 사용하여 답변을 생성해야 합니다.

멀티모달 RAG를 구현하는 방법에는 몇 가지가 있습니다:

CLIP과 같은 멀티모달 임베딩 모델을 사용하여 텍스트와 이미지를 임베딩으로 변환합니다. 그런 다음 쿼리와 텍스트/이미지 임베딩 간의 유사성 검색을 수행하여 관련성 있는 문맥을 검색합니다. 마지막으로 가장 관련성이 높은 문맥의 원시 텍스트 및/또는 이미지를 멀티모달 LLM에 전달합니다.
멀티모달 LLM을 사용하여 이미지 또는 표의 텍스트 요약을 생성합니다. 그런 다음, 텍스트 기반 임베딩 모델을 사용하여 이러한 텍스트 요약을 임베딩으로 변환합니다. 그런 다음 쿼리와 요약 임베딩 간에 텍스트 유사성 검색을 수행합니다. 마지막으로, 가장 관련성이 높은 요약의 원시 이미지를 응답 생성을 위해 LLM에 전달합니다.

멀티모달 RAG 애플리케이션을 구축하는 방법에 대해 자세히 알아보려면 아래 표시된 다양한 접근 방식을 사용한 튜토리얼을 확인하세요:

Gemini, BGE-M3, Milvus 및 LangChain으로 멀티모달 RAG 구축하기
피프티원, 라마인덱스, 밀버스로 더 나은 멀티모달 RAG 파이프라인 구축하기.
CLIP과 Llama3로 로컬 멀티모달 RAG ](https://zilliz.com/blog/multimodal-RAG-with-CLIP-Llama3-and-milvus)
멀티모달 RAG: 더 스마트한 AI를 위해 텍스트를 넘어 확장하기 ](https://zilliz.com/blog/multimodal-rag-expanding-beyond-text-for-smarter-ai)
Milvus와 함께하는 멀티모달 RAG | Milvus 문서
트룰렌즈를 사용하여 멀티모달 RAG 평가하기 ](https://zilliz.com/blog/evaluating-multimodal-rags-in-practice-trulens)

유니모달과 멀티모달 비교 ## 유니모달과 멀티모달 비교

멀티모달 시스템은 여러 유형의 입력 양식(예: 텍스트, 이미지, 오디오)의 데이터를 동시에 처리하고 통합하는 방식에서 기존(유니모달) 시스템과 다릅니다.

멀티모달 시스템은 시각과 언어라는 두 가지 소스에서 정보를 추출하기 때문에 맥락을 이해하는 데 유리합니다. 기존의 접근 방식은 더 간단하며 특정 애플리케이션 도메인에 초점을 맞춥니다. 다음 표는 유니모달 시스템과 멀티모달 시스템 간의 몇 가지 중요한 차이점을 보여줍니다.


관점	전통적 AI	멀티모달 AI
단일 입력 유형(예: 텍스트만, 이미지만) 사용	여러 입력 유형(예: 텍스트, 이미지, 오디오) 처리	입력 유형	단일 입력 유형 사용

멀티모달 AI의 장점과 과제

이 섹션에서는 멀티모달 시스템 구축 및 평가의 몇 가지 중요한 이점과 관련 과제를 나열합니다.

이점

멀티모달 AI를 사용하면 얻을 수 있는 몇 가지 이점은 다음과 같습니다:

**향상된 컨텍스트: **멀티모달 시스템은 시각적 단서와 언어를 결합하여 더 나은 해석을 하는 등 다양한 소스의 보완적인 정보를 통합하여 더 넓은 컨텍스트를 포착합니다.
성능 향상: 멀티모달 AI는 여러 모달리티의 데이터를 통합함으로써 보다 정확한 예측과 결정을 내릴 수 있습니다. 예를 들어, 의료 진단 시스템은 환자 이미지와 의료 기록을 고려하여 더 신뢰할 수 있습니다.
다목적성: 멀티모달 AI는 이미지 캡션, 시각적 질문 답변, 의료 진단, 자율 주행 등 다양하고 복잡한 작업에 적용될 수 있어 여러 영역에 적응력이 높습니다.
인간과 더 유사한 이해력: 멀티모달 AI는 다양한 감각(모달리티)의 데이터를 처리함으로써 인간의 인지를 더 잘 모방하고 실시간 애플리케이션에서 인간과 컴퓨터의 상호 작용을 향상시킬 수 있습니다.

도전 과제

멀티모달 AI 사용과 관련된 몇 가지 과제는 다음과 같습니다:

**표현: 모달리티를 표현하는 방법이나 형식은 여러 모달리티 간에 상호 보완적이거나 중복되는 정보를 추출합니다. 멀티 모달 데이터 표현은 매우 중요하지만 이질적인 특성으로 인해 까다로운 작업입니다. 예를 들어, 소리는 신호이고 이미지는 표현해야 할 스케일과 차원이 다양한 3D 표현입니다. 이들을 동일한 공통 표현 공간으로 가져오는 방법은 필수적인 구현 포인트입니다.
번역: 이 절차는 이질적인 데이터를 한 양식에서 다른 양식으로 변환하거나 변환하는 방법을 설명할 수 있습니다. 서로 다른 양식 간의 관계는 주로 주관적입니다. 예를 들어 동영상을 해당 텍스트 설명으로 번역하는 것을 들 수 있습니다.
**융합: **더 나은 예측을 위해 여러 양식의 데이터를 결합하는 것을 말합니다. 예를 들어, 시청각 음성 인식에서는 입술 움직임에 대한 시각적 설명을 음성 신호와 통합하여 음성 단어를 예측합니다. 이 정보는 다양한 양식에서 제공될 수 있으며 예측 강도, 중요도, 기여도 및 노이즈 토폴로지의 수준이 다양합니다. 양식 중 하나 이상에 누락된 데이터 값이 있습니다.
설명 가능성: 최근 등장한 용어인 설명 가능한 AI(XAI)는 모델에 대한 의미 있는 설명과 추론을 설명하는 것을 목표로 합니다. 여러 양식의 경우, 모델이 서로 다른 데이터 소스를 사용하여 어떻게 결론에 도달하는지 이해하기가 더 어렵습니다.

멀티모달 AI에 대한 ## 자주 묻는 질문

**멀티모달 AI란 무엇인가요?

멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 다양한 양식의 정보를 처리하고 분석할 수 있는 일종의 인공지능 시스템입니다.

**멀티모달 AI는 어떤 데이터 유형을 사용할 수 있나요?

멀티모달 AI는 텍스트, 이미지, 오디오, 비디오, 센서, 그래프 데이터 등 다양한 데이터 유형을 사용합니다.

**멀티모달 AI가 기존 AI를 대체하나요?

멀티모달 AI는 기존 AI를 대체하는 것이 아니라 여러 데이터 양식을 통합하여 그 기능을 확장하는 것입니다. 확장된 것입니다. 기존 방식은 여전히 필수적이며, 멀티모달 AI는 추가적인 기능을 제공합니다.

**멀티모달 AI의 대표적인 적용 분야에는 어떤 것이 있나요?

멀티모달 AI의 대표적인 응용 분야로는 이미지 캡션, 시각적 질문 답변, 감정 인식, 자율 주행 등이 있습니다.

**멀티모달 AI의 장점은 무엇인가요?

멀티모달 AI는 견고성, 효율성, 상황 인식, 다양한 애플리케이션 영역, 인간과 컴퓨터의 상호작용 개선 등 여러 가지 장점이 있습니다.

멀티모달 인공 지능의 이해

멀티모달 AI란 무엇인가요?

멀티모달 AI는 어떻게 작동하나요?

멀티모달 모델에서는 다양한 구성 요소가 함께 작동합니다. 다음은 가장 중요한 요소와 그 작동 방식입니다:

인기 있는 멀티모달 모델과 그 아키텍처

비디오-오디오-텍스트 트랜스포머(VATT)

멀티모달 가변 자동 인코더(MVAE)

CLIP(대조적 언어-이미지 사전 학습)

멀티모달 RAG: 텍스트를 넘어 확장하기

멀티모달 AI의 장점과 과제

이점

도전 과제

관련 리소스

콘텐츠

무료로 시작하고 쉽게 확장하세요

이 기사 공유

관련 자료

벡터 데이터베이스란 무엇인가요?

벡터 유사도 검색 소개

Milvus 성능 평가 2023