멀티모달 인공 지능의 이해

멀티모달 인공 지능의 이해
ChatGPT](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code) 및 기타 여러 대규모 언어 모델(LLM)의 출시는 AI 개발의 중요한 이정표가 되었습니다. 이 기간 동안 AI 모델은 틈새 애플리케이션에서 글쓰기, 코딩, 고객 서비스, 콘텐츠 제작과 같은 일상적인 용도로 전환되었습니다. 그러나 이러한 발전의 대부분은 텍스트라는 단일 양식으로 제한되었습니다.
한 가지 양식에만 집중하는 것만으로는 일반 인공 지능(AGI)의 비전을 달성할 수 없습니다. AGI는 언어와 시각에서 청각과 감각 입력에 이르기까지 여러 영역을 이해하고 추론하며 행동하는 능력을 필요로 합니다. 따라서 멀티모달리티가 탄생했으며, 이 글에서는 이 기술에 대해 안내합니다.
멀티모달 AI란 무엇인가요?
인공지능 시스템이 텍스트, 이미지, 오디오, 비디오 등 여러 양식의 정보를 처리하고 분석할 수 있다면 멀티모달이라고 합니다. 반면에 한 가지 유형의 양식만 처리할 수 있는 AI는 단일 모달입니다.
그림 1- 유니 모달과 멀티 모달 AI의 차이점.png](https://assets.zilliz.com/Figure_1_Differences_between_Uni_and_Multi_Modal_AI_50567f5199.png)
그림 1: 유니 모달과 멀티 모달 AI의 차이점
자주 혼동되는 두 가지 용어를 명확히 구분하는 것이 중요합니다: 멀티모달과 멀티모델. 멀티모달은 여러 데이터 유형의 정보를 통합하고 처리하는 시스템을 말합니다. 이와 대조적으로 멀티 모델은 작업을 수행하기 위해 병렬로 또는 조합하여 작동하는 여러 독립 모델을 사용하는 것을 말합니다. 이러한 모델은 동일하거나 다른 데이터 유형에서 작동할 수 있지만 통합되지 않고 분리된 상태로 유지됩니다.
멀티모달 AI는 많은 애플리케이션에 큰 영향을 미칠 수 있습니다. 예를 들어, 멀티모달 AI 의료 시스템은 의료 이미지, 환자의 음성 녹음, 임상 메모를 사용하여 하나의 데이터 소스에만 의존하는 시스템에서 생성할 수 있는 것보다 더 정확한 진단을 내릴 수 있습니다. 이러한 측면에서 멀티모달 AI 시스템은 인간의 인지에 훨씬 더 가깝게 접근하며, 전반적인 이해가 중요한 업무에 매우 효과적입니다.
멀티모달은 다음 중 하나 이상이 될 수 있습니다:
입력과 출력이 텍스트 대 이미지 또는 이미지 대 텍스트와 같이 서로 다른 양식을 사용하는 경우.
입력이 멀티모달입니다(예: 텍스트와 이미지).
출력은 텍스트와 이미지를 제공하는 하나의 시스템과 같이 다중 모달입니다.
다음 섹션에서는 멀티모달 시스템의 작동 방식에 대해 설명합니다.
멀티모달 AI는 어떻게 작동하나요?
멀티모달 모델에서는 다양한 구성 요소가 함께 작동합니다. 다음은 가장 중요한 요소와 그 작동 방식입니다:
데이터 유형**: 멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 여러 데이터 유형을 통합하여 다양한 모달리티의 콘텐츠를 포괄적으로 이해하고 생성할 수 있습니다.
표현**: 머신러닝의 멀티모달 표현은 서로 다른 양식의 데이터를 결합하여 모델이 사용할 수 있는 보다 의미 있는 기능으로 만듭니다. 이를 위해 두 가지 접근 방식이 사용됩니다.
공동 표현**: 서로 다른 양식의 데이터를 통합된 표현 공간으로 변환하는 것으로, 학습 및 추론 중에 다중 양식 데이터를 사용할 수 있을 때 적합합니다. 표준 기법에는 신경망 및 확률론적 그래픽 모델이 포함됩니다. 이러한 방법은 성능을 향상시킬 수 있지만 누락된 데이터로 인한 문제에 직면합니다.
조정된 표현**: 각 양식은 공유 공간에서 정렬하기 위해 제약 조건을 적용하여 개별적으로 처리됩니다.
그림 2 공동 및 조정된 표현의 구조.png
그림 2: 공동 및 조정된 표현의 구조 | [출처](https://www.researchgate.net/figure/Structure-of-joint-and-coordinated-representations-Joint-representations-are-projected_fig1_317185818#:~:text=Joint%20representations%20are%20projected%20to,constraint%20(예: %20부분%20순서))
특징 추출**: 텍스트의 경우 자연어 처리(NLP), 이미지의 경우 컴퓨터 비전, 오디오의 경우 신호 처리 등 각 데이터 유형에서 특징을 추출하는 데 특화된 기법이 사용됩니다.
데이터 융합**: 퓨전은 예측 작업을 위해 두 가지 이상의 양식에서 정보를 결합합니다. 접근 방식은 다음과 같습니다:
조기 융합**: 분석 전에 데이터를 통합하며, 일반적으로 PCA(주성분 분석) 또는 ICA(독립 성분 분석)와 같은 방법을 사용하여 저차원 하위 공간에서 데이터를 통합합니다. 이 접근 방식은 다양한 데이터 형식과 샘플링 속도로 인해 어려울 수 있는 양식의 동기화가 필요합니다. 특징 추출에는 효율적이지만 데이터 손실과 동기화 문제가 발생할 수 있습니다.
후기 융합**: 개별 양식 결과는 배깅, 부스팅 또는 규칙 기반 접근 방식(예: 베이즈, 최대 또는 평균 융합)과 같은 앙상블 방법을 사용하여 의사 결정 수준에서 결합됩니다. 이 방법은 상호 연관성이 없는 양식이 있을 때 탁월하며, 인간의 인지와 유사한 유연성을 제공합니다.
모델링**: 트랜스포머 또는 컨볼루션 신경망(CNN과 같이 여러 양식을 처리할 수 있는 신경망은 다양한 입력으로부터 학습하는 데 사용됩니다. 더 정교한 모델도 있으며, 더 우수한 결과를 얻을 수 있으며 종종 LMM(대규모 멀티모달 모델)이라고도 합니다.
인기 있는 멀티모달 모델과 그 아키텍처
시중에는 다양한 멀티모달 모델이 출시되어 있습니다. 다음은 인기 있는 모델과 아키텍처입니다.
비디오-오디오-텍스트 트랜스포머(VATT)
비디오-오디오-텍스트 트랜스포머(VATT)**는 통합된 트랜스포머 기반 프레임워크를 사용하여 여러 모달리티(비디오, 오디오, 텍스트)를 처리하도록 설계된 컨볼루션 프리 아키텍처입니다. VATT는 각 모달리티를 토큰화 레이어에 공급하는 것으로 시작하며, 여기서 원시 입력은 임베딩 벡터로 투영되어 Transformer가 이후 처리합니다.
두 가지 주요 구성이 있는데, 하나는 각 양식에 고유한 가중치를 가진 별도의 트랜스포머가 사용되는 구성이고 다른 하나는 공유 가중치를 가진 단일 트랜스포머 백본이 모든 양식을 처리하는 구성입니다.
구성에 관계없이 트랜스포머는 양식별 표현을 추출하여 추가 작업을 위해 공유 공간에 매핑합니다. 이 아키텍처는 입력 토큰을 사용하여 NLP 및 Vision Transformers (ViT)에서 일반적으로 사용되는 표준 Transformer 파이프라인을 따릅니다.
또한 VATT는 텍스트에 대한 학습 가능한 상대적 편향성을 통합하여 T5와 같은 모델과 호환됩니다. 이러한 접근 방식을 통해 VATT는 분류와 같은 작업을 위해 멀티모달 데이터를 효과적으로 모델링할 수 있습니다.
그림 3- 멀티모달 학습을 위한 비전 트랜스포머.png](https://assets.zilliz.com/Figure_3_Vision_Transformers_for_Multimodal_Learning_46cc680e45.png)
그림 3: 멀티모달 학습을 위한 비전 트랜스포머 | 출처
멀티모달 가변 자동 인코더(MVAE)
멀티모달 가변 자동 인코더(MVAE)**](https://dl.acm.org/doi/10.1145/3308558.3313552) 아키텍처는 텍스트와 이미지의 통합된 표현을 학습하도록 설계되었습니다. MVAE는 인코더, 디코더, 애플리케이션 모듈(이 경우 가짜 뉴스 감지기)의 세 가지 주요 구성 요소로 이루어져 있습니다.
그림 4- 멀티모달 변형 자동 인코더 아키텍처.png](https://assets.zilliz.com/Figure_4_Multimodal_Variational_Autoencoder_Architecture_4c4dba73f0.png)
그림 4: 멀티모달 가변 자동 인코더 아키텍처 | 출처
인코더: 이 컴포넌트는 텍스트와 이미지 입력을 처리하여 공유 잠재 표현을 생성합니다. 두 개의 서브 인코더로 구성됩니다:
텍스트 인코더**: 사전 학습된 딥 네트워크를 사용하여 게시물의 단어 시퀀스를 단어 임베딩으로 변환합니다.
비주얼 인코더**: 이 프로세스는 CNN을 사용하여 이미지에서 시각적 특징을 추출하여 공간 및 객체 의미를 캡처합니다(예: VGG-19).
디코더: 디코더는 공유된 잠재적 표현에서 원본 텍스트와 이미지를 재구성합니다. 인코더의 구조를 반영하며 다음과 같이 나뉩니다:
텍스트 디코더**: 이 디코더는 잠재적 표현을 양방향 LSTM 유닛과 완전히 연결된 계층을 통해 전달하여 각 단어의 확률을 예측함으로써 텍스트를 재구성합니다.
시각적 디코더**: 완전히 연결된 레이어를 통해 VGG-19 이미지 특징을 재구성하여 시각적 인코딩을 역전시킵니다.
가짜 뉴스 감지기: 이 구성 요소는 공유된 멀티모달 잠재 표현을 사용하여 뉴스 게시물이 진짜인지 가짜인지 예측합니다.
CLIP(대조적 언어-이미지 사전 학습)
CLIP](https://zilliz.com/blog/fundamentals-of-clip)(대조 언어-이미지 사전 훈련) 모델은 방대한 이미지-텍스트 쌍의 데이터 세트를 학습하여 이미지와 텍스트의 공동 표현을 학습하도록 설계되었습니다. CLIP은 이미지용 신경망(보통 비전 트랜스포머 또는 CNN)과 텍스트용 신경망(보통 트랜스포머)의 두 가지 신경망을 사용합니다.
이러한 네트워크는 이미지와 텍스트를 공유 임베딩 공간에서 고정 길이 벡터로 인코딩합니다. 훈련 중에 CLIP은 대조 학습 목표를 활용하여 일치하는 이미지와 텍스트 쌍의 임베딩을 한데 모으고 일치하지 않는 쌍의 임베딩을 밀어냅니다.
이 과정을 통해 CLIP은 시각 정보와 텍스트 정보의 상관관계를 학습합니다. 이 접근 방식을 통해 모델은 제로 샷 이미지 분류를 수행할 수 있으므로 작업별 학습 없이도 자연어 설명을 기반으로 이미지 속 사물을 인식할 수 있습니다. 이 강력한 아키텍처는 텍스트-이미지 기반 작업에서 일반화 능력을 향상시키는 데 사용할 수 있습니다.
그림 4- CLIP 모델의 아키텍처.png
그림 4: CLIP 모델의 아키텍처
이러한 아키텍처의 일부 비공개 소스 모델에는 다음이 포함됩니다:
구글 제미니](https://zilliz.com/learn/build-multimodal-rag-gemini-bge-m3-milvus-langchain): 텍스트, 이미지, 비디오, 오디오에 탁월한 멀티모달 LLM으로 여러 벤치마크에서 GPT-4보다 성능이 뛰어납니다.
ChatGPT(GPT-4V): 텍스트, 음성, 이미지를 지원하여 사용자가 DALL-E 3을 통해 AI가 생성한 음성과 상호작용하고 이미지를 생성할 수 있습니다.
인월드 AI: 디지털 월드에 지능형 NPC를 생성하여 자연어, 음성, 감정을 통한 커뮤니케이션을 가능하게 합니다.
메타 이미지 바인드: 6가지 모달리티를 처리하여 오디오에서 이미지를 생성하고 기계가 환경을 인식할 수 있도록 하는 등의 작업을 위해 데이터를 결합합니다.
런웨이 2세대**: 텍스트, 이미지 또는 기존 동영상에서 동영상을 생성하고 편집하여 다양한 콘텐츠 제작 기능을 제공합니다.
더 많은 멀티모달 모델은 이 포스팅에서 확인하세요.
멀티모달 RAG: 텍스트를 넘어 확장하기
검색 증강 생성(RAG)은 외부 소스에서 대규모 언어 모델의 문맥 정보를 검색하여 보다 정확한 결과물을 생성하는 방법입니다. 또한 AI 환각을 완화하고 일부 데이터 보안 문제를 해결하는 데 도움이 됩니다. 기존의 RAG는 LLM 결과물을 개선하는 데 매우 효과적이었지만 텍스트 데이터에만 국한되어 있었습니다. 많은 실제 애플리케이션에서 지식은 텍스트를 넘어 이미지, 차트 및 중요한 맥락을 제공하는 기타 양식을 통합하여 확장됩니다.
다음은 일반적인 텍스트 기반 RAG 워크플로우의 개요입니다:
사용자가 시스템에 텍스트 쿼리를 제출합니다.
쿼리는 벡터 임베딩으로 변환된 다음, 텍스트 구절이 임베딩으로 저장되어 있는 Milvus와 같은 벡터 데이터베이스를 검색하는 데 사용됩니다. 벡터 데이터베이스는 벡터 유사도를 기반으로 쿼리와 가장 근접하게 일치하는 구절을 검색합니다.
관련 텍스트 구절은 LLM에 보조 컨텍스트로 전달되어 쿼리에 대한 이해를 더욱 풍부하게 해줍니다.
LLM은 제공된 컨텍스트와 함께 쿼리를 처리하여 보다 많은 정보를 바탕으로 정확한 응답을 생성합니다.
그림 1-RAG의 작동 원리.png
그림: RAG의 작동 방식
멀티모달 RAG는 다양한 데이터 유형을 사용할 수 있게 함으로써 위의 한계를 해결하고 LLM에 더 나은 컨텍스트를 제공합니다. 간단히 말해, 멀티모달 RAG 시스템에서는 검색 구성 요소가 다양한 데이터 양식에서 관련 정보를 검색하고, 생성 구성 요소가 검색된 정보를 기반으로 보다 정확한 결과를 생성합니다.
이러한 시스템을 구축하려면 멀티모달 모델을 사용하여 임베딩을 생성하고 LLAVA, GPT4-V, Gemini 1.5, Claude 3.5 Sonnet 등과 같은 멀티모달 기능을 갖춘 LLM을 사용하여 답변을 생성해야 합니다.
멀티모달 RAG를 구현하는 방법에는 몇 가지가 있습니다:
CLIP과 같은 멀티모달 임베딩 모델을 사용하여 텍스트와 이미지를 임베딩으로 변환합니다. 그런 다음 쿼리와 텍스트/이미지 임베딩 간의 유사성 검색을 수행하여 관련성 있는 문맥을 검색합니다. 마지막으로 가장 관련성이 높은 문맥의 원시 텍스트 및/또는 이미지를 멀티모달 LLM에 전달합니다.
멀티모달 LLM을 사용하여 이미지 또는 표의 텍스트 요약을 생성합니다. 그런 다음, 텍스트 기반 임베딩 모델을 사용하여 이러한 텍스트 요약을 임베딩으로 변환합니다. 그런 다음 쿼리와 요약 임베딩 간에 텍스트 유사성 검색을 수행합니다. 마지막으로, 가장 관련성이 높은 요약의 원시 이미지를 응답 생성을 위해 LLM에 전달합니다.
멀티모달 RAG 애플리케이션을 구축하는 방법에 대해 자세히 알아보려면 아래 표시된 다양한 접근 방식을 사용한 튜토리얼을 확인하세요:
CLIP과 Llama3로 로컬 멀티모달 RAG ](https://zilliz.com/blog/multimodal-RAG-with-CLIP-Llama3-and-milvus)
멀티모달 RAG: 더 스마트한 AI를 위해 텍스트를 넘어 확장하기 ](https://zilliz.com/blog/multimodal-rag-expanding-beyond-text-for-smarter-ai)
트룰렌즈를 사용하여 멀티모달 RAG 평가하기 ](https://zilliz.com/blog/evaluating-multimodal-rags-in-practice-trulens)
유니모달과 멀티모달 비교 ## 유니모달과 멀티모달 비교
멀티모달 시스템은 여러 유형의 입력 양식(예: 텍스트, 이미지, 오디오)의 데이터를 동시에 처리하고 통합하는 방식에서 기존(유니모달) 시스템과 다릅니다.
멀티모달 시스템은 시각과 언어라는 두 가지 소스에서 정보를 추출하기 때문에 맥락을 이해하는 데 유리합니다. 기존의 접근 방식은 더 간단하며 특정 애플리케이션 도메인에 초점을 맞춥니다. 다음 표는 유니모달 시스템과 멀티모달 시스템 간의 몇 가지 중요한 차이점을 보여줍니다.
| 관점 | 전통적 AI | 멀티모달 AI | |
| 단일 입력 유형(예: 텍스트만, 이미지만) 사용 | 여러 입력 유형(예: 텍스트, 이미지, 오디오) 처리 | 입력 유형 | 단일 입력 유형 사용 |
처리 초점 ** 하나의 감각 또는 데이터 양식에 초점을 맞추고 여러 양식에 걸쳐 정보를 통합하고 관련시킵니다. 복잡성 | 더 간단하고 종종 도메인에 따라 다름 | 다양한 데이터 유형을 통합해야 하기 때문에 더 복잡함 | 컨텍스트 이해 | 단일 양식에서 사용할 수 있는 정보로 제한됨 | 다양한 양식을 사용하여 컨텍스트를 더 잘 이해할 수 있음 | | 텍스트 분류, 물체 감지, 음성 인식 등 다양한 애플리케이션에 적용 가능 | 인간-컴퓨터 상호 작용, 로봇 공학, 자율 주행 차량, 증강 현실 등 |
멀티모달 AI의 장점과 과제
이 섹션에서는 멀티모달 시스템 구축 및 평가의 몇 가지 중요한 이점과 관련 과제를 나열합니다.
이점
멀티모달 AI를 사용하면 얻을 수 있는 몇 가지 이점은 다음과 같습니다:
**향상된 컨텍스트: **멀티모달 시스템은 시각적 단서와 언어를 결합하여 더 나은 해석을 하는 등 다양한 소스의 보완적인 정보를 통합하여 더 넓은 컨텍스트를 포착합니다.
성능 향상: 멀티모달 AI는 여러 모달리티의 데이터를 통합함으로써 보다 정확한 예측과 결정을 내릴 수 있습니다. 예를 들어, 의료 진단 시스템은 환자 이미지와 의료 기록을 고려하여 더 신뢰할 수 있습니다.
다목적성: 멀티모달 AI는 이미지 캡션, 시각적 질문 답변, 의료 진단, 자율 주행 등 다양하고 복잡한 작업에 적용될 수 있어 여러 영역에 적응력이 높습니다.
인간과 더 유사한 이해력: 멀티모달 AI는 다양한 감각(모달리티)의 데이터를 처리함으로써 인간의 인지를 더 잘 모방하고 실시간 애플리케이션에서 인간과 컴퓨터의 상호 작용을 향상시킬 수 있습니다.
도전 과제
멀티모달 AI 사용과 관련된 몇 가지 과제는 다음과 같습니다:
**표현: 모달리티를 표현하는 방법이나 형식은 여러 모달리티 간에 상호 보완적이거나 중복되는 정보를 추출합니다. 멀티 모달 데이터 표현은 매우 중요하지만 이질적인 특성으로 인해 까다로운 작업입니다. 예를 들어, 소리는 신호이고 이미지는 표현해야 할 스케일과 차원이 다양한 3D 표현입니다. 이들을 동일한 공통 표현 공간으로 가져오는 방법은 필수적인 구현 포인트입니다.
번역: 이 절차는 이질적인 데이터를 한 양식에서 다른 양식으로 변환하거나 변환하는 방법을 설명할 수 있습니다. 서로 다른 양식 간의 관계는 주로 주관적입니다. 예를 들어 동영상을 해당 텍스트 설명으로 번역하는 것을 들 수 있습니다.
**융합: **더 나은 예측을 위해 여러 양식의 데이터를 결합하는 것을 말합니다. 예를 들어, 시청각 음성 인식에서는 입술 움직임에 대한 시각적 설명을 음성 신호와 통합하여 음성 단어를 예측합니다. 이 정보는 다양한 양식에서 제공될 수 있으며 예측 강도, 중요도, 기여도 및 노이즈 토폴로지의 수준이 다양합니다. 양식 중 하나 이상에 누락된 데이터 값이 있습니다.
설명 가능성: 최근 등장한 용어인 설명 가능한 AI(XAI)는 모델에 대한 의미 있는 설명과 추론을 설명하는 것을 목표로 합니다. 여러 양식의 경우, 모델이 서로 다른 데이터 소스를 사용하여 어떻게 결론에 도달하는지 이해하기가 더 어렵습니다.
멀티모달 AI에 대한 ## 자주 묻는 질문
- **멀티모달 AI란 무엇인가요?
멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 다양한 양식의 정보를 처리하고 분석할 수 있는 일종의 인공지능 시스템입니다.
- **멀티모달 AI는 어떤 데이터 유형을 사용할 수 있나요?
멀티모달 AI는 텍스트, 이미지, 오디오, 비디오, 센서, 그래프 데이터 등 다양한 데이터 유형을 사용합니다.
- **멀티모달 AI가 기존 AI를 대체하나요?
멀티모달 AI는 기존 AI를 대체하는 것이 아니라 여러 데이터 양식을 통합하여 그 기능을 확장하는 것입니다. 확장된 것입니다. 기존 방식은 여전히 필수적이며, 멀티모달 AI는 추가적인 기능을 제공합니다.
- **멀티모달 AI의 대표적인 적용 분야에는 어떤 것이 있나요?
멀티모달 AI의 대표적인 응용 분야로는 이미지 캡션, 시각적 질문 답변, 감정 인식, 자율 주행 등이 있습니다.
- **멀티모달 AI의 장점은 무엇인가요?
멀티모달 AI는 견고성, 효율성, 상황 인식, 다양한 애플리케이션 영역, 인간과 컴퓨터의 상호작용 개선 등 여러 가지 장점이 있습니다.
관련 리소스
Milvus로 AI 앱 빌드하기: 튜토리얼 및 노트북](https://zilliz.com/learn/milvus-notebooks)