임베드 다국어-v3.0 모델 가이드

모든 모델
Cohere / embed-multilingual-v3.0

Cohere / embed-multilingual-v3.0

AI Model Milvus Integrated

작업: 임베딩

형태: 텍스트

유사성 측정법: 모두(정규화)

라이선스: 독점

차원: 1024

최대 입력 토큰: 512

가격: 0.10 / 100만 토큰

임베드 다국어-v3.0 소개

임베드-멀티언어-v3.0`은 다국어 텍스트에 특화된 고성능 임베딩 모델로, 코히어에서 새롭게 출시한 임베드 V3 모델 제품군에 속합니다. 100개 이상의 언어를 지원하며 한 언어 내 검색(예: 프랑스어 문서에서 프랑스어 쿼리로 검색) 및 언어 간 검색(예: 핀란드어 문서에서 중국어 쿼리로 검색)에 사용할 수 있습니다. 다국어 시맨틱 검색, 검색 증강 생성(RAG), 텍스트 분류 및 문서 클러스터링에 이상적입니다.

Embed V3 모델 시리즈 내의 모든 임베딩 모델 비교.


모델명	크기	MTEB 성능 (높을수록 좋음)	BEIR 성능 (높을수록 좋음)
embed-english-v3.0	1024	64.5	55.9
embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6
embed-multilingual-light-v3.0	384	60.1	50.9
embed-multilingual-v2.0	768	58.5	47.1

MTEB: 검색, 분류, 클러스터링을 평가하기 위한 광범위한 데이터 세트(56개 데이터 세트).
BEIR: 도메인 외부 검색에 초점을 맞춘 데이터 세트(14개 데이터 세트)*.

임베드-멀티언어-v3.0으로 벡터 임베딩을 만드는 방법

벡터 임베딩을 만드는 방법에는 크게 두 가지가 있습니다:

PyMilvus: embed-multilingual-v3.0 모델을 원활하게 통합하는 Milvus 용 Python SDK.
Cohere 파이썬 SDK: Cohere에서 제공하는 파이썬 SDK.

벡터 임베딩이 생성되면 밀버스에서 제공하는 완전 관리형 벡터 데이터베이스 서비스인 질리즈 클라우드에 저장하여 시맨틱 유사도 검색에 사용할 수 있습니다. 다음은 네 가지 주요 단계입니다:

질리즈 클라우드 계정을 무료로 가입합니다.
서버리스 클러스터 설정](https://docs.zilliz.com/docs/create-cluster#set-up-a-free-cluster) 및 퍼블릭 엔드포인트 및 API 키를 발급받습니다.
벡터 컬렉션을 생성하고 벡터 임베딩을 삽입합니다.
저장된 임베딩에 대해 시맨틱 검색을 실행합니다.

파이밀버스를 통해 벡터 임베딩을 생성하고 질리즈 클라우드에 삽입하여 시맨틱 검색을 진행합니다.

pymilvus.model.dense에서 CohereEmbeddingFunction을 가져옵니다.

COHERE_API_KEY = "your-cohere-api-key"
ef = CohereEmbeddingFunction("embed-multilingual-v3.0", api_key=COHERE_API_KEY)

docs = [
   "인공 지능은 1956년에 학문 분야로 설립되었습니다.",
   "앨런 튜링은 인공지능에 대해 실질적인 연구를 수행한 최초의 인물입니다.",
   "런던의 메이다 베일에서 태어난 튜링은 영국 남부에서 자랐습니다.", "앨런 튜링은 AI를 실질적으로 연구한 최초의 사람입니다."
]

# 문서에 대한 임베딩 생성
docs_embedings = ef.encode_documents(docs)

queries = ["인공 지능은 언제 설립되었나요?"],
          "앨런 튜링은 어디에서 태어났나요?"]

# 쿼리에 대한 임베딩 생성하기
쿼리_임베딩 = ef.encode_queries(쿼리)

# 퍼블릭 엔드포인트와 API 키로 질리즈 클라우드에 연결하기
client = 밀버스클라이언트(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

컬렉션 = "문서"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

문서의 경우 zip(docs, docs_embeddings)에 임베딩합니다:
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data = 쿼리_임베딩,
    일관성_레벨="강함",
    output_fields=["text"])

자세한 내용은 파이밀버스 임베딩 모델 문서를 참조하세요.

코히어 파이썬 SDK를 통해 벡터 임베딩을 생성하고 질리즈 클라우드에 삽입하여 시맨틱 검색을 합니다.

import cohere
pymilvus에서 MilvusClient를 가져옵니다.

COHERE_API_KEY = "your-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "인공 지능은 1956년에 학문 분야로 설립되었습니다.",
   "앨런 튜링은 인공지능에 대해 실질적인 연구를 수행한 최초의 인물입니다.",
   "런던의 메이다 베일에서 태어난 튜링은 영국 남부에서 자랐습니다.", "앨런 튜링은 AI를 실질적으로 연구한 최초의 사람입니다."
]

docs_embedings = co.embed(
    텍스트로=docs, 모델="embed-multilingual-v3.0", 입력 유형="검색_문서"
).embedings

queries = ["인공 지능은 언제 설립되었나요",
          "앨런 튜링은 어디에서 태어났나요?"]

쿼리_임베딩 = co.embed(
    텍츠=docs, 모델="embed-english-v3.0", 입력 유형="search_query"
).embedings

# 퍼블릭 엔드포인트와 API 키로 질리즈 클라우드에 연결하기
client = 밀버스클라이언트(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

컬렉션 = "문서"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=1024,
    auto_id=True)

문서의 경우 zip(docs, docs_embeddings)에 임베딩합니다:
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data = 쿼리_임베딩,
    일관성_레벨="강함",
    output_fields=["text"])