O guia do modelo embed-english-v3.0

Todos os modelos
Coesão / embed-english-v3.0

Coesão / embed-english-v3.0

AI Model Milvus Integrated

Tarefa: Incorporação

Modalidade: Texto

Métrica de Similaridade: Qualquer (Normalizado)

Licença: Proprietário

Dimensões: 1024

Tokens Máximos de Entrada: 512

Preço: $0.10 / 1M tokens

Introdução ao modelo embed-english-v3.0

O embed-english-v3.0 é um modelo de incorporação de alto desempenho adaptado para texto em inglês e é um membro da recém-lançada família de modelos Embed V3 da Cohere. É ideal para [pesquisa semântica] (https://zilliz.com/glossary/semantic-search), [geração aumentada de recuperação] (https://zilliz.com/learn/Retrieval-Augmented-Generation) (RAG), classificação de texto e agrupamento de documentos.

Comparação de todos os modelos de incorporação na série de modelos Embed V3.


Nome do modelo	Dimensões	Desempenho MTEB (maior é melhor)	Desempenho BEIR (maior é melhor)
embed-english-v3.0	1024	64.5	55.9
embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6
embed-multilingual-light-v3.0	384	60.1	50.9
embed-multilingual-v2.0	768	58.5	47.1

MTEB: Conjunto de dados alargado para avaliação de recuperações, classificação e agrupamento (56 conjuntos de dados)*
BEIR: Conjunto de dados centrado em recuperações fora do domínio (14 conjuntos de dados)

Como criar embeddings vectoriais com o modelo embed-english-v3.0

Há duas maneiras principais de usar o modelo embed-english-v3.0 para gerar embeddings vetoriais:

PyMilvus: o Python SDK para Milvus que integra perfeitamente o modelo embed-english-v3.0.
Cohere python SDK: o SDK python oferecido pela Cohere.

Uma vez gerados os embeddings vectoriais, estes podem ser armazenados no Zilliz Cloud (um serviço de base de dados vetorial totalmente gerido pela Milvus) e utilizados para pesquisa de semelhanças semânticas. Eis quatro passos fundamentais:

Inscreva-se para obter uma conta Zilliz Cloud gratuitamente.
Configurar um cluster sem servidor e obter o Ponto de extremidade público e chave de API.
Crie uma coleção de vectores e insira os seus embeddings vectoriais.
Execute uma pesquisa semântica nos embeddings armazenados.

Gerar embeddings vectoriais através do PyMilvus e inseri-los no Zilliz Cloud para pesquisa semântica

from pymilvus.model.dense import CohereEmbeddingFunction
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"

ef = CohereEmbeddingFunction("embed-english-v3.0", api_key=COHERE_API_KEY)

docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1956",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]

# Gerar embeddings para os documentos
docs_embeddings = ef.encode_documents(docs)

consultas = ["Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"]

# Gerar ligações para as consultas
consultas_embeddings = ef.encode_queries(consultas)

# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    cliente.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})
    
resultados = client.search(nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Para mais informações, consulte a nossa PyMilvus Embedding Model documentation.

Gerar embeddings vectoriais através do Cohere python SDK e inseri-los no Zilliz Cloud para pesquisa semântica

importar cohere
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1956",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]

docs_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_document"
).embeddings

consultas = ["Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"].

query_embeddings = co.embed(
    texts=docs, model="embed-english-v3.0", input_type="search_query"
).embeddings

# Ligar ao Zilliz Cloud com o ponto final público e a chave API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=CHAVE_API_ZILLIZ)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=1024,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})
    
resultados = cliente.search(
    nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])