O guia para embed-english-light-v3.0

Todos os modelos
Coesão / embed-english-light-v3.0

Coesão / embed-english-light-v3.0

AI Model Milvus Integrated

Tarefa: Incorporação

Modalidade: Texto

Métrica de Similaridade: Qualquer (Normalizado)

Licença: Proprietário

Dimensões: 384

Tokens Máximos de Entrada: 512

Preço: $0.10 / 1M tokens

Introdução ao embed-english-light-v3.0

O embed-english-light-v3.0 é uma versão menor e mais rápida do embed-english-v3.0. Quase tão capaz, mas muito mais rápida. Adaptado para textos em inglês.

Comparação de todos os modelos de incorporação da série de modelos Embed V3.

Nome do modelo	Dimensões	Desempenho do MTEB (quanto maior, melhor)	Desempenho do BEIR (quanto maior, melhor)
embed-english-v3.0	1024	64.5	55.9
embed-english-light-3.0	384	62.0	52.0
embed-multilingual-v3.0	1024	64.0	54.6
embed-multilingual-light-v3.0	384	60.1	50.9
embed-multilingual-v2.0	768	58.5	47.1

MTEB: Conjunto de dados alargado para avaliação de recuperações, classificação e agrupamento (56 conjuntos de dados)
BEIR: Conjunto de dados centrado em recuperações fora do domínio (14 conjuntos de dados)

Como criar embeddings vectoriais com o embed-english-light-v3.0

Existem duas formas principais de gerar embeddings vectoriais:

PyMilvus: o Python SDK para Milvus que integra perfeitamente o modelo embed-english-light-v3.0.
Cohere Python SDK: o SDK python oferecido pela Cohere.

Uma vez gerados os embeddings vectoriais, estes podem ser armazenados no Zilliz Cloud (um serviço de base de dados vetorial totalmente gerido pela Milvus) e utilizados para pesquisa de semelhanças semânticas. Eis quatro passos fundamentais:

Inscreva-se para obter uma conta Zilliz Cloud gratuitamente.
Configurar um cluster sem servidor e obter o Ponto de extremidade público e chave de API.
Crie uma coleção de vectores e insira os seus embeddings vectoriais.
Execute uma pesquisa semântica nos embeddings armazenados.

Gerar embeddings vectoriais via PyMilvus e inseri-los no Zilliz Cloud para pesquisa de similaridade

from pymilvus.model.dense import CohereEmbeddingFunction
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"

ef = CohereEmbeddingFunction("embed-english-light-v3.0", api_key=COHERE_API_KEY)

docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1956",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
# Gerar embeddings para os documentos
docs_embeddings = ef.encode_documents(docs)

consultas = [ "Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"]
# Gerar ligações para as consultas
consultas_embeddings = ef.encode_queries(queries)

# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})
    
resultados = client.search(nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Consulte a nossa PyMilvus Embedding Model documentation para um guia passo-a-passo.

Gerar embeddings vectoriais através do Cohere python SDK e inseri-los no Zilliz Cloud para pesquisa de similaridade

importar cohere
from pymilvus import MilvusClient

COHERE_API_KEY = "your-cohere-api-key"
co = cohere.Client(COHERE_API_KEY)

docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1956",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]

docs_embeddings = co.embed(
    texts=docs, model="embed-english-light-v3.0", input_type="search_document"
).embeddings

consultas = ["Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"].

consultas_embeddings = co.embed(
    texts=docs, model="embed-english-light-v3.0", input_type="search_query"
).embeddings

# Ligar ao Zilliz Cloud com o ponto final público e a chave API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=CHAVE_API_ZILLIZ)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=384,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})
    
resultados = cliente.search(
    nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])