O guia para bge-base-en-v1.5

Todos os modelos
BAAI / bge-base-en-v1.5

BAAI / bge-base-en-v1.5

AI Model Milvus Integrated

Tarefa: Incorporação

Modalidade: Texto

Métrica de Similaridade: Qualquer (Normalizado)

Licença: Apache 2.0

Dimensões: 768

Tokens Máximos de Entrada: 512

Preço: Grátis

Introdução ao bge-base-pt-v1.5

O bge-base-pt-v1.5 é um modelo BAAI general embedding (BGE) que transforma qualquer texto em inglês num vetor compacto.

Compare bge-base-en-v1.5 com outros modelos populares de BGE:

Modelo	Dimensões	Max Tokens	MTEB avg
bge-large-en-v1.5	1024	512	64.23
bge-large-en	1024	512	63.98
bge-base-pt-v1.5	768	512	63.55
bge-base-pt	768	512	63.36
bge-small-en-v1.5	384	512	62.17
bge-small-en	384	512	62.11

Como criar embeddings com bge-base-en-v1.5

Existem duas formas principais de criar embeddings vectoriais:

PyMilvus: o SDK Python para Milvus que integra perfeitamente o bge-base-en-v1.5.
FlagEmbedding: o SDK Python oficial oferecido pela BAAI.

Estes métodos permitem aos programadores incorporar facilmente capacidades avançadas de incorporação de texto nas suas aplicações.

Uma vez gerados os embeddings vectoriais, podem ser armazenados em Zilliz Cloud (um serviço de base de dados vetorial totalmente gerido por Milvus) e utilizados para pesquisa de similaridade semântica. Eis quatro passos fundamentais:

Inscrever-se para obter uma conta Zilliz Cloud gratuitamente.
Configurar um cluster sem servidor e obter o Ponto de extremidade público e chave de API.
Crie uma coleção de vectores e insira os seus embeddings vectoriais.
Execute uma pesquisa semântica nos embeddings armazenados.

Gerar embeddings vectoriais através do PyMilvus e inseri-los no Zilliz Cloud para pesquisa semântica

from pymilvus import model, MilvusClient

ef = model.dense.SentenceTransformerEmbeddingFunction(
   nome_do_modelo="BAAI/bge-base-en-v1.5",
   device="cpu",
   query_instruction="Representar esta frase para procurar passagens relevantes:"
   )

# Gerar embeddings para documentos
docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1956",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]

docs_embeddings = ef.encode_documents(docs)

# Gerar embeddings para consultas
consultas = ["Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"]

consultas_embeddings = ef.encode_queries(queries)

# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})
    
resultados = cliente.search(
    nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Para mais informações, consulte a nossa PyMilvus Embedding Model documentation.

Gerar embeddings vectoriais através da biblioteca FlagEmbedding Python e inseri-los no Zilliz Cloud para pesquisa semântica

from FlagEmbedding import FlagModel
from pymilvus import MilvusClient

model = FlagModel("BAAI/bge-base-en-v1.5",
                  query_instruction_for_retrieval="Representar esta frase para procurar passagens relevantes:",
                  use_fp16=False)

# Gerar embeddings para documentos
docs = [
   "A inteligência artificial foi fundada como disciplina académica em 1958",
   "Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
   "Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
docs_embeddings = model.encode(docs)

# Gerar registos para as consultas
consultas = ["Quando foi fundada a inteligência artificial",
          "Onde nasceu Alan Turing?"]
consultas_embeddings = model.encode_queries(queries)

# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
    client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
    nome_da_colecção=COLLECTION,
    dimension=768,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vetor": embedding})

resultados = cliente.search(
    nome_da_colecção=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])