BAAI / bge-base-en-v1.5
Milvus Integrated
Tarefa: Incorporação
Modalidade: Texto
Métrica de Similaridade: Qualquer (Normalizado)
Licença: Apache 2.0
Dimensões: 768
Tokens Máximos de Entrada: 512
Preço: Grátis
Introdução ao bge-base-pt-v1.5
O bge-base-pt-v1.5 é um modelo BAAI general embedding (BGE) que transforma qualquer texto em inglês num vetor compacto.
Compare bge-base-en-v1.5 com outros modelos populares de BGE:
| Modelo | Dimensões | Max Tokens | MTEB avg |
|---|---|---|---|
| bge-large-en-v1.5 | 1024 | 512 | 64.23 |
| bge-large-en | 1024 | 512 | 63.98 |
| bge-base-pt-v1.5 | 768 | 512 | 63.55 |
| bge-base-pt | 768 | 512 | 63.36 |
| bge-small-en-v1.5 | 384 | 512 | 62.17 |
| bge-small-en | 384 | 512 | 62.11 |
Como criar embeddings com bge-base-en-v1.5
Existem duas formas principais de criar embeddings vectoriais:
- PyMilvus: o SDK Python para Milvus que integra perfeitamente o
bge-base-en-v1.5. - FlagEmbedding: o SDK Python oficial oferecido pela BAAI.
Estes métodos permitem aos programadores incorporar facilmente capacidades avançadas de incorporação de texto nas suas aplicações.
Uma vez gerados os embeddings vectoriais, podem ser armazenados em Zilliz Cloud (um serviço de base de dados vetorial totalmente gerido por Milvus) e utilizados para pesquisa de similaridade semântica. Eis quatro passos fundamentais:
- Inscrever-se para obter uma conta Zilliz Cloud gratuitamente.
- Configurar um cluster sem servidor e obter o Ponto de extremidade público e chave de API.
- Crie uma coleção de vectores e insira os seus embeddings vectoriais.
- Execute uma pesquisa semântica nos embeddings armazenados.
Gerar embeddings vectoriais através do PyMilvus e inseri-los no Zilliz Cloud para pesquisa semântica
from pymilvus import model, MilvusClient
ef = model.dense.SentenceTransformerEmbeddingFunction(
nome_do_modelo="BAAI/bge-base-en-v1.5",
device="cpu",
query_instruction="Representar esta frase para procurar passagens relevantes:"
)
# Gerar embeddings para documentos
docs = [
"A inteligência artificial foi fundada como disciplina académica em 1956",
"Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
"Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
docs_embeddings = ef.encode_documents(docs)
# Gerar embeddings para consultas
consultas = ["Quando foi fundada a inteligência artificial",
"Onde nasceu Alan Turing?"]
consultas_embeddings = ef.encode_queries(queries)
# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
nome_da_colecção=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vetor": embedding})
resultados = cliente.search(
nome_da_colecção=COLLECTION,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Para mais informações, consulte a nossa PyMilvus Embedding Model documentation.
Gerar embeddings vectoriais através da biblioteca FlagEmbedding Python e inseri-los no Zilliz Cloud para pesquisa semântica
from FlagEmbedding import FlagModel
from pymilvus import MilvusClient
model = FlagModel("BAAI/bge-base-en-v1.5",
query_instruction_for_retrieval="Representar esta frase para procurar passagens relevantes:",
use_fp16=False)
# Gerar embeddings para documentos
docs = [
"A inteligência artificial foi fundada como disciplina académica em 1958",
"Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA.",
"Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
docs_embeddings = model.encode(docs)
# Gerar registos para as consultas
consultas = ["Quando foi fundada a inteligência artificial",
"Onde nasceu Alan Turing?"]
consultas_embeddings = model.encode_queries(queries)
# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
nome_da_colecção=COLLECTION,
dimension=768,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vetor": embedding})
resultados = cliente.search(
nome_da_colecção=COLLECTION,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Para mais informações, consulte a página de modelo sobre HuggingFace.
Fluxos de trabalho de IA sem interrupções
De embeddings a busca escalável de IA—Zilliz Cloud permite armazenar, indexar e recuperar embeddings com velocidade e eficiência incomparáveis.
Experimente o Zilliz Cloud grátis




