Alibaba / gte-base-en-v1.5
Milvus Integrated
Tarefa: Incorporação
Modalidade: Texto
Métrica de Similaridade: Cosseno
Licença: Apache 2.0
Dimensões: 768
Tokens Máximos de Entrada: 8192
Preço: Grátis
Introdução ao gte-base-pt-v1.5
O gte-base-en-v1.5 é o modelo de incorporação de base na série de modelos GTE (General Text Embeddings) desenvolvida pelo Instituto de Computação Inteligente da Alibaba. É ideal para a incorporação de texto em inglês e é construído com base na espinha dorsal do codificador transformer++ (BERT + RoPE + GLU).
Comparação entre gte-base-en-v1.5 e gte-large-en-v1.5:
| Caraterística | gte-base-en-v1.5 | gte-large-en-v1.5 |
|---|---|---|
| Tamanho do parâmetro | 137 milhões | 434 milhões |
| Dimensão de incorporação | 768 | 1024 |
| Comprimento máximo da sequência | 8192 | 8192 |
| Pontuação MTEB | 64.11 | 65.39 |
| Pontuação LoCo | 87.44 | 86.71 |
Como criar embeddings vectoriais com gte-base-en-v1.5
Existem duas formas principais de criar embeddings vectoriais:
- PyMilvus: o Python SDK para Milvus que integra perfeitamente o modelo
gte-base-en-v1.5. - Biblioteca SentenceTransformer: a biblioteca python do
sentence-transformer.
Uma vez gerados os vectores, estes podem ser armazenados na Zilliz Cloud (um serviço de base de dados vetorial totalmente gerido pela Milvus) e utilizados para pesquisa de similaridade semântica. Eis quatro passos fundamentais:
- Inscreva-se para obter uma conta Zilliz Cloud gratuitamente.
- Configurar um cluster sem servidor e obter o Ponto de extremidade público e chave de API.
- Crie uma coleção de vectores e insira os seus embeddings vectoriais.
- Execute uma pesquisa semântica nos embeddings armazenados.
Gerar embeddings vectoriais através do PyMilvus e inseri-los no Zilliz Cloud para pesquisa semântica
from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
from pymilvus import MilvusClient
ef = SentenceTransformerEmbeddingFunction("Alibaba-NLP/gte-base-en-v1.5", trust_remote_code=True)
docs = [
"A inteligência artificial foi fundada como disciplina académica em 1956",
"Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA",
"Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
# Gerar embeddings para os documentos
docs_embeddings = ef(docs)
consultas = ["Quando foi fundada a inteligência artificial",
"Onde nasceu Alan Turing?"]
# Gerar incorporações para consultas
consultas_embeddings = ef(consultas)
# Ligar ao Zilliz Cloud com o ponto de extremidade público e a chave da API
cliente = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
nome_da_colecção=COLLECTION,
dimension=ef.dim,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vetor": embedding})
resultados = cliente.search(
nome_da_colecção=COLLECTION,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Para mais informações, consulte a nossa PyMilvus Embedding Model documentation.
Gerar embeddings vectoriais através da biblioteca SentenceTransformer e inseri-los no Zilliz Cloud para pesquisa semântica
from sentence_transformers import SentenceTransformer
from pymilvus import MilvusClient
model = SentenceTransformer("Alibaba-NLP/gte-base-en-v1.5", trust_remote_code=True)
docs = [
"A inteligência artificial foi fundada como disciplina académica em 1956",
"Alan Turing foi a primeira pessoa a efetuar investigação substancial em IA",
"Nascido em Maida Vale, Londres, Turing foi criado no sul de Inglaterra."
]
# Gerar embeddings para documentos
docs_embeddings = model.encode(docs, normalize_embeddings=True)
consultas = ["consulta: Quando é que a inteligência artificial foi fundada",
"consulta: Wo wurde Alan Turing geboren?" ]
# Gerar embeddings para as consultas
consultas_embeddings = model.encode(consultas, normalize_embeddings=True)
# Ligar ao Zilliz Cloud com o ponto final público e a chave API
cliente = MilvusClient(
uri=ZILLIZ_PUBLIC_ENDPOINT,
token=ZILLIZ_API_KEY)
COLLECTION = "documents" (coleção)
if client.has_collection(nome_da_colecção=COLLECTION):
client.drop_collection(nome_da_colecção=COLLECTION)
client.create_collection(
nome_da_colecção=COLLECTION,
dimension=768,
auto_id=True)
for doc, embedding in zip(docs, docs_embeddings):
client.insert(COLLECTION, {"text": doc, "vetor": embedding})
resultados = cliente.search(
nome_da_colecção=COLLECTION,
data=query_embeddings,
consistency_level="Strong",
output_fields=["text"])
Para mais informações, consulte a SentenceTransformer documentation.
Fluxos de trabalho de IA sem interrupções
De embeddings a busca escalável de IA—Zilliz Cloud permite armazenar, indexar e recuperar embeddings com velocidade e eficiência incomparáveis.
Experimente o Zilliz Cloud grátis




