La guida a bge-base-en-v1.5

Tutti i modelli
BAAI / bge-base-en-v1.5

BAAI / bge-base-en-v1.5

AI Model Milvus Integrated

Compito: Incorporazione

Modalità: Testo

Metrica di Similarità: Qualsiasi (normalizzato)

Licenza: Apache 2.0

Dimensioni: 768

Token di Input Massimi: 512

Prezzo: Gratuito

Introduzione a bge-base-en-v1.5

bge-base-en-v1.5 è un modello di incorporazione generale BAAI (BGE) che trasforma qualsiasi testo inglese in un vettore compatto.

Confronta bge-base-en-v1.5 con altri modelli BGE popolari:

Modello	Dimensioni	Max Tokens	MTEB avg
bge-large-en-v1.5	1024	512	64.23
bge-large-en	1024	512	63,98
bge-base-en-v1.5	768	512	63.55
bge-base-en	768	512	63,36
bge-small-en-v1.5	384	512	62,17
bge-small-en	384	512	62,11

Come creare embeddings con bge-base-en-v1.5

Esistono due modi principali per creare incorporazioni vettoriali:

PyMilvus: l'SDK Python per Milvus che integra perfettamente la bge-base-en-v1.5.
FlagEmbedding: l'SDK Python ufficiale offerto da BAAI.

Questi metodi consentono agli sviluppatori di incorporare facilmente capacità avanzate di incorporazione del testo nelle loro applicazioni.

Una volta generate le incorporazioni vettoriali, queste possono essere archiviate in Zilliz Cloud (un servizio di database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica. Ecco i quattro passaggi chiave:

Iscriviti per un account Zilliz Cloud gratuito.
Configurare un cluster serverless e ottenere il Public Endpoint and API Key.
Creare una collezione di vettori e inserire gli embeddings vettoriali.
Eseguire una ricerca semantica sugli embeddings memorizzati.

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

da pymilvus import model, MilvusClient

ef = model.dense.SentenceTransformerEmbeddingFunction(
   model_name="BAAI/bge-base-en-v1.5",
   device="cpu",
   query_instruction="Rappresenta questa frase per cercare passaggi rilevanti:"
   )

# Generare le incorporazioni per i documenti
docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]

docs_embeddings = ef.encode_documents(docs)

# Generare embeddings per le query
query = ["Quando è stata fondata l'intelligenza artificiale",
          "Dove è nato Alan Turing?"]

query_embeddings = ef.encode_queries(queries)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=ef.dim,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare la nostra [documentazione sul modello di inclusione di PyMilvus] (https://milvus.io/docs/embeddings.md).

Generare embeddings vettoriali tramite la libreria Python FlagEmbedding e inserirli in Zilliz Cloud per la ricerca semantica

da FlagEmbedding import FlagModel
da pymilvus import MilvusClient

model = FlagModel("BAAI/bge-base-en-v1.5",
                  query_instruction_for_retrieval="Rappresenta questa frase per la ricerca di passaggi rilevanti:",
                  use_fp16=False)

# Generare le incorporazioni per i documenti
docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1958",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
docs_embeddings = model.encode(docs)

# Generare embeddings per le query
query = ["Quando è stata fondata l'intelligenza artificiale",
          "Dove è nato Alan Turing?"]
query_embeddings = model.encode_queries(queries)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=768,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})

risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare la pagina del modello su HuggingFace.

Contenuto

Flussi di lavoro AI senza interruzioni

Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Stima rapidamente il costo delle tue embedding

Introduzione a bge-base-en-v1.5

Come creare embeddings con bge-base-en-v1.5

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

Generare embeddings vettoriali tramite la libreria Python FlagEmbedding e inserirli in Zilliz Cloud per la ricerca semantica

Contenuto

Flussi di lavoro AI senza interruzioni

Condividi questo articolo

Risorse Correlate

Valutazione del modello di incorporazione

Addestrare il proprio modello di incorporazione del testo

Costruire applicazioni di intelligenza artificiale con la RAG (Retrieval Augmented Generation)