La guida a gte-base-en-v1.5

Tutti i modelli
Alibaba / gte-base-en-v1.5

Alibaba / gte-base-en-v1.5

AI Model Milvus Integrated

Compito: Incorporazione

Modalità: Testo

Metrica di Similarità: Coseno

Licenza: Apache 2.0

Dimensioni: 768

Token di Input Massimi: 8192

Prezzo: Gratuito

Introduzione a gte-base-it-v1.5

gte-base-en-v1.5" è il modello di embedding di base della serie di modelli GTE (General Text Embeddings) sviluppati dall'Alibaba's Institute for Intelligent Computing. È ideale per l'incorporazione di testo inglese e si basa sulla struttura portante del codificatore transformer++ (BERT + RoPE + GLU).

Confronto tra gte-base-en-v1.5 e gte-large-en-v1.5:

Feature	gte-base-en-v1.5	gte-large-en-v1.5
Dimensione dei parametri	137 milioni	434 milioni
Dimensione di incorporazione	768	1024
Lunghezza massima della sequenza	8192	8192
Punteggio MTEB	64,11	65,39
Punteggio LoCo	87,44	86,71

Come creare embeddings vettoriali con gte-base-en-v1.5

Esistono due modi principali per creare incorporazioni vettoriali:

PyMilvus: l'SDK Python per Milvus che integra perfettamente il modello gte-base-en-v1.5.
SentenceTransformer: la libreria python di sentence-transformer.

Una volta generate le incorporazioni vettoriali, queste possono essere archiviate in Zilliz Cloud (un servizio di database vettoriale completamente gestito da Milvus) e utilizzate per la ricerca di similarità semantica. Ecco i quattro passaggi chiave:

Iscriviti per un account Zilliz Cloud gratuito.
Configurare un cluster serverless e ottenere il Public Endpoint and API Key.
Creare una collezione di vettori e inserire i propri embeddings vettoriali.
Eseguire una ricerca semantica sugli embeddings memorizzati.

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

da pymilvus.model.dense import SentenceTransformerEmbeddingFunction
da pymilvus import MilvusClient

ef = SentenceTransformerEmbeddingFunction("Alibaba-NLP/gte-base-en-v1.5", trust_remote_code=True)

docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
# Generare le incorporazioni per i documenti
docs_embeddings = ef(docs)

queries = ["Quando è stata fondata l'intelligenza artificiale",
          "Dove è nato Alan Turing?"]
# Generare embeddings per le query
query_embeddings = ef(queries)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=ef.dim,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare la nostra [documentazione sul modello di inclusione di PyMilvus] (https://milvus.io/docs/embeddings.md).

Generare embeddings vettoriali tramite la libreria SentenceTransformer e inserirli in Zilliz Cloud per la ricerca semantica

da sentence_transformers importare SentenceTransformer
da pymilvus import MilvusClient

model = SentenceTransformer("Alibaba-NLP/gte-base-it-v1.5", trust_remote_code=True)

docs = [
   "L'intelligenza artificiale è stata fondata come disciplina accademica nel 1956",
   "Alan Turing è stato il primo a condurre una ricerca sostanziale sull'intelligenza artificiale",
   "Nato a Maida Vale, Londra, Turing è cresciuto nel sud dell'Inghilterra".
]
# Generare le incorporazioni per i documenti
docs_embeddings = model.encode(docs, normalize_embeddings=True)

query = ["query: Quando è stata fondata l'intelligenza artificiale",
           "query: Wo wurde Alan Turing geboren?" ]
# Generare le incorporazioni per le query
query_embeddings = model.encode(queries, normalize_embeddings=True)

# Connettersi a Zilliz Cloud con l'endpoint pubblico e la chiave API
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLEZIONE = "documenti"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(nome_raccolta=COLLEZIONE)
client.create_collection(
    nome_collezione=COLLEZIONE,
    dimensione=768,
    auto_id=True)

per doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
risultati = client.search(
    nome_collezione=COLLEZIONE,
    dati=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Per ulteriori informazioni, consultare SentenceTransformer documentation.

Contenuto

Flussi di lavoro AI senza interruzioni

Dalle embedding alla ricerca AI scalabile—Zilliz Cloud ti consente di memorizzare, indicizzare e recuperare embedding con velocità e efficienza senza pari.

Prova Zilliz Cloud gratuitamente

Stima rapidamente il costo delle tue embedding

Introduzione a gte-base-it-v1.5

Come creare embeddings vettoriali con gte-base-en-v1.5

Generare embeddings vettoriali tramite PyMilvus e inserirli in Zilliz Cloud per la ricerca semantica.

Generare embeddings vettoriali tramite la libreria SentenceTransformer e inserirli in Zilliz Cloud per la ricerca semantica

Contenuto

Flussi di lavoro AI senza interruzioni

Risorse Correlate

Valutazione del modello di incorporazione

Addestrare il proprio modello di incorporazione del testo

Costruire applicazioni di intelligenza artificiale con la RAG (Retrieval Augmented Generation)