Der Leitfaden zu gte-base-de-v1.5

Alle Modelle
Alibaba / gte-base-en-v1.5

Alibaba / gte-base-en-v1.5

AI Model Milvus Integrated

Aufgabe: Einbettung

Modalität: Text

Ähnlichkeitsmetrik: Kosinus

Lizenz: Apache 2.0

Dimensionen: 768

Maximale Eingabe-Tokens: 8192

Preis: Kostenlos

Einführung in gte-base-de-v1.5

gte-base-de-v1.5" ist das Basis-Einbettungsmodell der GTE (General Text Embeddings)-Modellreihe, die vom Alibaba-Institut für intelligente Datenverarbeitung entwickelt wurde. Es ist ideal für die Einbettung von englischem Text und basiert auf dem transformer++ Encoder-Backbone (BERT + RoPE + GLU).

Vergleich von gte-base-de-v1.5 und gte-large-de-v1.5:

Merkmal	gte-base-en-v1.5	gte-large-en-v1.5
Parametergröße	137 Millionen	434 Millionen
Einbettungsdimension	768	1024
Maximale Sequenzlänge	8192	8192
MTEB-Bewertung	64.11	65.39
LoCo Score	87.44	86.71

So erstellen Sie Vektoreinbettungen mit gte-base-de-v1.5

Es gibt zwei Hauptwege, um Vektoreinbettungen zu erstellen:

PyMilvus: das Python-SDK für Milvus, das das Modell "gte-base-de-v1.5" nahtlos integriert.
SentenceTransformer-Bibliothek: die Python-Bibliothek des Sentence-Transformers.

Sobald die Vektoreinbettungen generiert sind, können sie in der Zilliz Cloud (einem vollständig verwalteten Vektor-Datenbankdienst, der von Milvus betrieben wird) gespeichert und für die semantische Ähnlichkeitssuche verwendet werden. Dies sind die vier wichtigsten Schritte:

Anmelden für ein kostenloses Zilliz Cloud-Konto.
Richten Sie einen serverlosen Cluster ein und erhalten Sie den Public Endpoint and API Key.
Erstellen Sie eine Vektorsammlung und fügen Sie Ihre Vektoreinbettungen ein.
Lassen Sie eine semantische Suche auf den gespeicherten Einbettungen laufen.

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
von pymilvus importieren MilvusClient

ef = SentenceTransformerEmbeddingFunction("Alibaba-NLP/gte-base-de-v1.5", trust_remote_code=True)

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die umfangreiche Forschungen auf dem Gebiet der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = ef(docs)

queries = ["Wann wurde die künstliche Intelligenz erfunden",
          "Wo wurde Alan Turing geboren?"]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = ef(abfragen)

# Verbindung zur Zilliz-Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in unserer PyMilvus Embedding Model Dokumentation.

Generieren Sie Vektoreinbettungen mit der SentenceTransformer-Bibliothek und fügen Sie sie in die Zilliz-Cloud für die semantische Suche ein.

from sentence_transformers import SentenceTransformer
von pymilvus importieren MilvusClient

model = SentenceTransformer("Alibaba-NLP/gte-base-de-v1.5", trust_remote_code=True)

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die umfangreiche Forschungen auf dem Gebiet der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = model.encode(docs, normalize_embeddings=True)

queries = ["query: Wann wurde die künstliche Intelligenz gegründet",
           "query: Wo wurde Alan Turing geboren?" ]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = model.encode(abfragen, normalize_einbettungen=True)

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=768,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in der SentenceTransformer-Dokumentation.

Inhalte

Nahtlose KI-Workflows

Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.

Zilliz Cloud kostenlos ausprobieren

Schätzen Sie schnell Ihre Embedding-Kosten

Einführung in gte-base-de-v1.5

So erstellen Sie Vektoreinbettungen mit gte-base-de-v1.5

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

Generieren Sie Vektoreinbettungen mit der SentenceTransformer-Bibliothek und fügen Sie sie in die Zilliz-Cloud für die semantische Suche ein.

Inhalte

Nahtlose KI-Workflows

Verwandte Ressourcen

Evaluierung Ihres Einbettungsmodells

Trainieren Sie Ihr eigenes Texteinbettungsmodell

Erstellen von AI-Anwendungen mit Retrieval Augmented Generation (RAG)