Der Leitfaden für das mehrsprachige Modell e5-large

Alle Modelle
Microsoft / multilingual-e5-large

Microsoft / multilingual-e5-large

AI Model Milvus Integrated

Aufgabe: Einbettung

Modalität: Text

Ähnlichkeitsmetrik: Beliebig (normalisiert)

Lizenz: Mit

Dimensionen: 1024

Maximale Eingabe-Tokens: 512

Preis: Kostenlos

Einführung in das multilingual-e5-large Einbettungsmodell

Maßgeschneidert für mehrsprachige Dokumente; unterstützt mehr als 100 Sprachen; ideal für mehrsprachige Information Retrieval und semantische Suche Aufgaben.

Das Modell "multilingual-e5-large" ist ein hochmodernes Texteinbettungsmodell, das von Microsoft auf der Grundlage der XLM-RoBERTa-large-Architektur entwickelt wurde. Mit seiner 24-Schichten-Struktur und 560 Millionen Parametern generiert das Modell "multilingual-e5-large" 1024-dimensionale Einbettungen und unterstützt 100 Sprachen, wodurch es auch in mehrsprachigen Kontexten eine robuste Leistung bietet.

Das Modell wurde auf eine Milliarde schwach überwachter Textpaare trainiert und auf spezifische Datensätze abgestimmt und zeichnet sich durch mehrsprachige Information Retrieval- und semantische Suchaufgaben aus. Es verarbeitet Texteingaben mit dem Präfix "query:" oder "passage:", um Einbettungen zu erstellen, die den semantischen Inhalt genau wiedergeben. Dieses Modell zeigt eine überragende Leistung in mehrsprachigen Benchmarks und übertrifft kleinere Modelle und traditionelle Methoden, was es ideal für sprachübergreifende Textanalyse, Clustering und Ähnlichkeitsvergleiche macht.

So erstellen Sie Vektoreinbettungen mit dem Modell multilingual-e5-large

Es gibt zwei primäre Möglichkeiten, Vektoreinbettungen mit dem Modell "multilingual-e5-large" zu erstellen:

PyMilvus: das Python SDK für Milvus, das sich nahtlos in das multilingual-e5-large Modell integriert.
SentenceTransformer-Bibliothek: die Python-Bibliothek von sentence-transformer.

Sobald die Vektoreinbettungen generiert sind, können sie in der Zilliz Cloud (ein vollständig verwalteter Vektordatenbankdienst, der von Milvus betrieben wird) gespeichert und für die [semantische Ähnlichkeitssuche] (https://zilliz.com/glossary/semantic-search) verwendet werden. Dies sind die vier wichtigsten Schritte:

Anmelden für ein kostenloses Zilliz Cloud-Konto.
Richten Sie einen serverlosen Cluster ein und erhalten Sie den Public Endpoint and API Key.
Erstellen Sie eine Vektorsammlung und fügen Sie Ihre Vektoreinbettungen ein.
Lassen Sie eine semantische Suche auf den gespeicherten Einbettungen laufen.

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
von pymilvus importieren MilvusClient

ef = SentenceTransformerEmbeddingFunction("intfloat/multilingual-e5-large")
    
docs = [
   "passage: Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "passage: Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.",
   "passage: 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。"
]
    
# Einbettungen für Dokumente generieren
docs_embeddings = ef(docs)
    
queries = ["query: Wann wurde die künstliche Intelligenz gegründet",
           "Abfrage: Wo wurde Alan Turing geboren?"]
               
# Einbettungen für Abfragen generieren
abfrage_einbettungen = ef(abfragen)

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in unserer PyMilvus Embedding Model Dokumentation.

Vektoreinbettungen über SentenceTransformer generieren und in die Zilliz Cloud für die semantische Suche einfügen

from sentence_transformers import SentenceTransformer
von pymilvus importieren MilvusClient

model = SentenceTransformer("intfloat/multilingual-e5-large")

docs = [
   "Passage: Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "passage: Alan Turing war die erste Person, die umfassende Forschungen im Bereich der künstlichen Intelligenz durchgeführt hat.",
   "passage: 图灵出生在伦敦的梅达维尔，他在英格兰南部长大。"
]
# Einbettungen für Dokumente generieren
docs_embeddings = model.encode(docs, normalize_embeddings=True)

queries = ["query: Wann wurde die künstliche Intelligenz gegründet",
           "query: Wo wurde Alan Turing geboren?" ]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = model.encode(abfragen, normalize_einbettungen=True)

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=1024,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in der SentenceTransformer documentation.

Inhalte

Nahtlose KI-Workflows

Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.

Zilliz Cloud kostenlos ausprobieren

Schätzen Sie schnell Ihre Embedding-Kosten

Einführung in das multilingual-e5-large Einbettungsmodell

So erstellen Sie Vektoreinbettungen mit dem Modell multilingual-e5-large

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

Vektoreinbettungen über SentenceTransformer generieren und in die Zilliz Cloud für die semantische Suche einfügen

Inhalte

Nahtlose KI-Workflows

Verwandte Ressourcen

Evaluierung Ihres Einbettungsmodells

Trainieren Sie Ihr eigenes Texteinbettungsmodell

Erstellen von AI-Anwendungen mit Retrieval Augmented Generation (RAG)