Die Anleitung zu all-mpnet-base-v2

Alle Modelle
Gesicht umarmen / all-mpnet-base-v2

Gesicht umarmen / all-mpnet-base-v2

AI Model Milvus Integrated

Aufgabe: Einbettung

Modalität: Text

Ähnlichkeitsmetrik: Beliebig (normalisiert)

Lizenz: Apache 2.0

Dimensionen: 768

Maximale Eingabe-Tokens: 384

Preis: Kostenlos

Modellübersicht

Das Modell "all-mpnet-base-v2" ist ein Kodierer für Sätze und kurze Absätze, der den eingegebenen Text in einen 768-dimensionalen Vektor umwandelt. Es handelt sich um eine verfeinerte Version des microsoft/mpnet-base Modells, das auf einem Datensatz von 1 Milliarde Satzpaaren mit Hilfe eines kontrastiven Lernziels feinabgestimmt wurde. Das Modell "all-mpnet-base-v2" eignet sich perfekt für Aufgaben wie Information Retrieval, Clustering und Satzähnlichkeit.

Weitere Einzelheiten finden Sie in diesem Beitrag: [All-Mpnet-Base-V2: Verbesserung der Satzeinbettung durch KI] (https://zilliz.com/learn/all-mpnet-base-v2-enhancing-sentence-embedding-with-ai)

Wie man Einbettungen mit All-Mpnet-Base-V2 erstellt

Es gibt zwei primäre Möglichkeiten, Vektoreinbettungen zu erzeugen:

PyMilvus: das Python-SDK für Milvus, das das "all-mpnet-base-v2"-Modell nahtlos integriert.
SentenceTransformer-Bibliothek: die Python-Bibliothek Sentence-Transformer.

Sobald die Vektoreinbettungen erstellt sind, können sie in einer Vektordatenbank wie Zilliz Cloud (eine vollständig verwaltete Vektordatenbank von Milvus) gespeichert und für die semantische Ähnlichkeitssuche verwendet werden.

Dies sind die vier wichtigsten Schritte:

Registrieren Sie sich für ein kostenloses Zilliz Cloud-Konto.
Richten Sie einen serverlosen Cluster ein und erhalten Sie den Public Endpoint and API Key.
Erstellen Sie eine Vektorsammlung und fügen Sie Ihre Vektoreinbettungen ein.
Führen Sie eine semantische Suche nach den gespeicherten Einbettungen durch.

Einbettungen über PyMilvus erstellen und in die Zilliz Cloud für die semantische Suche einfügen

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
von pymilvus importieren MilvusClient

ef = SentenceTransformerEmbeddingFunction("sentence-transformers/all-mpnet-base-v2")

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die umfangreiche Forschungen im Bereich der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = ef(docs)

queries = ["Wann wurde die künstliche Intelligenz erfunden",
          "Wo wurde Alan Turing geboren?"]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = ef(abfragen)

# Verbindung zur Zilliz-Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

In dieser Dokumentation finden Sie weitere Details über PyMilvus-Integration mit all-mpnet-base-v2.

Erstellen Sie Einbettungen über die SentenceTransformer-Bibliothek und fügen Sie sie in Zilliz Cloud für die semantische Suche ein.

from sentence_transformers import SentenceTransformer
von pymilvus importieren MilvusClient

model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die umfangreiche Forschungen im Bereich der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = model.encode(docs, normalize_embeddings=True)


queries = ["Wann wurde die künstliche Intelligenz erfunden",
          "Wo wurde Alan Turing geboren?"]
# Einbettungen für Abfragen generieren
query_embeddings = model.encode(abfragen, normalize_embeddings=True)

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=768,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Lektüre

Auswahl des richtigen Einbettungsmodells für Ihre Daten
Evaluierung Ihres Einbettungsmodells
Trainieren Sie Ihr eigenes Texteinbettungsmodell
Anleitung zum Chunking und Einbetten von Webseiten für Ihre RAG-Anwendungen](https://zilliz.com/learn/beginner-guide-to-website-chunking-and-embedding-for-your-genai-applications)
Was ist RAG?](https://zilliz.com/learn/Retrieval-Augmented-Generation)

Inhalte

Nahtlose KI-Workflows

Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.

Zilliz Cloud kostenlos ausprobieren

Schätzen Sie schnell Ihre Embedding-Kosten

Modellübersicht

Wie man Einbettungen mit All-Mpnet-Base-V2 erstellt

Einbettungen über PyMilvus erstellen und in die Zilliz Cloud für die semantische Suche einfügen

Erstellen Sie Einbettungen über die SentenceTransformer-Bibliothek und fügen Sie sie in Zilliz Cloud für die semantische Suche ein.

Weitere Lektüre

Inhalte

Nahtlose KI-Workflows

Verwandte Ressourcen

Evaluierung Ihres Einbettungsmodells

Trainieren Sie Ihr eigenes Texteinbettungsmodell

Erstellen von AI-Anwendungen mit Retrieval Augmented Generation (RAG)