Die Anleitung zu jina-embeddings-v2-base-de

Alle Modelle
Jina AI / jina-embeddings-v2-base-en

Jina AI / jina-embeddings-v2-base-en

AI Model Milvus Integrated

Aufgabe: Einbettung

Modalität: Text

Ähnlichkeitsmetrik: Beliebig (normalisiert)

Lizenz: Apache 2.0

Dimensionen: 768

Maximale Eingabe-Tokens: 8192

Preis: Kostenlos

Einführung in Jina Embedding v2 Modelle

Jina Embeddings v2-Modelle sind für lange Dokumente mit einer erweiterten maximalen Eingabegröße von 8.192 Token ausgelegt. Ab Oktober 2024 gibt es die folgenden Varianten von Jina AI Embedding V2, die jeweils auf unterschiedliche Einbettungsanforderungen zugeschnitten sind:

Einführung in jina-embeddings-v2-base-de

jina-embeddings-v2-base-de ist ein englisches einsprachiges Einbettungsmodell für eine Sequenzlänge von bis zu 8192 Token. Es ist die mittlere oder Basisvariante der Jina-Embeddings-v2-Familie, die mit 137 Millionen Parametern trainiert wurde und 768-dimensionale Einbettungen erzeugt.

Vergleich von jina-embeddings-v2-small-de mit anderen Jina-Einbettungsmodellen.

Modell	Parametergröße	Einbettungsdimension	Text
jina-embeddings-v3	570M	flexible Einbettungsgröße (Standard: 1024)	mehrsprachige Texteinbettungen; unterstützt insgesamt 94 Sprachen
jina-embeddings-v2-small-de	33M	512	englische einsprachige Einbettungen
jina-embeddings-v2-base-de	137M	768	Englische einsprachige Einbettungen
jina-embeddings-v2-base-zh	161M	768	Chinesisch-Englisch zweisprachige Einbettungen
jina-embeddings-v2-base-de	161M	768	Deutsch-Englisch Zweisprachige Einbettungen
jina-embeddings-v2-base-code	161M	768	Englisch und Programmiersprachen

Wie man Einbettungen mit jina-embeddings-v2-base-de erstellt

Es gibt zwei primäre Möglichkeiten, das Modell "jina-embeddings-v2-base-de" zur Erzeugung von Vektoreinbettungen zu verwenden:

PyMilvus: das Python SDK für Milvus, das das jina-embeddings-v2-base-de Modell nahtlos integriert.
SentenceTransformer-Bibliothek: die Python-Bibliothek sentence-transformer.

Generiert Vektoreinbettungen über PyMilvus und fügt sie in die Zilliz Cloud für die semantische Suche ein

from pymilvus.model.dense import SentenceTransformerEmbeddingFunction
von pymilvus importieren MilvusClient

ef = SentenceTransformerEmbeddingFunction("jinaai/jina-embeddings-v2-base-de", trust_remote_code=True)

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die substantielle Forschungen im Bereich der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = ef(docs)

queries = ["Wann wurde die künstliche Intelligenz erfunden",
          "Wo wurde Alan Turing geboren?"]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = ef(abfragen)

# Verbindung zur Zilliz-Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in unserer PyMilvus Embedding Model Dokumentation.

Erzeugen von Vektoreinbettungen mittels SentenceTransformer und Einfügen in die Zilliz Cloud für die semantische Suche

from sentence_transformers import SentenceTransformer
von pymilvus importieren MilvusClient

model = SentenceTransformer("jinaai/jina-embeddings-v2-base-de", trust_remote_code=True)

docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die substantielle Forschungen im Bereich der KI durchführte.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
]
# Einbettungen für Dokumente generieren
docs_embeddings = model.encode(docs, normalize_embeddings=True)

queries = ["query: Wann wurde die künstliche Intelligenz gegründet",
           "query: Wo wurde Alan Turing geboren?" ]
# Einbettungen für Abfragen generieren
abfrage_einbettungen = model.encode(abfragen, normalize_einbettungen=True)

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=768,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in der SentenceTransformer-Dokumentation.

Inhalte

Nahtlose KI-Workflows

Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.

Zilliz Cloud kostenlos ausprobieren

Schätzen Sie schnell Ihre Embedding-Kosten

Einführung in Jina Embedding v2 Modelle

Einführung in jina-embeddings-v2-base-de

Wie man Einbettungen mit jina-embeddings-v2-base-de erstellt

Generiert Vektoreinbettungen über PyMilvus und fügt sie in die Zilliz Cloud für die semantische Suche ein

Erzeugen von Vektoreinbettungen mittels SentenceTransformer und Einfügen in die Zilliz Cloud für die semantische Suche

Inhalte

Nahtlose KI-Workflows

Verwandte Ressourcen

Evaluierung Ihres Einbettungsmodells

Trainieren Sie Ihr eigenes Texteinbettungsmodell

Erstellen von AI-Anwendungen mit Retrieval Augmented Generation (RAG)