Die Anleitung zur Texteinbettung-3-klein

Alle Modelle
OpenAI / text-embedding-3-small

OpenAI / text-embedding-3-small

AI Model Milvus & Zilliz Cloud Integrated

Aufgabe: Einbettung

Modalität: Text

Ähnlichkeitsmetrik: Beliebig (normalisiert)

Lizenz: Proprietär

Dimensionen: 1536

Maximale Eingabe-Tokens: 8191

Preis: 0,02 $/1M Token

Einführung in text-embedding-3-small

text-embedding-3-small" ist das kleine Texteinbettungsmodell von OpenAI, das Einbettungen mit 1536 Dimensionen erzeugt. Im Vergleich zu OpenAIs anderen Text-Einbettungsmodellen, wie text-embedding-ada-002 und text-embedding-3-large, ist text-embedding-3-small das kostengünstigste Modell mit verbesserter Genauigkeit und Effizienz. Es eignet sich hervorragend für allgemeine Vektorsuchanwendungen.

Werfen wir einen kurzen Blick auf einige Grundlagen.

Modell	Abmessungen	Max Tokens	Modell MIRACL avg	METB avg	Preis
text-embedding-3-large	3072	8191	54.9	64.6	$0.13 / 1M Token
text-embedding-ada-002	1536	8191	31.4	61.0	$0.10 / 1M Token
text-embedding-3-small	1536	8191	44.0	62.3	$0.02 / 1M Zeichen

So erzeugen Sie Vektoreinbettungen mit text-embedding-3-small

Es gibt zwei primäre Möglichkeiten, Vektoreinbettungen zu erstellen:

[PyMilvus] (https://github.com/milvus-io/pymilvus): das Python SDK für [Milvus] (https://zilliz.com/what-is-milvus), das das Modell "text-embedding-3-small" nahtlos integriert.
OpenAI Embedding: das von OpenAI angebotene Python-SDK.

Sobald die Vektoreinbettungen generiert sind, können sie in der Zilliz Cloud (einem vollständig verwalteten Vektordatenbankdienst, der von Milvus betrieben wird) gespeichert und für die semantische Ähnlichkeitssuche verwendet werden. Dies sind die vier wichtigsten Schritte:

Anmelden für ein kostenloses Zilliz Cloud-Konto.
Richten Sie einen serverlosen Cluster ein und erhalten Sie den Public Endpoint and API Key.
Erstellen Sie eine Vektorsammlung und fügen Sie Ihre Vektoreinbettungen ein.
Lassen Sie eine semantische Suche auf den gespeicherten Einbettungen laufen.

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

von pymilvus importieren Modell, MilvusClient

OPENAI_API_KEY = "ihr-openai-api-schlüssel"
ef = model.dense.OpenAIEmbeddingFunction(
   model_name="text-einbettung-3-klein",
   api_key=OPENAI_API_KEY,
   )

# Einbettungen für Dokumente generieren
docs = [
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die substantielle Forschung im Bereich der KI betrieb.",
   "Turing wurde in Maida Vale, London, geboren und wuchs in Südengland auf."
]

docs_embeddings = ef.encode_documents(docs)

# Einbettungen für Abfragen generieren
queries = ["Wann wurde die künstliche Intelligenz erfunden",
          "Wo wurde Alan Turing geboren?"]

query_embeddings = ef.encode_queries(queries)

# Verbindung zur Zilliz-Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=ef.dim,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie in unserer PyMilvus Embedding Model Dokumentation.

Generieren Sie Einbettungen über das Python-SDK von OpenAI und fügen Sie sie in die Zilliz-Cloud für die semantische Suche ein.

von openai importieren OpenAI
von pymilvus importieren MilvusClient

OPENAI_API_KEY = "ihr-openai-api-schlüssel"
client = OpenAI(api_key=OPENAI_API_KEY)
# Einbettungen für Dokumente generieren
doc_response = client.embeddings.create(
   input=[
   "Künstliche Intelligenz wurde 1956 als akademische Disziplin gegründet.",
   "Alan Turing war die erste Person, die substantielle Forschung im Bereich der KI betrieb.",
   "Geboren in Maida Vale, London, wuchs Turing in Südengland auf."
   ],
   model="text-embedding-3-small"
   )
doc_embeddings = [data.embedding for data in doc_response.data]

# Einbettungen für Abfragen generieren
query_response = client.embeddings.create(
   input=["Wann wurde die künstliche Intelligenz begründet",
          "Wo wurde Alan Turing geboren?"],
   model="text-einbettung-3-klein"
   )
query_embeddings = [data.embedding for data in query_response.data]

# Verbindung zur Zilliz Cloud mit öffentlichem Endpunkt und API-Schlüssel
client = MilvusClient(
    uri=ZILLIZ_PUBLIC_ENDPOINT,
    token=ZILLIZ_API_KEY)

COLLECTION = "Dokumente"
if client.has_collection(collection_name=COLLECTION):
    client.drop_collection(collection_name=COLLECTION)
client.create_collection(
    collection_name=COLLECTION,
    dimension=1536,
    auto_id=True)

for doc, embedding in zip(docs, docs_embeddings):
    client.insert(COLLECTION, {"text": doc, "vector": embedding})
    
results = client.search(
    collection_name=COLLECTION,
    data=query_embeddings,
    consistency_level="Strong",
    output_fields=["text"])

Weitere Informationen finden Sie im OpenAI's Embedding Guide.

Inhalte

Nahtlose KI-Workflows

Von Embeddings bis hin zu skalierbarer KI-Suche – Zilliz Cloud ermöglicht es Ihnen, Embeddings mit beispielloser Geschwindigkeit und Effizienz zu speichern, zu indizieren und abzurufen.

Zilliz Cloud kostenlos ausprobieren

Schätzen Sie schnell Ihre Embedding-Kosten

Einführung in text-embedding-3-small

So erzeugen Sie Vektoreinbettungen mit text-embedding-3-small

Vektoreinbettungen über PyMilvus generieren und in die Zilliz Cloud für die semantische Suche einfügen.

Generieren Sie Einbettungen über das Python-SDK von OpenAI und fügen Sie sie in die Zilliz-Cloud für die semantische Suche ein.

Inhalte

Nahtlose KI-Workflows

Verwandte Ressourcen

Evaluierung Ihres Einbettungsmodells

Trainieren Sie Ihr eigenes Texteinbettungsmodell

Erstellen von AI-Anwendungen mit Retrieval Augmented Generation (RAG)