So integrieren Sie die OpenAI Embedding API in Zilliz Cloud
Im Jahr 2018 entwickelte Zilliz die Milvus-Vektordatenbank, um die Art und Weise zu verändern, wie wir Suche und Speicherung handhaben (wir haben zuvor die Auswirkungen von Embeddings und Vektordatenbanken besprochen). Anfangs konzentrierte sich Milvus darauf, die für eine Vektordatenbank wesentlichen Kernfunktionen bereitzustellen, mit Schwerpunkt auf der Verbesserung der Benutzererfahrung, der Gewährleistung von Zuverlässigkeit sowie der Steigerung von Leistung und Skalierbarkeit. Dieser Ansatz führte zu einem erheblichen Wachstum innerhalb der Milvus-Community, einschließlich Nutzern, Mitwirkenden und Stars—mittlerweile nähert sich die Zahl 30.000.
In letzter Zeit, insbesondere mit der Veröffentlichung von Milvus 2.4, hat die Community ein starkes Interesse daran bekundet, das Ökosystem der Vektordatenbanken um weitere Tools, Visualisierungen und Konnektoren zu erweitern. Eine zentrale Anfrage war eine engere Integration mit Embedding-Modellen. Dieses Feedback spiegelt die sich wandelnden Bedürfnisse der Nutzer und die wachsende Bedeutung von Embedding-Modellen in der Vektordatenbanklandschaft wider.
Integrationen von Embedding-Modellen
Um dieser wachsenden Nachfrage gerecht zu werden, freuen wir uns, Integrationen für Embedding-Modelle vorzustellen, die Ihre Milvus- oder Zilliz Cloud-Datenbank nahtlos sowohl mit Open-Source- als auch mit kommerziellen Modellen verbinden. Diese Integrationen sind darauf ausgelegt, die vielfältige Bandbreite der heute verfügbaren Machine-Learning-Modelle abzudecken und unterschiedliche Datentypen und Anwendungsfälle zu unterstützen. Ob Sie mit Text, Bildern oder anderen Datentypen arbeiten, diese Funktion stellt sicher, dass Sie die Leistungsfähigkeit von Embedding-Modellen problemlos nutzen können, um Ihre Möglichkeiten zur semantischen Ähnlichkeitssuche zu verbessern.
Als Reaktion auf die sich entwickelnde Landschaft der Embedding-Modelle und die Bedürfnisse der Nutzer werden wir zwei parallele Integrationsreihen anbieten. Die erste Reihe konzentriert sich auf beliebte Open-Source-Embedding-Modelle und bietet Flexibilität und Kosteneffizienz für Nutzer, die Community-getriebene Lösungen bevorzugen. Die zweite Reihe umfasst Integrationen mit Premium- und kommerziellen Embedding-Modellen und bietet erweiterte Funktionen sowie verbesserte Leistung für Nutzer mit spezielleren Anforderungen. Dieser duale Ansatz stellt sicher, dass alle Nutzer, unabhängig von ihren Embedding-Anforderungen oder ihrem Budget, Zugang zu leistungsstarken Tools zur Optimierung ihrer Milvus- oder Zilliz Cloud-Datenbanken haben.
Warum die Integration mit Zilliz Cloud entscheidend ist
Die Integration der OpenAI Embedding API mit Zilliz Cloud ist wichtig für Entwickler, die ihre Vektorsuchfunktionen, etwa im Natural Language Processing, verbessern möchten. Durch die Kombination der leistungsstarken, vortrainierten Embeddings von OpenAI mit der hochleistungsfähigen Vektordatenbank von Zilliz Cloud können Sie genauere und effizientere Such- und Retrieval-Systeme erstellen. Die Embeddings von OpenAI erfassen komplexe semantische Beziehungen in Ihren Daten, während Zilliz Cloud die Skalierbarkeit und Geschwindigkeit bereitstellt, die erforderlich sind, um große Mengen an Vektordaten zu verarbeiten. Diese Integration ermöglicht es Entwicklern, fortschrittliche KI-Modelle für eine höhere Relevanz in Suchergebnissen zu nutzen, wodurch es einfacher wird, Anwendungen zu erstellen, die Nutzeranfragen mit größerer Präzision verstehen und beantworten.
Darüber hinaus vereinfacht diese Integration den Entwicklungsprozess, indem sie eine optimierte Möglichkeit bietet, riesige Datensätze zu verarbeiten und zu durchsuchen. Da Zilliz Cloud die Backend-Infrastruktur verwaltet und die OpenAI Embedding API die anspruchsvollen Datenrepräsentationen bereitstellt, können sich Entwickler stärker auf den Aufbau ihrer Anwendungen konzentrieren und weniger auf die Komplexität der Datenverarbeitung. Dieses Setup verbessert nicht nur die Leistung, sondern verkürzt auch die Entwicklungszeit, wodurch
Beispiele in Zilliz Cloud
Die erste Reihe von Integrationen ist eine Serie von POC-fähigen Beispielen und ausführbaren Skripten, die Milvus und Zilliz Cloud nutzen. Diese Beispiele sollen Softwareentwicklern einen vollständig anpassbaren Ausgangspunkt bieten, um Anwendungen für eine Vielzahl von Anwendungsfällen zu erstellen. Die meisten dieser Beispiele sind recht einfache Skripte, die vorgelagerte Embedding-Modelle und das Milvus SDK kombinieren. Sie finden diese in unseren Notebooks, wobei jedes Beispiel in etwa so aussehen könnte (zur besseren Lesbarkeit deutlich vereinfacht):
from pymilvus import connections, Collection
import openai
...
connections.connect(uri=URI, user=USER, password=PASSWORD, secure=True)
collection = Collection(name=COLLECTION_NAME, schema=schema)
collection.create_index(field_name="embedding", index_params=index_params)
...
for text in document:
embedding = openai.Embedding.create(
input=text,
engine=OPENAI_ENGINE)["data"][0]["embedding"]
collection.insert([embedding])
...
Während kleine Beispielskripte für den allgemeinen Gebrauch gut geeignet sind, stellten wir fest, dass es in jedem Skript erhebliche Wiederverwendung gab; Modellinferenz und Datenbankabfragen sind beispielsweise zwei Aktionen, die in nahezu allen Beispielen ausgeführt werden. Um dieses wiederkehrende Problem zu lösen, haben wir Towhee gestartet, ein Zilliz-Projekt innerhalb des Milvus-Ökosystems. Towhee integriert Hunderte von Open-Source-Modellen, Embedding-APIs und internen Modellen und gibt ML-Praktikern die Möglichkeit, mit nur wenigen Codezeilen durch Milvus oder Zilliz Cloud unterstützte End-to-End-Suchpipelines zusammenzustellen. Eine Beispielpipeline zur Vektorisierung von Buchtiteln (unter Verwendung der Embedding-API von OpenAI) und deren Einfügen in Milvus könnte in etwa so aussehen:
pipeline = (
pipe.input('id', 'text')
.map(
ops.text_embedding.openai(
engine='embedding-engine',
api_key='my-api-key'
)
)
.map(
ops.ann_insert.milvus_client(
host='my-vector-database.url',
port='19530',
collection_name='my-collection'
)
)
.output()
)
Weitere Towhee-Beispiele finden Sie im Milvus bootcamp, zusammen mit einer vollständigen Anleitung in der Towhee-Dokumentation.
Nehmen Sie Kontakt mit uns auf
Kurz gesagt: Wir haben in fünf Jahren große Fortschritte gemacht, aber wir haben noch einen langen Weg vor uns. Zilliz wird weiterhin ein wichtiger Unterstützer und die treibende Hauptkraft hinter dem Milvus-Projekt sein, aber wir werden uns künftig auch auf Integrationen und Partnerschaften mit dem breiteren Machine-Learning-Ökosystem konzentrieren.
Wenn Sie Open-Source-Committer sind und über eine potenzielle Integration sprechen möchten, kontaktieren Sie uns bitte oder senden Sie uns eine Nachricht auf Twitter. Wir freuen uns darauf, Sie als Teil der Community begrüßen zu dürfen!
Weiterlesen

Smarter Autoscaling in Zilliz Cloud: Always Optimized for Every Workload
With the latest upgrade, Zilliz Cloud introduces smarter autoscaling—a fully automated, more streamlined, elastic resource management system.

Zilliz Cloud Enterprise Vector Search Powers High-Performance AI on AWS
Zilliz Cloud on AWS powers secure, scalable, ultra-fast vector search for enterprise AI apps, with BYOC, sub-10ms latency, and zero-DevOps simplicity.

DeepRAG: Thinking to Retrieval Step by Step for Large Language Models
Discover DeepRAG, an advanced retrieval-augmented generation (RAG) model that improves LLM accuracy by retrieving only essential data through step-by-step reasoning.



