Barrieren überwinden: Zugang zu Vektordatenbanken für alle demokratisieren
Dieser Beitrag wurde ursprünglich auf The New Stack veröffentlicht und wird hier mit Genehmigung erneut veröffentlicht.
Large Language Models (LLMs) und KI-bezogene Technologien sind in aller Munde. Vektordatenbanken, die kritische Infrastruktur für LLMs und KI-Anwendungen, haben bei einer breiteren Nutzerbasis große Aufmerksamkeit erlangt und sich von Algorithmus-Ingenieuren auf Anwendungs- und Backend-Entwickler ausgeweitet.
Werfen wir einen Blick auf die Vorteile von Vektordatenbanken, warum ihre Demokratisierung entscheidend ist und wie man sie für alle zugänglich machen kann. Außerdem bieten wir ein Benchmark-Tool an, das Ihnen hilft, die am besten geeignete Vektordatenbank für Ihre Projekte auszuwählen.
Was ist eine Vektordatenbank?
Im Gegensatz zu traditionellen relationalen oder NoSQL-Datenbanken, die Daten in strukturierten Formaten speichern und organisieren, ist eine Vektordatenbank speziell dafür entwickelt, unstrukturierte Daten wie Bilder, Audio, Videos und Text in numerischen Darstellungen, sogenannten Embeddings, zu speichern und zu verwalten.
Vektordatenbanken sind entscheidend für die Durchführung von Ähnlichkeitssuchen mithilfe des Algorithmus Approximate Nearest Neighbor (ANN). Dieser Algorithmus ermöglicht es, den nächstgelegenen Punkt zu einem gegebenen Punkt innerhalb einer gegebenen Menge zu finden, wodurch Vektordatenbanken für verschiedene Anwendungsfälle wertvoll werden, darunter Empfehlungssysteme, Anomalieerkennung und Frage-Antwort-Systeme.
Vektordatenbanken vs. traditionelle Vektorsuchtechniken
Vektorsuche ist kein neues Konzept. Bevor spezialisierte Vektordatenbanken entstanden, standen verschiedene Tech-Stacks zur Durchführung von Vektorsuchen zur Verfügung. Beispiele sind Vektorbibliotheken wie Facebook FAISS, Spotify Annoy, Google ScaNN und Vektorsucherweiterungen wie pgvector. Große Unternehmen wie Google, Microsoft und Netflix haben diese Technologien für Aufgaben wie Empfehlungssysteme eingesetzt.
Obwohl traditionelle Vektorsuchtechniken grundlegende Funktionen wie das Speichern, Indexieren und Suchen von Vektoren bieten, haben sie Einschränkungen. Wenn Sie beispielsweise mit einem großen Datensatz mit Millionen oder Milliarden hochdimensionaler Vektoren umgehen müssen und gleichzeitig schnelle Antworten und eine hohe Trefferquote benötigen, können traditionelle Abrufsysteme Ihre Erwartungen kaum erfüllen. In diesem Fall ist eine speziell entwickelte Vektordatenbank notwendig.
Im Vergleich zu traditionellen Vektorsuch-Stacks bieten speziell entwickelte Vektordatenbanken verbesserte und vielfältige Funktionen, darunter:
Vollständige CRUD-Unterstützung (create, read, update, and delete)
Skalar- und Vektorfilterung
Unterstützung für SDKs mehrerer Programmiersprachen und restful APIs
Funktionen auf Unternehmensebene wie hohe Verfügbarkeit und Skalierbarkeit, Ressourcengruppen, rollenbasierte Zugriffskontrolle (RBAC) und Produktionsbereitstellungen
Und mehr.
Vektordatenbanken sind aufgrund des Aufstiegs von ChatGPT und des wachsenden Interesses an generativer KI und LLMs zunehmend beliebt und unverzichtbar geworden. Infolgedessen suchen immer mehr Entwickler und Organisationen Zugang zu ihnen.
Warum sind Vektordatenbanken im Zeitalter der KI unverzichtbar?
Vektordatenbanken sind für LLMs und verwandte KI-Tech-Stacks unverzichtbar geworden. Sie dienen als Langzeitgedächtnis der LLMs, erweitern das Wissen und die Abruffähigkeiten von LLMs und ermöglichen genauere Antworten in Bezug auf Ihre Daten und Ihr Unternehmen.
ChatGPT könnte aufgrund seines begrenzten oder veralteten Offline-Vortrainingswissens halluzinatorische Antworten erzeugen. Darüber hinaus macht es die Token-Begrenzung von ChatGPT für Nutzer schwierig, zu viel Kontext bereitzustellen. Um dieses Problem zu lösen, gewinnt der CVP-Stack (ChatGPT/LLM + eine Vektordatenbank + Prompt as Code) an Beliebtheit, wobei eine Vektordatenbank verwendet wird, um domänenspezifische oder proprietäre Fakten außerhalb des LLM für den Abruf zu speichern. Diese Erweiterung führt zu genaueren Ergebnissen.
Beliebte AI-Stacks wie LlamaIndex, AutoGPT und LangChain sind Beispiele, die Vektordatenbanken für die langfristige Vektorspeicherung und/oder die Wissensanreicherung von LLMs nutzen.
Demokratisierung von Vektordatenbanken für alle
Vektordatenbanken sind in der aktuellen KI-Revolution von entscheidender Bedeutung. Doch aufgrund verschiedener Barrieren, wie proprietärer Technologie, komplexer Architektur und Bereitstellung, hoher Kosten für einzelne Entwickler oder kleine Teams sowie schlechter Benutzererfahrung, haben nur einige gleichermaßen Zugang zu dieser Technologie. Daher ist es wichtig, Vektordatenbanken zu demokratisieren, um Fortschritte zu erzielen, wobei Pioniere und Anbieter die Führung übernehmen.
Vektordatenbanken für alle zugänglich zu machen, kann nicht über Nacht geschehen. Es ist unrealistisch zu erwarten, dass jede Datenbank sofort Vektoren speichern und durchsuchen kann oder dass Anbieter von Vektordatenbanken ihre Technologien plötzlich für alle öffnen. Es gibt jedoch einige wertvolle Tipps für eine verbesserte Demokratisierung von Vektordatenbanken.
Wissen, Fachkompetenz und Technologien zu Vektordatenbanken verbreiten
Um effektiv mit Vektordatenbanken zu arbeiten, sollten Entwickler mit den Vorteilen, Ökosystemen, Anwendungsfällen und Einschränkungen dieser Technologie vertraut werden. Daher ist es wichtig, das Bewusstsein für Wissen, Fachkompetenz und Technologien rund um Vektordatenbanken durch verschiedene Inhalte zu verbreiten, darunter wissenschaftliche Arbeiten, Blogbeiträge, Tutorials und Vorträge. Bei Zilliz haben wir eine Content-Bibliothek aufgebaut, die alles abdeckt, von den Grundlagen der Vektorsuchtechnologien (wie unstrukturierte Daten und Hierarchical Navigable Small Worlds) bis hin zu beliebten AI-Stacks (wie LangChain, LlamaIndex und AutoGPT). Außerdem bieten wir verschiedene Offline-Events und Webinare an, die wertvolle Ressourcen für Entwickler darstellen, die an diesem Vektor-Stack interessiert sind.
Den Quellcode für alle Entwickler öffnen
Open Source ist ein entscheidender Weg, um die Demokratisierung von Vektordatenbanken zu fördern. Durch die Beseitigung finanzieller Hürden macht Open Source Vektordatenbanken für Entwickler und Organisationen jeder Größe zugänglich. Es bedeutet auch vollständige Transparenz und ermöglicht es Nutzern, den Quellcode entsprechend ihren Bedürfnissen zu verwenden und zu ändern.
Open Source fördert Innovation und Wissensaustausch und schafft gleichzeitig eine florierende Community, die zur Produktverbesserung und zum Wachstum beiträgt. Dieser Ansatz kommt allen Beteiligten zugute, einschließlich des Anbieters der Vektordatenbank.
Milvus ist ein bemerkenswerter Pionier in diesem Bereich, mit über 3,4 Millionen Docker-Pulls und über 21.000 Sternen auf GitHub. Es ist außerdem ein beliebtes Projekt, das von der Linux Foundation AI & Data Foundation graduiert wurde. Indem Zilliz es als Open Source bereitgestellt hat, hat das Unternehmen diese Vektordatenbanktechnologie für Entwickler und Unternehmen jeder Größe zugänglich gemacht. Diese Entscheidung hat eine aktive Community begeisterter Innovatoren hervorgebracht, die zu den Upgrades und der Weiterentwicklung von Milvus beitragen. Ein hervorragendes Beispiel für eine solche Zusammenarbeit ist Milvus Lite, eine leichtgewichtige Version von Milvus, die von Bin Ji, einem aktiven Community-Mitglied, beigesteuert wurde.
Bereitstellung vollständig verwalteter Vektordatenbankdienste
Vektordatenbanken für alle zugänglich zu machen bedeutet, sie einfach einzurichten, zu nutzen und zu warten. Obwohl das Hosting dieser Datenbanken auf Ihrem lokalen System Vorteile hat, kann es zeitaufwendig und kostspielig sein. Ein vollständig verwalteter Vektordatenbankdienst wie Zilliz Cloud kann dieses Problem lösen, indem er die Bereitstellung und Skalierung von Vektorsuchanwendungen vereinfacht und Ingenieuren ermöglicht, sich auf das Geschäft zu konzentrieren.
Kostenlose Cloud-Optionen für einzelne Entwickler und kleine Teams anbieten
Vollständig verwaltete Vektordatenbankdienste sind zwar ausgezeichnet, können jedoch für einzelne Entwickler und kleine Teams kostspielig sein. Um Vektordatenbanken zugänglicher zu machen, könnten Anbieter erwägen, diesen Gruppen kostenlose oder zumindest erschwingliche Optionen anzubieten. Dieser Ansatz wäre ein bedeutender Schritt zur Demokratisierung von Vektordatenbanken und zur Erweiterung der Nutzerbasis. Im Gegenzug könnten Vektordatenbankunternehmen mehr Aufmerksamkeit und Popularität gewinnen.
Eine großartige Benutzererfahrung bieten, die den Bedürfnissen der Nutzer entspricht
Die Priorisierung einer reibungslosen Benutzererfahrung ist ebenfalls entscheidend für die Demokratisierung von Vektordatenbanken. Dieser Ansatz bedeutet, Funktionen anzubieten, die die Probleme der Nutzer lösen, Zeit und Geld sparen und ihnen zum Erfolg verhelfen. Zu den wichtigsten Funktionen gehören schnelle Speicherung, Indizierung und Abfrage von Vektoren, geringe Latenz bei hoher Trefferquote, organisations- und rollenbasierter Zugriff für einfacheres Teammanagement, JSON-Unterstützung für bessere Datenverarbeitung und die Möglichkeit, Abfragen mithilfe von Partitionsschlüsseln schnell zu filtern.
Wie Sie die richtige Vektordatenbank für Ihr Projekt auswählen
Die Wahl der richtigen Vektordatenbank für Ihre Projekte kann aufgrund der vielen verfügbaren Optionen überwältigend sein. Glücklicherweise kann Ihnen eine Lösung dabei helfen, eine fundierte Entscheidung zu treffen: VectorDBBench, ein Open-Source-Benchmarking-Tool, das verschiedene Vektordatenbanksysteme anhand kritischer Kennzahlen wie Abfragen pro Sekunde (QPS), Latenz, Durchsatz und Kapazität gründlich bewertet und vergleicht.
Fazit
Der Zugang zu Vektordatenbanken nimmt dank einfacherem Einstieg, benutzerfreundlichen Funktionen und erschwinglicher Preisgestaltung zu. Open-Source-Projekte wie Milvus und Cloud-Dienste wie Zilliz Cloud führen diesen Trend an.
Mit zunehmender Demokratisierung können wir einen Anstieg innovativer Anwendungen und Entdeckungen erwarten, die Vektordatenbanken nutzen. Diese Demokratisierung wird zu Fortschritten in verschiedenen Branchen führen und die Zukunft datengetriebener Innovation prägen.
Weiterlesen

Notion's Vector Search Is Excellent. Their Next Problem Is Harder.
Notion solved vector search scaling in two years. The next bottleneck — offline context engineering, unified data, and the real-time/offline gap — is harder.

A Developer's Guide to Exploring Milvus 2.6 Features on Zilliz Cloud
Milvus 2.6 marks a shift from “vector search + glue code” to a more advanced retrieval engine, and it is now Generally Available (GA) on Zilliz Cloud (a managed Milvus service).

Why AI Databases Don't Need SQL
Whether you like it or not, here's the truth: SQL is destined for decline in the era of AI.



