Frank Liu: Warum ich zu einem Vektordatenbank-Unternehmen gewechselt bin
„Machine-Learning-Modelle sind wie eine Sprache für Computer, und Embeddings sind die Wörter.“ Ich verwende diese Analogie oft, um Machine-Learning-(ML-)Modelle und ihre entsprechenden Embeddings zu beschreiben, sei es in einem persönlichen Gespräch oder während einer Keynote-Präsentation. Seit meinem Abschluss arbeite ich seit fast einem Jahrzehnt im und rund um den Bereich Machine Learning (hauptsächlich im Teilgebiet Computer Vision). Diese Analogie ist eine prägnante Möglichkeit, einem breiteren Publikum die Bedeutung von Embeddings zu erklären.
So wie das menschliche Gehirn eine eigene Region für Erinnerungen und Emotionen hat (den Hippocampus), benötigen auch Maschinen eine dauerhafte Lösung zum Speichern und Indexieren der Wörter und Gedanken einer Maschine. An dieser Stelle kommt die Vektordatenbank ins Spiel – sie ist ein Hippocampus für Maschinen. Genau daran arbeiten wir bei Zilliz.
Die Mission von Zilliz hätte bei mir keinen Anklang gefunden, wenn ich die Macht von Embeddings nicht verstanden hätte. In diesem Blogbeitrag nehme ich Sie mit auf meine Reise in diesem Bereich und zeige Ihnen, wie ich schließlich bei Zilliz gelandet bin.
Eine kurze Einführung in Embeddings
Seit Jahrzehnten versuchen wir, Computern „beizubringen“, die Welt so zu verstehen wie wir. Frühe Versuche, beispielsweise Chatbots zu entwickeln, konzentrierten sich darauf, Schlüsselwörter und Phrasen zu erkennen und so die Illusion eines allgemeinen Verständnisses zu erzeugen. Bis vor Kurzem haben wir mit LLMs wie Claude, Bard und ChatGPT unglaubliche Fortschritte hin zu einem universell einsetzbaren Chatbot gemacht, wodurch die Möglichkeit intelligenter „Agents“ entstanden ist, die komplexe Aufgaben planen und ausführen können. Im Kern sind diese Chatbots spezialisierte neuronale Netzwerke – ML-Modelle, die mit einer der vielen Varianten des stochastischen Gradientenabstiegs trainiert wurden. Wenn Sie mit neuronalen Netzwerken nicht vertraut sind, können Sie sie sich als große Computermodelle vorstellen, die aufeinanderfolgende „Schichten“ nutzen, um leistungsstarke Repräsentationen aufzubauen, die mit handgefertigten Algorithmen unmöglich wären.
Im Zentrum aller ML-Modelle stehen Konzepte, die als Embeddings bekannt sind, also hochdimensionale Vektoren. Sie bieten eine abstrakte, aber überzeugende Möglichkeit, Eingabedaten im Modell darzustellen. Diese Embeddings haben einzigartige Eigenschaften, aber ich werde sie in diesem Beitrag nicht behandeln. Wenn Sie mehr erfahren möchten, können Sie meinen Beitrag zur Vektorsuche lesen, der die meisten Grundlagen abdeckt.
Meine (vielen) Begegnungen mit der Vektorsuche
Meine erste Begegnung mit dem Potenzial von Embeddings hatte ich 2014, als ich bei Yahoo begann, mit neuronalen Netzwerken zu arbeiten. Damals war Machine Learning noch der „Wilde Westen“, und es gab keine Tools für neuronale Netzwerke. Container-basierte Orchestrierungsplattformen begannen gerade erst an Popularität zu gewinnen (die erste Version von Docker wurde 2013 veröffentlicht). Es war eine unglaublich spannende Zeit, um in Computer Vision und Machine Learning tätig zu sein.
Im Rahmen unserer Bemühungen, Yahoo-Plattformen und -Dienste um Machine-Learning-Funktionen zu erweitern, wurden wir zu einem frühen Anwender der Vektorsuche. Diese Entscheidung führte zu einem monatelangen Projekt, um groß angelegte semantische Suche zu Flickr zu bringen, einem Produkt, das Yahoo damals besaß. Obwohl ich nicht direkt an diesem Projekt beteiligt war, verfolgte ich es aufmerksam. Eine frühe Iteration dieser Vektorsuche wurde in Vespa integriert, einen weiteren Akteur im Bereich der Vektordatenbanken.
Etwa zur gleichen Zeit begannen viele große Unternehmen, das Potenzial der Vektorsuche zu erkennen, insbesondere für Anwendungen in Computer Vision, wie etwa Bilderkennung. Obwohl ich die Leistungsfähigkeit neuronaler Netzwerke und von Embedding-Repräsentationen zu schätzen wusste, wollte ich stärker im Hardware-Bereich arbeiten, da ich am College Elektrotechnik studiert hatte. Infolgedessen verließ ich dieses Feld und gründete ein Unternehmen für Indoor-Lokalisierung mit Sitz in Shanghai. In den nächsten 2–3 Jahren lernte ich eine wichtige Lektion: Ein Hardware-Unternehmen zu gründen ist herausfordernd.
2019 wechselten wir zur Nutzung von Machine Learning und Streaming-Daten von inertialen Messeinheiten (IMUs). Embeddings spielten eine entscheidende Rolle für unseren Erfolg, und wir sicherten uns Verträge, um unsere Lösung für verschiedene Kunden bereitzustellen, darunter viele Fortune-500-Unternehmen. Ich arbeitete noch zwei weitere Jahre an dem Startup, bis wir schließlich die Gewinnschwelle erreichten. An diesem Punkt entschied ich, dass es Zeit für ein neues Abenteuer war.
Schneller Vorlauf ins Jahr 2021: Ich hatte die Gelegenheit, mich mit Charles (unserem CEO) und Robert (Head of Product) zusammenzusetzen. Im Laufe der Jahre sind Embeddings und Vector Search zu zentralen Bestandteilen meiner Identität und meines Erfolgs im breiteren ML-Bereich geworden. Daher sprach mich die Mission von Zilliz sofort an. Nachdem ich den breiteren Bereich der Vektordatenbanken betrachtet hatte, war ich überrascht, dass es dem Markt an einer erschwinglichen und skalierbaren Lösung für Vector Search mangelt, obwohl diese ein bekanntes und leistungsstarkes Werkzeug ist. Mir war klar, dass Vektordatenbanken im Zeitalter von AI/ML als De-facto-Speicherlösung dienen können. Also wagte ich hier den Sprung.
Demokratisierung der Enterprise-AI-Infrastruktur
Bei Zilliz sind wir bei der Einführung skalierbarer, cloud-nativer Vektordatenbanken auf einige Herausforderungen gestoßen. So leistungsfähig Embeddings auch sein mögen, ML-Ingenieure (mich eingeschlossen) unterschätzen oft die Bedeutung von Infrastruktur und Tooling. Im Herzen sind wir Builder und verbringen fast immer lieber Zeit damit, die Trainingsdaten aufzubereiten oder die Modellarchitektur zu perfektionieren, als uns Gedanken darüber zu machen, wie man eine Anwendung in Produktion bereitstellt. Im Bereich der Embeddings steht Zilliz fest im Zentrum einer umfassenderen Initiative zur Demokratisierung der Enterprise-AI-Infrastruktur.
Wir freuen uns, wenn du dich uns anschließt!
Wenn diese Botschaft bei dir Anklang findet, lass es uns bitte wissen! Wir haben eine Vielzahl offener Stellen in GTM, Produkt und Engineering. Wenn du ebenfalls leidenschaftlich an Recommender-Systemen, semantischer Suche und daran interessiert bist, Computer allgemein „menschlicher“ zu machen, schau dir gerne unsere Karriereseite an.
Weiterlesen

Data Deduplication at Trillion Scale: How to Solve the Biggest Bottleneck of LLM Training
Explore how MinHash LSH and Milvus handle data deduplication at the trillion-scale level, solving key bottlenecks in LLM training for improved AI model performance.

Build for the Boom: Why AI Agent Startups Should Build Scalable Infrastructure Early
Explore strategies for developing AI agents that can handle rapid growth. Don't let inadequate systems undermine your success during critical breakthrough moments.

Vector Databases vs. Graph Databases
Use a vector database for AI-powered similarity search; use a graph database for complex relationship-based queries and network analysis.



