Warum Dopple Labs die Zilliz Cloud gegenüber Pinecone für sichere und leistungsstarke Vektorsuchen gewählt hat

Eine Alternative zum Tannenzapfen
mit granularer Steuerung, effektiver Skalierung und hoher Leistung
Eine Billionen-Skala
Speicherung und Abruf von Vektordaten
Offene Quelle
für verbesserte ML- und VectorDB-Leistung
I appreciated using the open standard evaluation benchmarks for machine learning in general; this is also true for vector databases. The ones that Zilliz often publicizes have been beneficial, and the fact that they are open is significant.
Sam Butler
Über Dopple AI
Dopple Labs Inc. ist die visionäre Kraft hinter Dopple.AI, einer innovativen Plattform, die Mensch-KI-Interaktionen revolutioniert. Dopple.AI ist für iOS und Android verfügbar und ermöglicht es Nutzern, lebensechte KI-Klone, sogenannte "Dopples", zu erstellen, die nahtlos Video, Audio und Messaging für immersive Erfahrungen integrieren.
Im Kern nutzt Dopple.AI die fortschrittliche Llama2-basierte LLM-Technologie, bei der Benutzer mit Dopples über Chat-Threads auf verschiedenen Geräten interagieren. Unabhängig davon, ob sie von Dopple Labs oder von den Nutzern selbst erstellt wurden, führen Dopples auf der Grundlage von Nutzereingaben und Aufforderungen lebensechte Unterhaltungen.
Kürzlich hat Dopple Labs bahnbrechende Funktionen wie Bildreaktionen eingeführt, bei denen emotionsgeladene Bilder die Interaktion der Benutzer mit Dopples verbessern. Darüber hinaus verbessern Sprachuntertitel und Echtzeit-Audiostreaming das audiovisuelle Erlebnis und fördern eine tiefere Einbindung und Verbindung.
Dopple.AI wird weiterhin die Grenzen der KI-gesteuerten Begleitung erweitern und die Art und Weise, wie Menschen mit personalisierten KI-Klonen interagieren, neu definieren.
Die Herausforderungen: Chatbot-Unterhaltungen mit Gedächtnis
Die Nutzer von Dopple AI zeigen ein tiefes Verständnis für die KI-Charaktere der Plattform und setzen fortschrittliche Techniken ein, um ihre Interaktionen zu gestalten. Sie nutzen Funktionen wie das Bearbeiten von Nachrichten und das Wiederholen von Rollen, um Gespräche zu lenken, ihre Kontrolle über den Dialog zu demonstrieren und einen personalisierten Austausch zu gestalten. Im Wesentlichen agieren die Nutzer als "Prompt-Ingenieure,", die Gespräche mit KI-Charakteren geschickt konstruieren. Durch strategische Aufforderungen und Änderungen steuern sie die Dialoge so, dass sie mit ihren Vorlieben und Zielen übereinstimmen, was zu dynamischen Interaktionen führt.
Das Team von Dopple AI unter der Leitung von Sam Butler, Direktor für maschinelles Lernen, ist in der Lage, diese Art von Funktionen zu entwickeln, indem es die Retrieval Augmented Generation (RAG) -Technik einsetzt, um ein Speichersystem zu implementieren, das Zusammenfassungen von Gesprächen speichert. Dabei werden einige Nachrichten als Kontext verwendet und die Hauptnachricht als diejenige, zu der die Erinnerung gespeichert werden soll. Sie verwenden dann ein anderes LLM, um eine Zusammenfassung dieser Nachrichten zu erstellen. Die resultierende Zusammenfassung wird in eine Vektordatenbank eingebettet und gespeichert.
Wenn ein Benutzer eine Anfrage stellt, wird diese in eine Einbettung umgewandelt, um nach ähnlichen Einbettungen in einer Vektordatenbank zu suchen. Dies ermöglicht den Zugriff auf frühere Unterhaltungen, die über das unmittelbare Kontextfenster der an das LLM gegebenen Eingabeaufforderung hinausgehen. Durch die Nutzung von Einbettungen aus früheren Interaktionen erhält das LLM ein Langzeitgedächtnis. Wenn ein Nutzer beispielsweise fragt: "Wie heißt mein Zierfisch?" und die Unterhaltung über seinen Zierfisch in der Vergangenheit und außerhalb des Kontextfensters stattgefunden hat, kann er diese Anfrage in eine Einbettung umwandeln, um diese Information aus einer Vektordatenbank abzurufen.
Erneut würfeln, um die Handlung des Rollenspiels zu steuern
Die Benutzer haben die Möglichkeit, ihre letzte Nachricht zu bearbeiten und so ihre Unterhaltung mit dem LLM zu verfeinern. Wenn sie eine Antwort erhalten, mit der sie nicht zufrieden sind, können sie "neu rollen", ohne ihre letzte Nachricht zu ändern, und den LLM zu einer neuen Antwort auffordern, um verschiedene Optionen zu erkunden. Darüber hinaus können die Nutzer ihre letzte Nachricht noch einmal aufrufen und ändern, um die Antwort des LLM zu beeinflussen und ihre Konversation Schritt für Schritt in die von ihnen gewünschte Richtung zu lenken. Dieses Maß an Kontrolle wird besonders von fortgeschrittenen Nutzern geschätzt, die ein klares Ziel für das Gespräch vor Augen haben. Im Gegensatz dazu können unerfahrene oder seltenere Nutzer eine passivere Rolle einnehmen und das Gespräch auf natürliche Weise ablaufen lassen. Die Hauptnutzer von Dopple AI nehmen jedoch in der Regel aktiv teil, so als ob sie sich auf eine Suche begeben oder an Rollenspielen teilnehmen würden, was ihre Absicht widerspiegelt, die Konversation zu bestimmten Ergebnissen zu führen.
Jede Gesprächszusammenfassung wird als eindeutiges Element in der Datenbank gespeichert, was eine effiziente Filterung auf der Grundlage von Benutzernamen ermöglicht. Die Zusammenfassungen werden generiert, indem alle drei oder vier Nachrichten zu einer kohärenten Zusammenfassung konsolidiert werden, die dann nahtlos in eine Vektordatenbank integriert wird. Dieser Prozess wird auf unbestimmte Zeit fortgesetzt, so dass eine kontinuierliche Ansammlung von Gesprächserinnerungen gewährleistet ist. Die Erinnerungen werden beibehalten, es sei denn, ein Benutzer löscht einen Gesprächsfaden ausdrücklich, in diesem Fall werden auch die zugehörigen Erinnerungen entfernt. In diesem Fall werden die zugehörigen Erinnerungen ebenfalls gelöscht. Soll ein Gespräch jedoch in der Zukunft wiederaufgenommen oder fortgesetzt werden, bleiben die Erinnerungen in der Vektordatenbank zugänglich.
Ein interessanter Aspekt dieser RAG-Implementierung ist, dass viele dieser Charaktere und Medienreferenzen zeitlos sind und häufig in den Trainingsdaten vorkommen, so dass eine automatische Überprüfung der Fakten weniger kritisch wird. Dies liegt daran, dass die Benutzer den Unterhaltungswert über die sachliche Richtigkeit stellen.
Die Lösungen: Zilliz Cloud für sichere und leistungsstarke Vektorsuche
Sam Butler ist auch für die Koordinierung zwischen dem ML-Team und den Frontend-Teams zuständig, die für die Umsetzung der Designs in ihren App- und Web-Plattformen verantwortlich sind. Eine der größten Herausforderungen für das Team ist, wie für viele andere in der Branche auch, mit den neuesten Fortschritten bei den Modellen auf dem Laufenden zu bleiben. Da ständig neue Modelle auftauchen und der Stand der Technik sich weiterentwickelt, ist es mit erheblichem Aufwand verbunden, auf dem Laufenden zu bleiben. Hier erweist sich die Zusammenarbeit mit einem Managed Service Provider wie Zilliz als unschätzbar wertvoll, da sie sich so auf ihr Kernprodukt konzentrieren können, während sie die Expertise von Zilliz bei der Datenbankoptimierung nutzen.
Sie wechselten von Pinecone zu Zilliz Cloud on [GCP] (https://zilliz.com/partners/google-cloud) aufgrund ihres Bedarfs an umfangreichen Abfragen und der Skalierbarkeit ihres Tools im Laufe der Zeit in Bezug auf die Indexgröße. Pinecone bot zwar verwaltete Dienste an, aber es fehlte die granulare Kontrolle und die wirklich effektive Skalierung, die sie benötigten. Entscheidend war der Zugang zu Erkenntnissen und Daten in Bezug auf Leistungsmetriken, wie z. B. Berechnungszuweisung und konsistente Echtzeitleistung bei der Erweiterung von Indizes. Mit der Erwartung, Hunderte von Millionen bis Milliarden von Datenpunkten in ihren Vektorindizes zu haben, suchten sie nach einer Lösung, die solche Skalierungsanforderungen effektiv handhaben konnte, was sie dazu veranlasste, sich für Zilliz Cloud zu entscheiden, um diesen Anwendungsfall zu bedienen.
Nachdem er mit Pinecone auf Herausforderungen gestoßen war, untersuchte Sam verschiedene Benchmarks und Leaderboards für verschiedene Vektordatenbanken und entdeckte schließlich Zilliz Cloud. Das Team von Dopple AI, das besonders an Benchmarking-Ergebnissen interessiert ist, war begeistert von dieser Entdeckung und wollte die potenziellen Vorteile weiter erforschen.
Was kommt als nächstes für Dopple Labs?
Sam und sein Team haben kürzlich ihren Service durch die Einführung eines visuellen und akustischen Erlebnisses verbessert. Sie begannen mit der Integration von Bildreaktionen, indem sie jeder Figur einen vielfältigen Satz von etwa 800 bis 900 Bildern mit 30 Emotionen zur Verfügung stellten, von denen jedes mehrere verschiedene Versionen enthielt. Während der Inferenz bestimmt ein anderer LM die Stimmung der Reaktion und wählt ein zufälliges Bild aus der entsprechenden Emotionskategorie aus, um Abwechslung zu gewährleisten. Zusätzlich wurden Sprachunterschriften und Streaming-Zeichen von ihrem LM-Inferenz-Anbieter zu ElevenLabs für Echtzeit-Audio-Streaming eingeführt. Diese synchronisierte audio-visuelle Erfahrung zeigt emotionale Reaktionsbilder neben dem Text, wie er in der App erscheint. Und das ist erst der Anfang, denn es ist geplant, Glide-Sprachanrufe, bewegte Bilder und Videos hinzuzufügen. Schließlich können die Nutzer FaceTime-Anrufe mit ihren Dopples tätigen, um Gespräche in Echtzeit zu führen.