Perché i laboratori Dopple hanno scelto Zilliz Cloud rispetto a Pinecone per ricerche vettoriali sicure e ad alte prestazioni

Un'alternativa alla pigna
con controllo granulare, scalabilità efficace e prestazioni elevate.
Un miliardo di scala
archiviazione e recupero di dati vettoriali
Open Source
per migliorare le prestazioni di ML e VectorDB
I appreciated using the open standard evaluation benchmarks for machine learning in general; this is also true for vector databases. The ones that Zilliz often publicizes have been beneficial, and the fact that they are open is significant.
Sam Butler
Informazioni su Dopple AI
Dopple Labs Inc. è la forza visionaria dietro Dopple.AI, una piattaforma innovativa che rivoluziona le interazioni uomo-AI. Disponibile su iOS e Android, Dopple.AI consente agli utenti di creare cloni di IA realistici, o "Dopple", integrando perfettamente video, audio e messaggistica per esperienze coinvolgenti.
Il cuore di Dopple.AI sfrutta la tecnologia avanzata LLM basata su Llama2, grazie alla quale gli utenti interagiscono con i Dopple attraverso thread di chat su vari dispositivi. Creati dai Dopple Labs o dagli utenti stessi, i Dopple si impegnano in conversazioni realistiche basate sugli input e le richieste degli utenti.
Recentemente, Dopple Labs ha introdotto funzioni innovative come le reazioni alle immagini, in cui le immagini ricche di emozioni migliorano le interazioni degli utenti con i Dopples. Inoltre, le didascalie vocali e lo streaming audio in tempo reale elevano ulteriormente l'esperienza audiovisiva, favorendo un coinvolgimento e una connessione più profondi.
Dopple.AI continua a spingersi oltre i confini della compagnia guidata dall'intelligenza artificiale e rimane all'avanguardia nel ridefinire il modo in cui gli individui interagiscono con i cloni AI personalizzati.
Le sfide: Portare la memoria nelle conversazioni con i chatbot
Gli utenti di Dopple AI dimostrano una profonda conoscenza dei personaggi AI della piattaforma, utilizzando tecniche avanzate per modellare le loro interazioni. Utilizzano funzioni come la modifica dei messaggi e il rerolling per guidare le conversazioni, mostrando il loro controllo sul dialogo e creando scambi personalizzati. In sostanza, gli utenti agiscono come "prompt engineers,", costruendo abilmente le conversazioni con i personaggi dell'intelligenza artificiale. Attraverso suggerimenti e modifiche strategiche, gli utenti guidano i dialoghi in modo da allinearli alle loro preferenze e ai loro obiettivi, dando vita a interazioni dinamiche.
Il team di Dopple AI, guidato da Sam Butler, direttore del reparto Machine Learning, è in grado di costruire questo tipo di funzionalità utilizzando la tecnica Retrieval Augmented Generation (RAG) per implementare un sistema di archiviazione della memoria, memorizzando i riassunti delle conversazioni. Si tratta di prendere alcuni messaggi come contesto e il messaggio principale come quello su cui si vuole memorizzare la memoria. Si utilizza quindi un altro LLM per creare un riassunto di questi messaggi. Il riassunto risultante viene incorporato e memorizzato in un database vettoriale.
Quando un utente invia una richiesta, questa viene convertita in un embedding utilizzato per cercare embeddings simili in un database vettoriale. In questo modo è possibile accedere alle conversazioni passate, al di là della finestra di contesto immediata del prompt fornito al LLM. Sfruttando gli embedding delle interazioni precedenti, il LLM acquisisce capacità di memoria a lungo termine. Per esempio, se un utente chiede "Come si chiama il mio pesce domestico?" e la conversazione sul suo pesce domestico è avvenuta in passato e al di fuori della finestra di contesto, può convertire la domanda in un embedding per recuperare le informazioni da un database vettoriale.
Riavvolgimento per controllare la trama del gioco di ruolo
Gli utenti hanno la possibilità di modificare il loro messaggio più recente, consentendo loro di perfezionare la conversazione con il LLM. Se ricevono una risposta che non li soddisfa, possono scegliere di "rilanciare" senza modificare l'ultimo messaggio, sollecitando il LLM a dare una nuova risposta per esplorare diverse opzioni. Inoltre, gli utenti possono rivedere e modificare il loro ultimo messaggio per influenzare la risposta del LLM, costruendo la conversazione passo dopo passo per allinearsi alla direzione desiderata. Questo livello di controllo è particolarmente apprezzato dagli utenti esperti che hanno un obiettivo chiaro in mente per la conversazione. Al contrario, gli utenti meno esperti o meno frequenti possono assumere un ruolo più passivo, lasciando che la conversazione si svolga in modo naturale. Tuttavia, la base di utenti principali di Dopple AI si impegna tipicamente in una partecipazione attiva, come se si imbarcasse in una missione o si impegnasse in scenari di gioco di ruolo, riflettendo il loro intento di guidare la conversazione verso risultati specifici.
Ogni riepilogo di conversazione viene memorizzato come elemento unico nel database, consentendo un filtraggio efficiente basato sui nomi degli utenti. I riepiloghi vengono generati consolidando ogni tre o quattro messaggi in un riepilogo coerente, che viene poi integrato senza problemi in un database vettoriale. Questo processo continua all'infinito, garantendo un accumulo continuo di memorie di conversazione. Le memorie vengono conservate a meno che un utente non cancelli esplicitamente un thread di conversazione, nel qual caso anche le memorie associate vengono rimosse. Tuttavia, se una conversazione è destinata a essere rivisitata o continuata in futuro, le memorie rimangono accessibili all'interno del database vettoriale.
Un aspetto interessante di questa implementazione del RAG è che molti di questi personaggi e riferimenti mediatici sono senza tempo e spesso presenti nei dati di formazione, per cui il fact-checking automatico diventa meno critico. Questo perché gli utenti danno priorità al valore dell'intrattenimento rispetto all'accuratezza dei fatti.
Le soluzioni: Zilliz Cloud per ricerche vettoriali sicure e ad alte prestazioni
Sam Butler supervisiona anche il coordinamento tra il team ML e i team frontend responsabili dell'implementazione dei progetti nelle loro piattaforme app e web. Una delle loro maggiori sfide, come per molti altri nel settore, è quella di rimanere al passo con gli ultimi progressi dei modelli. Con l'emergere di nuovi modelli e l'evoluzione dello stato dell'arte, stare al passo richiede uno sforzo significativo. È qui che la collaborazione con un fornitore di servizi gestiti come Zilliz si rivela preziosa, consentendogli di concentrarsi sul proprio prodotto principale e di sfruttare l'esperienza di Zilliz nell'ottimizzazione dei database.
Il passaggio da Pinecone a Zilliz Cloud on GCP è dovuto alla necessità di recuperare dati su larga scala e alla scalabilità del loro strumento nel tempo in relazione alle dimensioni dell'indice. Sebbene Pinecone offrisse servizi gestiti, non offriva il controllo granulare e la scalabilità realmente efficace di cui avevano bisogno. L'accesso alle informazioni e ai dati relativi alle metriche delle prestazioni, come l'allocazione del calcolo e le prestazioni coerenti in tempo reale con l'espansione degli indici, era fondamentale. Con la previsione di avere centinaia di milioni o miliardi di punti di dati all'interno dei loro indici vettoriali, l'azienda ha cercato una soluzione in grado di gestire efficacemente tali requisiti di scalabilità, scegliendo Zilliz Cloud per questo caso d'uso.
Dopo aver incontrato difficoltà con Pinecone, Sam ha esplorato vari benchmark e classifiche per diversi database vettoriali, scoprendo infine Zilliz Cloud. Il team di Dopple AI, particolarmente interessato ai risultati dei benchmark, era entusiasta della scoperta e desideroso di esplorarne ulteriormente i potenziali vantaggi.
Qual è il prossimo passo di Dopple Labs?
Sam e il suo team hanno recentemente migliorato il loro servizio introducendo un'esperienza audio-visiva. Hanno iniziato integrando le reazioni alle immagini, fornendo a ogni personaggio un insieme diversificato di circa 800-900 immagini che raffigurano 30 emozioni, ciascuna con diverse versioni. Durante l'inferenza, un altro LM determina lo stato d'animo della risposta, selezionando un'immagine casuale dalla categoria di emozioni corrispondente per garantire la varietà. Inoltre, hanno introdotto la didascalia vocale e lo streaming dei personaggi dal loro provider di inferenza LM a ElevenLabs per lo streaming audio in tempo reale. Questa esperienza audiovisiva sincronizzata mostra le immagini delle reazioni emotive accanto al testo che appare nell'app. E questo è solo l'inizio, perché si prevede di aggiungere chiamate vocali, immagini in movimento e video. Alla fine, gli utenti potranno effettuare chiamate FaceTime con i propri Dopples per avere conversazioni in tempo reale.
- Informazioni su Dopple AI
- Le sfide: Portare la memoria nelle conversazioni con i chatbot
- Riavvolgimento per controllare la trama del gioco di ruolo
- Le soluzioni: Zilliz Cloud per ricerche vettoriali sicure e ad alte prestazioni
- Qual è il prossimo passo di Dopple Labs?
Contenuto
Caso d'Uso
Settore
Intrattenimento