Porque é que a Dopple Labs escolheu o Zilliz Cloud em vez do Pinecone para pesquisas vectoriais seguras e de elevado desempenho

Uma alternativa à pinha
com controlo granular, escalonamento eficaz e elevado desempenho
Uma escala de mil milhões
armazenamento e recuperação de dados vectoriais
Código aberto
para um melhor desempenho do ML e do VectorDB
I appreciated using the open standard evaluation benchmarks for machine learning in general; this is also true for vector databases. The ones that Zilliz often publicizes have been beneficial, and the fact that they are open is significant.
Sam Butler
Sobre a Dopple AI
A Dopple Labs Inc. é a força visionária por detrás da Dopple.AI, uma plataforma inovadora que revoluciona as interações entre humanos e IA. Disponível para iOS e Android, a Dopple.AI permite aos utilizadores criar clones de IA realistas, ou "Dopples", integrando perfeitamente vídeo, áudio e mensagens para experiências imersivas.
Na sua essência, o Dopple.AI utiliza a avançada tecnologia LLM baseada em Llama2, em que os utilizadores interagem com os Dopples através de conversas em vários dispositivos. Quer tenham sido criados pela Dopple Labs ou pelos próprios utilizadores, os Dopples participam em conversas realistas com base nas informações e sugestões do utilizador.
Recentemente, a Dopple Labs introduziu funcionalidades inovadoras, como as reacções de imagem, em que as imagens ricas em emoções melhoram as interações dos utilizadores com os Dopples. Além disso, as legendas de voz e a transmissão de áudio em tempo real melhoram ainda mais a experiência audiovisual, promovendo um maior envolvimento e ligação.
À medida que a Dopple.AI continua a ultrapassar os limites da companhia orientada para a IA, permanece na vanguarda da redefinição da forma como os indivíduos interagem com clones de IA personalizados.
Os desafios: Trazer a memória para as conversas do chatbot
Os utilizadores da Dopple AI demonstram um profundo conhecimento das personagens de IA da plataforma, empregando técnicas avançadas para moldar as suas interações. Utilizam funcionalidades como a edição de mensagens e o rerolling para orientar as conversas, mostrando o seu controlo sobre o diálogo e criando trocas personalizadas. Essencialmente, os utilizadores agem como "engenheiros de prontidão," construindo habilmente conversas com personagens de IA. Orientam os diálogos de acordo com as suas preferências e objectivos através de sugestões e edições estratégicas, resultando em interações dinâmicas.
A equipa da Dopple AI, liderada por Sam Butler, Diretor de Aprendizagem Automática, consegue construir este tipo de caraterísticas utilizando a técnica Retrieval Augmented Generation (RAG) para implementar um sistema de armazenamento de memória através do armazenamento de resumos de conversas. Isto implica tomar algumas mensagens como contexto e a mensagem principal como aquela sobre a qual se pretende armazenar a memória. De seguida, utilizam um [LLM] diferente (https://zilliz.com/glossary/large-language-models-(llms)) para criar um resumo dessas mensagens. O resumo resultante é incorporado e armazenado numa base de dados vetorial.
Quando um utilizador submete uma consulta, esta é convertida numa incorporação utilizada para procurar incorporações semelhantes numa base de dados vetorial. Isto permite o acesso a conversas passadas para além da janela de contexto imediato do pedido dado ao LLM. Ao aproveitar os embeddings de interações anteriores, o LLM ganha capacidades de memória de longo prazo. Por exemplo, se um utilizador perguntar "Qual é o nome do meu peixe de estimação?" e a conversa sobre o seu peixe de estimação tiver ocorrido no passado e fora da janela de contexto, o utilizador pode converter essa pergunta num embedding para recuperar essa informação de uma base de dados vetorial.
Re-rolar para controlar a linha de história do role-playing
Os utilizadores têm a flexibilidade de editar a sua mensagem mais recente, o que lhes permite aperfeiçoar a sua conversa com o LLM. Se receberem uma resposta que não os satisfaça, podem optar por "reenviar" sem alterar a sua última mensagem, solicitando ao LLM uma nova resposta para explorar diferentes opções. Além disso, os utilizadores podem revisitar e modificar a sua última mensagem para influenciar a resposta do LLM, elaborando a sua conversa passo a passo para se alinhar com a direção desejada. Este nível de controlo é particularmente valorizado pelos utilizadores avançados que têm um objetivo claro em mente para a conversa. Por outro lado, os utilizadores principiantes ou menos frequentes podem assumir um papel mais passivo, permitindo que a conversa se desenrole naturalmente. No entanto, a base de utilizadores principais da Dopple AI envolve-se normalmente numa participação ativa semelhante à de uma missão ou de cenários de representação de papéis, reflectindo a sua intenção de orientar a conversa para resultados específicos.
Cada resumo de conversa é armazenado como um item único na base de dados, permitindo uma filtragem eficiente com base nos nomes dos utilizadores. Os resumos são gerados através da consolidação de cada três ou quatro mensagens num resumo coerente, que é depois perfeitamente integrado numa base de dados de vectores. Este processo continua indefinidamente, assegurando uma acumulação contínua de memórias de conversação. As memórias são mantidas, a menos que um utilizador apague explicitamente um segmento de conversação, caso em que as memórias associadas também são removidas. No entanto, se uma conversa se destina a ser revisitada ou continuada no futuro, as memórias permanecem acessíveis na base de dados vetorial.
Um aspeto intrigante desta implementação do RAG é que muitas destas personagens e referências mediáticas são intemporais e estão frequentemente presentes nos seus dados de treino, pelo que a verificação automática dos factos se torna menos crítica. Isto deve-se ao facto de os utilizadores darem prioridade ao valor do entretenimento em detrimento da exatidão dos factos
As soluções: Zilliz Cloud para pesquisas vectoriais seguras e de elevado desempenho
Sam Butler também supervisiona a coordenação entre a equipa de ML e as equipas de front-end responsáveis pela implementação de designs nas suas aplicações e plataformas Web. Um dos seus maiores desafios, como muitos no sector, é manter-se a par dos últimos avanços nos modelos. Com o surgimento constante de novos modelos e a evolução do estado da arte, manter-se a par requer um esforço significativo. É aqui que a parceria com um fornecedor de serviços geridos como a Zilliz se revela inestimável, permitindo que se concentrem no seu produto principal enquanto aproveitam a experiência da Zilliz na otimização de bases de dados.
A transição da Pinecone para o Zilliz Cloud on GCP deveu-se à necessidade de recuperação em grande escala e à escalabilidade da sua ferramenta ao longo do tempo em relação ao tamanho do índice. Embora a Pinecone oferecesse serviços geridos, não tinha o controlo granular e a verdadeira escalabilidade eficaz de que necessitavam. O acesso a informações e dados relativos a métricas de desempenho, como a atribuição de computação e o desempenho consistente em tempo real à medida que os índices se expandiam, era crucial. Com a previsão de ter centenas de milhões a milhares de milhões de pontos de dados nos seus índices vectoriais, procuraram uma solução que pudesse lidar eficazmente com esses requisitos de escalabilidade, o que os levou a escolher o Zilliz Cloud para servir este caso de utilização.
Depois de encontrar desafios com Pinecone, Sam explorou vários benchmarks e leaderboards para diferentes bases de dados vectoriais, acabando por descobrir o Zilliz Cloud. A equipa da Dopple AI, particularmente interessada em resultados de benchmarking, ficou entusiasmada com a descoberta e ansiosa por explorar melhor os seus potenciais benefícios.
O que se segue para a Dopple Labs?
Sam e a sua equipa melhoraram recentemente o seu serviço, introduzindo uma experiência visual e sonora. Começaram por integrar reacções de imagem, fornecendo a cada personagem um conjunto diversificado de cerca de 800 a 900 imagens que representam 30 emoções, cada uma com várias versões diferentes. Durante a inferência, outro LM determina o estado de espírito da resposta, selecionando uma imagem aleatória da categoria de emoção correspondente para garantir a variedade. Além disso, introduziram legendas de voz e caracteres de streaming do seu fornecedor de inferência de LM para a ElevenLabs para streaming de áudio em tempo real. Esta experiência audiovisual sincronizada apresenta imagens de reacções emocionais juntamente com o texto, tal como aparece na aplicação. E isto é apenas o início, uma vez que planeiam adicionar chamadas de voz deslizantes, imagens em movimento e vídeo. Eventualmente, os utilizadores podem fazer chamadas FaceTime com os seus Dopples para terem conversas em tempo real.