Почему Dopple Labs выбрала Zilliz Cloud вместо Pinecone для безопасного и высокопроизводительного поиска векторов

Альтернатива буратинам
с гранулярным контролем, эффективным масштабированием и высокой производительностью
Миллиардный масштаб
хранение и поиск векторных данных
Открытый исходный код
для повышения производительности ML и VectorDB
I appreciated using the open standard evaluation benchmarks for machine learning in general; this is also true for vector databases. The ones that Zilliz often publicizes have been beneficial, and the fact that they are open is significant.
Sam Butler
О Dopple AI
Компания Dopple Labs Inc. является идейным вдохновителем Dopple.AI, инновационной платформы, революционизирующей взаимодействие человека и искусственного интеллекта. Доступная на iOS и Android, Dopple.AI позволяет пользователям создавать реалистичных клонов ИИ, или "допплеров", легко интегрируя видео, аудио и обмен сообщениями для создания захватывающего опыта.
В своей основе Dopple.AI использует передовую технологию LLM на базе Llama2, где пользователи взаимодействуют с допплерами через чаты на различных устройствах. Созданные Dopple Labs или самими пользователями, допплы ведут реалистичные диалоги, основываясь на пользовательских данных и подсказках.
Недавно Dopple Labs представила революционные функции, такие как реакции на изображения, когда изображения, насыщенные эмоциями, усиливают взаимодействие пользователей с Dopples. Кроме того, голосовые субтитры и потоковое аудио в реальном времени повышают уровень аудиовизуального восприятия, способствуя более глубокому вовлечению и связи.
Компания Dopple.AI продолжает расширять границы возможностей ИИ-компаньонов, оставаясь в авангарде переосмысления способов взаимодействия людей с персонализированными ИИ-клонами.
Задачи: Привнесение памяти в разговоры чатботов
Пользователи Dopple AI демонстрируют глубокое понимание персонажей ИИ платформы, применяя передовые методы для формирования их взаимодействия. Они используют такие функции, как редактирование сообщений и повторное обращение, чтобы направлять беседу, демонстрируя свой контроль над диалогом и создавая персонализированные обмены. По сути, пользователи выступают в роли "инженеров подсказок", умело выстраивая диалоги с персонажами ИИ. Они направляют диалог в соответствии со своими предпочтениями и целями с помощью стратегических подсказок и правок, что приводит к динамичному взаимодействию.
Команда Dopple AI под руководством Сэма Батлера, директора по машинному обучению, способна создавать подобные функции, используя технику Retrieval Augmented Generation (RAG) для реализации системы хранения памяти путем сохранения резюме разговоров. Для этого нужно взять несколько сообщений для контекста и основное сообщение, о котором нужно сохранить память. Затем они используют другой LLM для создания краткого изложения этих сообщений. Полученное резюме встраивается и хранится в векторной базе данных.
Когда пользователь отправляет запрос, он преобразуется во вложение, которое используется для поиска аналогичных вложений в векторной базе данных. Это позволяет получить доступ к прошлым разговорам за пределами непосредственного контекстного окна подсказки, выданной LLM. Используя вкрапления из предыдущих взаимодействий, LLM приобретает возможности долгосрочной памяти. Например, если пользователь спрашивает "Как зовут мою домашнюю рыбку?", а разговор о его домашней рыбке произошел в прошлом и за пределами контекстного окна, он может преобразовать этот запрос во вставку, чтобы получить эту информацию из векторной базы данных.
Повторное прохождение для управления сюжетной линией ролевой игры
Пользователи могут редактировать свое последнее сообщение, что позволяет им уточнить свою беседу с LLM. Если они получат ответ, который их не устроит, они могут выбрать "повтор", не изменяя своего последнего сообщения, что побудит LLM к новому ответу, чтобы рассмотреть различные варианты. Кроме того, пользователи могут пересмотреть и изменить свое последнее сообщение, чтобы повлиять на ответ LLM, шаг за шагом выстраивая разговор в желаемом направлении. Такой уровень контроля особенно ценен для опытных пользователей, которые четко определяют цель разговора. И наоборот, новички или пользователи, посещающие сайт не так часто, могут занять более пассивную роль, позволяя разговору развиваться естественным образом. Однако основные пользователи Dopple AI обычно принимают активное участие в разговоре, как в квесте или ролевой игре, что отражает их намерение направить разговор к определенному результату.
Каждое резюме разговора хранится в базе данных как уникальный элемент, что позволяет эффективно фильтровать его на основе имен пользователей. Резюме создаются путем объединения каждых трех-четырех сообщений в одно целостное резюме, которое затем плавно интегрируется в векторную базу данных. Этот процесс продолжается бесконечно, обеспечивая непрерывное накопление воспоминаний о разговорах. Воспоминания сохраняются до тех пор, пока пользователь явно не удалит тему разговора, в этом случае связанные с ней воспоминания также удаляются. Однако если разговор предполагается пересмотреть или продолжить в будущем, воспоминания остаются доступными в векторной базе данных.
Интригующим аспектом этой реализации RAG является то, что многие из этих персонажей и медиа-отсылок являются вечными и часто присутствуют в обучающих данных, поэтому автоматическая проверка фактов становится менее критичной. Это объясняется тем, что пользователи отдают предпочтение развлекательной ценности перед точностью фактов.
Решения: Облако Zilliz для безопасного и высокопроизводительного векторного поиска
Сэм Батлер также следит за координацией между командой ML и фронтенд-командами, отвечающими за реализацию дизайна в приложениях и веб-платформах. Одной из самых больших проблем для них, как и для многих в этой отрасли, является постоянное слежение за последними достижениями в области моделей. В условиях постоянного появления новых моделей и развития современного уровня техники, чтобы идти в ногу со временем, требуются значительные усилия. Именно здесь партнерство с поставщиком управляемых услуг, таким как Zilliz, оказывается неоценимым, позволяя им сосредоточиться на своем основном продукте, используя при этом опыт Zilliz в оптимизации баз данных.
Переход от Pinecone к Zilliz Cloud on GCP был обусловлен потребностью в крупномасштабном поиске и масштабируемостью инструмента с течением времени в зависимости от размера индекса. Хотя Pinecone предлагала управляемые услуги, им не хватало гранулярного контроля и действительно эффективного масштабирования, которое им требовалось. Доступ к информации и данным о показателях производительности, таких как распределение вычислений и постоянная производительность в реальном времени по мере расширения индексов, был крайне важен. Поскольку ожидалось, что в векторных индексах будут храниться от сотен миллионов до миллиардов точек данных, компания искала решение, способное эффективно справиться с такими требованиями к масштабированию, и в результате выбрала Zilliz Cloud для решения этой задачи.
После проблем с Pinecone Сэм изучил различные бенчмарки и leaderboards для различных векторных баз данных и в итоге обнаружил Zilliz Cloud. Команда Dopple AI, особенно заинтересованная в результатах бенчмарков, была в восторге от этого открытия и стремилась изучить его потенциальные преимущества в дальнейшем.
Что дальше для Dopple Labs?
Недавно Сэм и его команда усовершенствовали свой сервис, внедрив визуально-звуковой опыт. Они начали с интеграции реакций на изображения, предоставив каждому персонажу разнообразный набор из примерно 800-900 изображений, изображающих 30 эмоций, каждая из которых имеет несколько различных версий. Во время умозаключений другой LM определяет настроение реакции, выбирая случайное изображение из соответствующей категории эмоций, чтобы обеспечить разнообразие. Кроме того, в ElevenLabs были внедрены голосовые субтитры и потоковая передача символов от провайдера LM inference к ElevenLabs для потокового аудио в реальном времени. Этот синхронизированный аудиовизуальный опыт отображает изображения эмоциональных реакций вместе с текстом, как он появляется в приложении. И это только начало, поскольку планируется добавить голосовые звонки, движущиеся изображения и видео. В конечном итоге пользователи смогут звонить по FaceTime и общаться со своими Dopples в режиме реального времени.