Как Milvus преобразовал систему дедупликации видео BIGO для оптимальной пропускной способности и удобства пользователей

<200 мс
время отклика на поиск с высоким коэффициентом отзыва
>700 миллионов
индексирование и управление векторами встраивания
Значительно увеличилось
Пропускная способность запросов без ущерба для производительности
Milvus has done an extraordinary job in revolutionizing Likee's video deduplication system, which significantly fueled the growth of BIGO's short-video business.
Xinyang Guo
О BIGO
BIGO Technology (BIGO) - быстро развивающаяся технологическая компания, базирующаяся в Сингапуре и имеющая более 30 офисов и шесть научно-исследовательских центров по всему миру. Созданная на основе технологий искусственного интеллекта, компания BIGO предлагает продукты и услуги на основе видео, такие как Bigo Live для прямых трансляций и Likee для обмена короткими видео, и завоевала огромную популярность среди более чем 400 миллионов пользователей в 150 странах.
Задачи: Удаление огромного количества дубликатов видео
Likee - это невероятная глобальная платформа, позволяющая пользователям выражать себя и делиться своими моментами с помощью коротких видео. Однако, учитывая, что десятки миллионов пользователей ежедневно генерируют видео, Likee сталкивается с серьезными проблемами в улучшении пользовательского опыта и рекомендации высококачественного контента. Одной из самых больших проблем, с которыми приходится сталкиваться Likee, является огромное количество дубликатов видео, загружаемых на платформу.
Для решения этой проблемы Likee необходимо решение, которое позволит оперативно и эффективно обнаруживать и удалять дубликаты видео. Такой процесс сложен и требует всестороннего понимания особенностей каждого видео, а также умения быстро сравнивать и сопоставлять их.
Ранее в Likee использовалась библиотека Faiss, предназначенная для поиска сходства и кластеризации плотных векторов. Однако Faiss не справлялась с огромным количеством векторов, имела медленный отклик на запросы и ограниченную пропускную способность. Поэтому команде Likee срочно потребовалось более эффективное решение для поиска и обнаружения сходства.
Решение: Расширение возможностей поиска сходства видео с помощью Milvus
Milvus - это векторная база данных с открытым исходным кодом, предназначенная для хранения, индексирования и запроса векторов встраивания и обеспечивающая молниеносный поиск по сходству. С помощью Milvus команда инженеров Likee создала более эффективную систему дедупликации, позволяющую выполнять поиск менее чем за 200 мс, сохраняя при этом высокий коэффициент отзыва. Likee также выиграла от масштабируемости Milvus, что привело к увеличению пропускной способности векторных запросов и повышению эффективности работы.
Как Likee выявляет дубликаты видео
Система дедупликации Likee разрезает каждое новое загруженное видео на 15-20 кадров и преобразует каждый из них в вектор признаков. Затем система ищет k наиболее похожих векторов из базы данных, в которой хранится более 700 миллионов векторов, соответствующих всем существующим видео. Затем система определяет, какие записи являются дубликатами и требуют удаления.
На схеме ниже показана структура системы дедупликации Likee. Сначала новые видео хранятся в Kafka, системе хранения данных, и потребляются потребителями Kafka. Затем система с помощью моделей глубокого обучения преобразует видео во вкрапления и отправляет их в аудитор сходства. Перед загрузкой для дальнейшего поиска эмбеддинги индексируются Milvus и хранятся в Ceph. Наконец, система хранит идентификаторы видео, соответствующие этим вкраплениям, в TiDB или Pika, двух реляционных базах данных.
Архитектура системы дедупликации Likee
Как Milvus расширяет возможности поиска сходства в Likee
На схеме ниже показаны этапы процедуры поиска по сходству.
- Для проведения поиска сходства видео Milvus сначала выполняет пакетный поиск, чтобы вспомнить 100 лучших векторов, похожих на каждый вектор признаков, извлеченный из нового видео. Каждый похожий вектор ассоциируется с соответствующим идентификатором видео.
- Затем Milvus удаляет дубликаты видео, сравнивая идентификаторы видео и извлекая векторы признаков оставшихся видео из TiDB или Pika.
- Наконец, Milvus рассчитывает и оценивает сходство между полученными векторами признаков и векторами признаков запрашиваемого видео. В результате возвращается идентификатор видео с наибольшей оценкой.
Как Milvus помогает в поиске сходства Likee
Результаты: Улучшенная пропускная способность запросов и более быстрый отклик на поиск
Milvus, высокопроизводительная система векторного поиска, сыграла важную роль в системе дедупликации видео Likee, значительно повысив удобство работы пользователей и рост бизнеса BIGO по производству короткого видео. Используя Milvus, Likee может завершить поиск менее чем за 200 мс, обеспечивая высокий коэффициент запоминания. Milvus также горизонтально масштабируется, что позволяет Likee значительно увеличить пропускную способность векторных запросов, повышая эффективность системы без ущерба для производительности.
Помимо дедупликации видео, компания Bigo планирует использовать Milvus для решения других задач, связанных с видео, таких как анализ настроения, распознавание объектов и персонализированные видеорекомендации. BIGO и Milvus с нетерпением ждут расширения сотрудничества в этих и других областях.
We plan to expand the use of Milvus in different fields like content moderation and restriction and customized video services. BIGO and Milvus working together will benefit both businesses and I look forward to Milvus and its community to keep growing and prosper.
Xinyang Guo