Comment Milvus a transformé le système de déduplication vidéo de BIGO pour optimiser le débit et l'expérience utilisateur

<200ms
temps de réponse de la recherche avec un taux de rappel élevé
>700 millions
l'indexation et la gestion des vecteurs d'intégration
Augmentation significative
débit d'interrogation sans compromettre les performances
Milvus has done an extraordinary job in revolutionizing Likee's video deduplication system, which significantly fueled the growth of BIGO's short-video business.
Xinyang Guo
A propos de BIGO
BIGO Technology (BIGO) est une entreprise technologique en pleine expansion, basée à Singapour, qui compte plus de 30 bureaux et six centres de recherche et développement dans le monde. S'appuyant sur des technologies d'intelligence artificielle, BIGO propose des produits et services vidéo tels que Bigo Live pour la diffusion en direct et Likee pour le partage de courtes vidéos, et est devenu extrêmement populaire avec plus de 400 millions d'utilisateurs dans 150 pays.
Défis : Suppression d'un grand nombre de vidéos dupliquées
Likee](https://likee.video/) est une incroyable plateforme mondiale qui permet aux utilisateurs de s'exprimer et de partager leurs moments par le biais de courtes vidéos. Cependant, avec des dizaines de millions d'utilisateurs générant des vidéos chaque jour, Likee est confronté à un défi de taille : améliorer l'expérience des utilisateurs et recommander un contenu de haute qualité. L'un des plus grands défis que Likee doit relever est la quantité considérable de vidéos dupliquées téléchargées sur la plateforme.
Pour résoudre ce problème, Likee a besoin d'une solution qui détecte et supprime rapidement et efficacement les vidéos dupliquées. Un tel processus est complexe et exige une compréhension approfondie des caractéristiques distinctes de chaque vidéo et la capacité de les comparer et de les opposer rapidement.
Auparavant, Likee utilisait Faiss, une bibliothèque de recherche de similarités et de regroupement de vecteurs denses. Cependant, Faiss avait du mal à gérer des quantités massives de vecteurs et avait une réponse lente et un débit limité. L'équipe Likee avait donc un besoin urgent d'une solution plus efficace pour la recherche et la détection de similarités.
Solution : Améliorer la recherche de similarité vidéo avec Milvus
[Milvus] (https://milvus.io/) est une base de données vectorielle open-source conçue pour stocker, indexer et interroger les vecteurs d'intégration, avec une recherche de similarité ultra-rapide. Avec Milvus, l'équipe d'ingénieurs de Likee a créé un système de déduplication plus efficace pour effectuer des recherches en moins de 200 ms tout en maintenant un taux de rappel élevé. Likee a également bénéficié de l'évolutivité de Milvus, ce qui a permis d'améliorer le débit des requêtes vectorielles et l'efficacité du travail.
Comment Likee identifie les vidéos dupliquées
Le système de déduplication de Likee découpe chaque nouvelle vidéo téléchargée en 15 à 20 images et convertit chacune d'entre elles en un vecteur de caractéristiques. Ensuite, le système recherche les k vecteurs les plus similaires dans une base de données qui contient plus de 700 millions de vecteurs correspondant à toutes les vidéos existantes. Le système détermine ensuite quelles bandes sont des doublons et doivent être supprimées.
Le diagramme ci-dessous illustre la structure du système de déduplication de Likee. Tout d'abord, les nouvelles vidéos sont stockées dans Kafka, un système de stockage de données, et consommées par les consommateurs Kafka. Le système utilise ensuite des modèles de deep learning pour convertir les vidéos en embeddings et les envoyer au vérificateur de similarité. Avant d'être chargés pour d'autres recherches, les embeddings sont indexés par Milvus et stockés dans Ceph. Enfin, le système stocke les identifiants vidéo qui correspondent à ces enchâssements dans TiDB ou Pika, deux bases de données relationnelles.
L'architecture du système de déduplication de Likee
Comment Milvus renforce la recherche de similarité de Likee
Le diagramme ci-dessous illustre les étapes d'une procédure de recherche de similarités.
- Pour effectuer une recherche de similarité vidéo, Milvus effectue d'abord une recherche par lots pour rappeler les 100 premiers vecteurs similaires à chaque vecteur de caractéristiques extrait d'une nouvelle vidéo. Chaque vecteur similaire est associé à l'ID vidéo correspondant.
- Ensuite, Milvus supprime les vidéos en double en comparant les ID vidéo et en récupérant les vecteurs de caractéristiques des vidéos restantes dans TiDB ou Pika.
- Enfin, Milvus calcule et évalue la similarité entre les vecteurs de caractéristiques récupérés et ceux de la vidéo demandée. L'identifiant de la vidéo ayant le score le plus élevé est renvoyé comme résultat.
Comment Milvus aide la recherche de similarité de Likee
Résultats : Amélioration du débit des requêtes avec une réponse de recherche plus rapide
Milvus, un moteur de recherche vectoriel très performant, a joué un rôle essentiel dans le système de déduplication vidéo de Likee, améliorant considérablement l'expérience des utilisateurs et la croissance des activités de BIGO dans le domaine de la vidéo courte. Grâce à Milvus, Likee peut effectuer une recherche en moins de 200 ms, ce qui garantit un taux de rappel élevé. Milvus est également évolutif horizontalement, ce qui permet à Likee d'augmenter considérablement le débit des requêtes vectorielles tout en améliorant l'efficacité du système sans compromettre les performances.
Outre la déduplication vidéo, Bigo prévoit d'utiliser Milvus à d'autres fins liées à la vidéo, telles que l'analyse des sentiments, la reconnaissance d'objets et la recommandation vidéo personnalisée. BIGO et Milvus sont enthousiastes à l'idée d'étendre leur coopération dans ces domaines et au-delà.
We plan to expand the use of Milvus in different fields like content moderation and restriction and customized video services. BIGO and Milvus working together will benefit both businesses and I look forward to Milvus and its community to keep growing and prosper.
Xinyang Guo