Cómo Milvus transformó el sistema de deduplicación de vídeo de BIGO para optimizar el rendimiento y la experiencia del usuario

<200ms
tiempo de respuesta de búsqueda con un alto índice de recuperación
>700 millones
indexación y gestión de vectores incrustados
Aumento significativo
rendimiento de las consultas sin comprometer el rendimiento
Milvus has done an extraordinary job in revolutionizing Likee's video deduplication system, which significantly fueled the growth of BIGO's short-video business.
Xinyang Guo
Acerca de BIGO
BIGO Technology (BIGO) es una empresa tecnológica en rápida expansión con sede en Singapur y más de 30 oficinas y seis centros de I+D en todo el mundo. Impulsada por tecnologías de Inteligencia Artificial, BIGO ofrece productos y servicios basados en vídeo como Bigo Live para streaming en directo y Likee para compartir vídeos cortos y se ha hecho enormemente popular con más de 400 millones de usuarios en 150 países.
Desafíos: Eliminar cantidades masivas de vídeos duplicados
Likee](https://likee.video/) es una increíble plataforma global que permite a los usuarios expresarse y compartir sus momentos a través de vídeos cortos. Sin embargo, con decenas de millones de usuarios generando vídeos a diario, Likee se enfrenta a un reto importante a la hora de mejorar la experiencia del usuario y recomendar contenidos de alta calidad. Uno de los mayores retos que debe superar Likee es la enorme cantidad de vídeos duplicados que se suben a la plataforma.
Para hacer frente a este problema, Likee necesita una solución que detecte y elimine los vídeos duplicados de forma rápida y eficaz. Este proceso es complicado y exige un conocimiento exhaustivo de las características distintivas de cada vídeo y la capacidad de compararlos y contrastarlos rápidamente.
Anteriormente, Likee utilizaba Faiss, una biblioteca para la búsqueda de similitudes y la agrupación de vectores densos. Sin embargo, Faiss tenía dificultades para gestionar cantidades masivas de vectores y ofrecía una respuesta lenta y un rendimiento limitado. El equipo de Likee necesitaba urgentemente una solución más eficaz para la búsqueda y detección de similitudes.
Solución: Potenciación de la búsqueda de similitudes en vídeo con Milvus
Milvus es una base de datos vectorial de código abierto creada específicamente para almacenar, indexar y consultar vectores incrustados, con una búsqueda de similitudes ultrarrápida. Con Milvus, el equipo de ingenieros de Likee creó un sistema de deduplicación más eficiente para realizar búsquedas por debajo de los 200 ms manteniendo un alto índice de recuperación. Likee también se benefició de la escalabilidad de Milvus, lo que mejoró el rendimiento de las consultas vectoriales y aumentó la eficacia del trabajo.
Cómo identifica Likee los vídeos duplicados
El sistema de deduplicación de Likee corta cada vídeo recién subido en 15-20 fotogramas y convierte cada uno de ellos en un vector de características. A continuación, el sistema busca los k vectores más similares en una base de datos que almacena más de 700 millones de vectores correspondientes a todos los vídeos existentes. A continuación, el sistema determina qué cintas son duplicados y deben eliminarse.
El diagrama siguiente ilustra la estructura del sistema de deduplicación de Likee. En primer lugar, los vídeos nuevos se almacenan en Kafka, un sistema de almacenamiento de datos, y son consumidos por los consumidores de Kafka. A continuación, el sistema utiliza modelos de aprendizaje profundo para convertir los vídeos en incrustaciones y enviarlos al auditor de similitud. Antes de cargarlos para búsquedas posteriores, Milvus indexa las incrustaciones y las almacena en Ceph. Por último, el sistema almacena los ID de vídeo que corresponden a esas incrustaciones en TiDB o Pika, dos bases de datos relacionales.
Arquitectura del sistema de deduplicación de Likee](https://assets.zilliz.com/bigo_20230525_035947_149d0c0e81.png)
Cómo Milvus potencia la búsqueda de similitudes de Likee
El diagrama siguiente ilustra las etapas de un procedimiento de búsqueda por similitud.
- Para realizar una búsqueda de similitud de vídeo, Milvus primero realiza una búsqueda por lotes para recuperar los 100 vectores más similares a cada vector de características extraído de un nuevo vídeo. Cada vector similar se asocia a su correspondiente ID de vídeo.
- A continuación, Milvus elimina los vídeos duplicados comparando los ID de vídeo y recuperando los vectores de características de los vídeos restantes de TiDB o Pika.
- Por último, Milvus calcula y puntúa la similitud entre los vectores de características recuperados y los del vídeo de consulta. Se devuelve como resultado el ID del vídeo con la puntuación más alta.
Cómo ayuda Milvus a la búsqueda de similitud de Likee](https://assets.zilliz.com/Bigo_graphics_2_30d7ca1fc6.png)
Resultados: Mejora del rendimiento de las consultas con una respuesta de búsqueda más rápida
Milvus, un motor de búsqueda vectorial de alto rendimiento, ha desempeñado un papel vital en el sistema de deduplicación de vídeo de Likee, mejorando significativamente la experiencia del usuario y el crecimiento del negocio de vídeos cortos de BIGO. Con Milvus, Likee puede completar una búsqueda en menos de 200 ms, lo que garantiza un alto índice de recuperación. Milvus también es escalable horizontalmente, lo que permite a Likee aumentar significativamente el rendimiento de las consultas vectoriales y mejorar la eficiencia del sistema sin comprometer el rendimiento.
Además de la deduplicación de vídeo, Bigo tiene previsto utilizar Milvus para otros fines relacionados con el vídeo, como el análisis de sentimientos, el reconocimiento de objetos y la recomendación personalizada de vídeos. BIGO y Milvus están encantados de ampliar su cooperación en estas áreas y más allá.
We plan to expand the use of Milvus in different fields like content moderation and restriction and customized video services. BIGO and Milvus working together will benefit both businesses and I look forward to Milvus and its community to keep growing and prosper.
Xinyang Guo