Come Milvus ha trasformato il sistema di deduplicazione video di BIGO per ottimizzare il throughput e l'esperienza dell'utente

<200ms
tempo di risposta alla ricerca con un alto tasso di richiamo
>700 milioni
indicizzazione e gestione dei vettori embedding
Aumento significativo
throughput delle query senza compromettere le prestazioni
Milvus has done an extraordinary job in revolutionizing Likee's video deduplication system, which significantly fueled the growth of BIGO's short-video business.
Xinyang Guo
Informazioni su BIGO
BIGO Technology (BIGO) è un'azienda tecnologica in rapida espansione con sede a Singapore e oltre 30 uffici e sei centri di ricerca e sviluppo in tutto il mondo. Grazie alle tecnologie di intelligenza artificiale, BIGO offre prodotti e servizi basati sui video, come Bigo Live per lo streaming in diretta e Likee per la condivisione di brevi video, ed è diventata estremamente popolare con oltre 400 milioni di utenti in 150 Paesi.
Sfide: Rimozione di un'enorme quantità di video duplicati
Likee è un'incredibile piattaforma globale che consente agli utenti di esprimersi e condividere i propri momenti attraverso brevi video. Tuttavia, con decine di milioni di utenti che generano video ogni giorno, Likee deve affrontare una sfida significativa per migliorare l'esperienza degli utenti e raccomandare contenuti di alta qualità. Una delle sfide più grandi che Likee deve superare è l'enorme quantità di video duplicati caricati sulla piattaforma.
Per affrontare questo problema, Likee ha bisogno di una soluzione che rilevi e rimuova i video duplicati in modo rapido ed efficiente. Un processo del genere è complicato e richiede una comprensione completa delle caratteristiche distintive di ciascun video e la capacità di confrontarli e contrastarli rapidamente.
In precedenza, Likee utilizzava Faiss, una libreria per la ricerca di similarità e il clustering di vettori densi. Tuttavia, Faiss faticava a gestire quantità massicce di vettori e aveva una risposta lenta alle query e un throughput limitato. Il team di Likee aveva quindi urgentemente bisogno di una soluzione più efficiente per la ricerca e il rilevamento delle somiglianze.
Soluzione: Potenziare la ricerca di similarità video con Milvus
Milvus è un database vettoriale open-source costruito appositamente per memorizzare, indicizzare e interrogare i vettori di incorporamento, con una ricerca di similarità rapidissima. Con Milvus, il team di ingegneri di Likee ha creato un sistema di deduplicazione più efficiente, in grado di eseguire ricerche al di sotto dei 200 ms mantenendo un alto tasso di richiamo. Likee ha inoltre beneficiato della scalabilità di Milvus, che ha permesso di migliorare il throughput delle query vettoriali e di aumentare l'efficienza lavorativa.
Come Likee identifica i video duplicati
Il sistema di deduplicazione di Likee taglia ogni video appena caricato in 15-20 fotogrammi e li converte in un vettore di caratteristiche. Quindi, il sistema cerca i vettori più simili tra i k da un database che contiene oltre 700 milioni di vettori corrispondenti a tutti i video esistenti. Quindi, il sistema determina quali video sono duplicati e devono essere rimossi.
Il diagramma seguente illustra la struttura del sistema di deduplicazione di Likee. In primo luogo, i nuovi video vengono memorizzati in Kafka, un sistema di archiviazione dei dati, e consumati dai consumatori di Kafka. Il sistema utilizza quindi modelli di deep learning per convertire i video in embeddings e inviarli al verificatore di similarità. Prima di essere caricati per ulteriori ricerche, gli embeddings vengono indicizzati da Milvus e memorizzati in Ceph. Infine, il sistema memorizza gli ID dei video corrispondenti agli embeddings in TiDB o Pika, due database relazionali.
L'architettura del sistema di deduplicazione di Likee
Come Milvus potenzia la ricerca di similarità di Likee
Il diagramma seguente illustra le fasi di una procedura di ricerca per similarità.
- Per condurre una ricerca di similarità video, Milvus esegue innanzitutto una ricerca batch per richiamare i primi 100 vettori simili a ciascun vettore di caratteristiche estratto da un nuovo video. Ogni vettore simile è associato all'ID del video corrispondente.
- Successivamente, Milvus rimuove i video duplicati confrontando gli ID dei video e recuperando i vettori di caratteristiche dei video rimanenti da TiDB o Pika.
- Infine, Milvus calcola e assegna un punteggio alla somiglianza tra i vettori delle caratteristiche recuperati e quelli del video di query. Il risultato è l'ID del video con il punteggio più alto.
Come Milvus aiuta la ricerca per similarità di Likee
Risultati: Miglioramento del throughput delle query con una risposta di ricerca più rapida
Milvus, un motore di ricerca vettoriale ad alte prestazioni, ha svolto un ruolo fondamentale nel sistema di deduplicazione video di Likee, migliorando in modo significativo l'esperienza dell'utente e la crescita del business dei video brevi di BIGO. Utilizzando Milvus, Likee è in grado di completare una ricerca in meno di 200 ms, garantendo un elevato tasso di richiamo. Milvus è anche scalabile orizzontalmente, consentendo a Likee di aumentare significativamente il throughput delle query vettoriali, migliorando l'efficienza del sistema senza compromettere le prestazioni.
Oltre alla deduplicazione dei video, Bigo ha in programma di utilizzare Milvus per altri scopi legati ai video, come l'analisi del sentiment, il riconoscimento degli oggetti e la raccomandazione di video personalizzati. BIGO e Milvus sono entusiasti di espandere la loro collaborazione in queste aree e oltre.
We plan to expand the use of Milvus in different fields like content moderation and restriction and customized video services. BIGO and Milvus working together will benefit both businesses and I look forward to Milvus and its community to keep growing and prosper.
Xinyang Guo