Sohu eleva le raccomandazioni di notizie personalizzate con Milvus

10 volte più veloce
nella velocità di recupero vettoriale
> 95%
nell'accuratezza della classificazione delle notizie
Minor consumo di memoria
per risposte più rapide e costi ridotti
Esperienze utente di livello superiore
con raccomandazioni personalizzate
Milvus has not only streamlined but also remarkably expedited the retrieval of millions of semantic vectors, showcasing a nearly tenfold improvement compared to our previous experience with other vector similarity search engines.
Tingting Wang
Informazioni su Sohu News
Sohu, una società di servizi Internet quotata al NASDAQ, è rinomata per la sua offerta online diversificata, che include servizi pubblicitari, media e di ricerca. Sohu News, un ramo principale di Sohu, si distingue come un'azienda media leader, fornendo ampi servizi di notizie e informazione. In risposta all'evoluzione delle esigenze degli utenti, Sohu News impiega algoritmi e tecnologie di IA avanzati, come la ricerca semantica basata su vettori, per personalizzare le raccomandazioni di contenuti in base agli interessi e alle preferenze degli utenti. Sohu News, impegnata nell'innovazione e nella distribuzione di notizie in tempo reale, si posiziona come pioniera, contribuendo attivamente a plasmare il panorama dinamico dell'industria Internet cinese.
Le sfide: recupero vettoriale lento e impreciso e classificazione errata delle notizie in formato breve
Con il progresso delle tecnologie Internet e mobili, la domanda degli utenti per l'accesso alle informazioni si è evoluta dalla ricezione passiva alla ricerca attiva di notizie in linea con i propri interessi. Per soddisfare questa esigenza in cambiamento, Sohu News ha costruito un sistema di raccomandazione in grado di raccomandare agli utenti le ultime notizie in base ai loro interessi e preferenze, migliorando in ultima analisi i tassi di clic sulle notizie e la durata della lettura.
Tuttavia, sono emerse sfide con il loro precedente stack di ricerca vettoriale. Doveva essere più veloce nel recupero di grandi dataset e forniva raccomandazioni imprecise che non erano allineate con gli interessi degli utenti. Lo stack consumava inoltre memoria eccessiva durante l'esecuzione di ricerche semantiche e, a peggiorare le cose, rendeva le risposte ancora più lente. Sohu News aveva urgentemente bisogno di una tecnologia di ricerca vettoriale ad alte prestazioni ed efficiente in termini di memoria per gestire quantità massive e in costante aumento di dati non strutturati e supportare il suo sistema di raccomandazione per raccomandazioni di notizie rapide e personalizzate.
Un'altra sfida era la classificazione delle notizie in formato breve. Una classificazione precisa di ogni articolo di notizie prima della ricerca vettoriale è fondamentale per fornire raccomandazioni di contenuti utili. Gli articoli di notizie brevi, tuttavia, hanno meno caratteristiche rispetto alle notizie in formato lungo, creando difficoltà nella categorizzazione accurata. Pertanto, Sohu News necessitava di un robusto motore di ricerca vettoriale che potesse aiutare a categorizzare con precisione gli articoli di notizie brevi e identificare quelli precedentemente classificati in modo errato.
La soluzione: scegliere Milvus per costruire un potente motore di ricerca vettoriale
Dopo un'attenta valutazione, il team di Sohu News ha scelto Milvus per costruire il motore di ricerca vettoriale per il proprio sistema di raccomandazione di notizie. Milvus, un database vettoriale open-source, può gestire miliardi di punti vettoriali, offrendo prestazioni fulminee con un alto tasso di richiamo. Supporta inoltre 11 indici mainstream come FLAT, HNSW e ScaNN, offrendo maggiore flessibilità per trovare l'equilibrio tra accuratezza, prestazioni e costo.
Come funziona il sistema di raccomandazione di notizie e come Milvus lo supporta
Il sistema di raccomandazione impiega una struttura dual-tower all'interno del suo motore di ricerca vettoriale, in cui ciascuna torre rappresenta rispettivamente i vettori semantici delle preferenze degli utenti e delle notizie.
Il team di Sohu News ha optato per il modello di embedding BERT-as-service per trasformare gli articoli di notizie esistenti in vettori semantici e ha archiviato questi vettori nel database vettoriale Milvus. Quando si tratta di articoli di notizie generati di recente, questi vengono trasmessi tramite Kafka e poi sottoposti a una conversione simile in vettori semantici. Questi vettori vengono successivamente inseriti nel database vettoriale Milvus.
I profili e le preferenze degli utenti includono la cronologia di consultazione delle notizie degli utenti e parole chiave di tag etichettate in base agli interessi degli utenti. Queste parole chiave e i dati di navigazione vengono inoltre trasformati in vettori semantici utilizzando il modello di embedding BERT-as-service e quindi inviati a Milvus per una ricerca di similarità semantica.
Milvus confronta la similarità coseno dei due tipi di vettori semantici, restituisce i risultati Top-K con la similarità coseno più alta (il che significa che questi risultati sono i più simili agli interessi e alle preferenze dell'utente) e li inserisce in un pool di candidati di notizie consigliate. Successivamente, il sistema stima e classifica il tasso di clic delle notizie in questo pool, offrendo agli utenti le notizie con il tasso di clic previsto più alto.
Come Milvus migliora la classificazione delle notizie brevi
La classificazione accurata di ciascun articolo di notizie prima della ricerca vettoriale è fondamentale per fornire raccomandazioni di contenuti di valore. Le notizie brevi, che spesso contengono informazioni limitate, presentano una situazione impegnativa in cui possono facilmente verificarsi classificazioni errate. Riconoscendo le complessità della classificazione delle notizie di testo breve, Sohu News sfrutta Milvus per migliorare significativamente l'accuratezza della classificazione delle notizie.
Il team utilizza il modello BERT-as-service per trasformare gli articoli di notizie lunghi in vettori semantici, ingerendo senza soluzione di continuità questi vettori in Milvus. Contemporaneamente, gli articoli di notizie brevi vengono convertiti in vettori semantici e inviati a Milvus per recuperare i 20 articoli di notizie lunghi con la similarità coseno più alta.
Il team analizza quindi le categorie di questi 20 articoli di notizie lunghi più simili semanticamente alla notizia breve interrogata. Supponiamo che più di 18 di questi articoli condividano una categoria coerente ma divergano dalla categoria assegnata alla notizia breve interrogata. In tal caso, ciò segnala un potenziale errore nella classificazione della categoria della notizia breve. In tali casi, il team corregge prontamente questi errori. Il tasso di accuratezza della classificazione supera il 95% incorporando Milvus in questo processo.
Questo approccio innovativo, in sinergia con le capacità di Milvus, non solo affronta efficacemente le sfide della classificazione delle notizie di testo breve, ma contribuisce anche allo sviluppo di un corpus prezioso per l'addestramento di futuri classificatori di testi brevi.
I risultati: risposte più rapide, maggiore accuratezza delle raccomandazioni e migliore esperienza utente
La collaborazione di Sohu con Milvus ha trasformato significativamente il suo sistema di raccomandazione delle notizie, offrendo agli utenti un'esperienza più personalizzata e coinvolgente. Con Milvus, il sistema di raccomandazione di Sohu News ha raggiunto una velocità di recupero vettoriale 10 volte superiore e ha migliorato notevolmente l'accuratezza delle raccomandazioni. In particolare, Milvus ha portato il tasso di accuratezza della classificazione delle notizie brevi a oltre il 95%.
Milvus supporta gli indici mainstream e garantisce un elevato richiamo su dataset massivi, offrendo maggiore flessibilità per bilanciare accuratezza, prestazioni e costi. La sua efficienza nel consumo di memoria e la capacità di gestire volumi di dati sostanziali si allineano perfettamente alle esigenze operative di Sohu.
Questo case study è stato inizialmente scritto da Tingting Wang, ingegnere dell'algoritmo NLP presso Sohu, ed è modificato e pubblicato qui con autorizzazione.
- Informazioni su Sohu News
- Le sfide: recupero vettoriale lento e impreciso e classificazione errata delle notizie in formato breve
- La soluzione: scegliere Milvus per costruire un potente motore di ricerca vettoriale
- I risultati: risposte più rapide, maggiore accuratezza delle raccomandazioni e migliore esperienza utente
Contenuto
Settore
Media


