Sohu améliore les recommandations d’actualités personnalisées avec Milvus

10 fois plus rapide
en vitesse de récupération vectorielle
> 95 %
en précision de classification des actualités
Consommation de mémoire réduite
pour des réponses plus rapides et un coût réduit
Expériences utilisateur améliorées
avec des recommandations personnalisées
Milvus has not only streamlined but also remarkably expedited the retrieval of millions of semantic vectors, showcasing a nearly tenfold improvement compared to our previous experience with other vector similarity search engines.
Tingting Wang
À propos de Sohu News
Sohu, une entreprise de services Internet cotée au NASDAQ, est réputée pour la diversité de ses offres en ligne, notamment la publicité, les médias et les services de recherche. Sohu News, une branche principale de Sohu, se distingue comme une activité médiatique de premier plan, fournissant de vastes services d’actualités et d’information. En réponse à l’évolution des besoins des utilisateurs, Sohu News emploie des algorithmes et technologies d’IA avancés, tels que la recherche sémantique basée sur des vecteurs, afin de personnaliser les recommandations de contenu en fonction des centres d’intérêt et des préférences des utilisateurs. Sohu News, engagée en faveur de l’innovation et de la diffusion d’actualités en temps réel, se positionne comme un pionnier, façonnant activement le paysage dynamique de l’industrie Internet chinoise.
Les défis : une récupération vectorielle lente et imprécise et une mauvaise classification des actualités en texte court
À mesure que les technologies Internet et mobiles progressent, la demande des utilisateurs en matière d’accès à l’information est passée d’une réception passive à une recherche active d’actualités correspondant à leurs centres d’intérêt. Pour répondre à ce besoin changeant, Sohu News a construit un système de recommandation capable de recommander les dernières actualités aux utilisateurs en fonction de leurs centres d’intérêt et de leurs préférences, améliorant ainsi au final les taux de clics sur les actualités et la durée de lecture.
Cependant, des défis sont apparus avec leur précédente pile de recherche vectorielle. Elle devait être plus rapide lors de la récupération de grands ensembles de données et fournissait des recommandations imprécises qui ne correspondaient pas aux centres d’intérêt des utilisateurs. La pile consommait également une quantité excessive de mémoire lors des recherches sémantiques et, pour ne rien arranger, ralentissait encore davantage les réponses. Sohu News avait un besoin urgent d’une technologie de recherche vectorielle haute performance et économe en mémoire pour gérer des quantités massives et sans cesse croissantes de données non structurées et prendre en charge son système de recommandation afin de fournir des recommandations d’actualités rapides et personnalisées.
Un autre défi était la classification des actualités en texte court. La classification précise de chaque article d’actualité avant la recherche vectorielle est cruciale pour fournir des recommandations de contenu utiles. Cependant, les courts articles d’actualité comportent moins de caractéristiques que les actualités en texte long, ce qui pose des difficultés pour une catégorisation précise. Par conséquent, Sohu News avait besoin d’un moteur de recherche vectorielle robuste pouvant aider à catégoriser avec précision les courts articles d’actualité et à identifier ceux qui avaient été mal classés auparavant.
La solution : choisir Milvus pour construire un puissant moteur de recherche vectorielle
Après mûre réflexion, l’équipe de Sohu News a choisi Milvus pour construire le moteur de recherche vectorielle de son système de recommandation d’actualités. Milvus, une base de données vectorielle open source, peut gérer des milliards de points vectoriels, offrant des performances ultra-rapides avec un taux de rappel élevé. Il prend également en charge 11 indices courants tels que FLAT, HNSW et ScaNN, offrant davantage de flexibilité pour trouver l’équilibre entre précision, performance et coût.
Fonctionnement du système de recommandation d’actualités et rôle de Milvus
Le système de recommandation emploie une structure à deux tours au sein de son moteur de recherche vectorielle, où chaque tour représente respectivement les vecteurs sémantiques des préférences des utilisateurs et des actualités.
L’équipe de Sohu News a opté pour le modèle d’embedding BERT-as-service afin de transformer les articles d’actualité existants en vecteurs sémantiques et a stocké ces vecteurs dans la base de données vectorielle Milvus. En ce qui concerne les articles d’actualité nouvellement générés, ils sont transmis via Kafka, puis subissent une conversion similaire en vecteurs sémantiques. Ces vecteurs sont ensuite insérés dans la base de données vectorielle Milvus.
Les profils et préférences des utilisateurs incluent l’historique de consultation des actualités par les utilisateurs et des mots-clés d’étiquettes définis en fonction de leurs centres d’intérêt. Ces mots-clés et données de navigation sont également transformés en vecteurs sémantiques à l’aide du modèle d’embedding BERT-as-service, puis envoyés à Milvus pour une recherche de similarité sémantique.
Milvus compare la similarité cosinus des deux types de vecteurs sémantiques, renvoie les résultats Top-K présentant la similarité cosinus la plus élevée (ce qui signifie que ces résultats sont les plus similaires aux centres d’intérêt et aux préférences de l’utilisateur), et les place dans un pool de candidats d’actualités recommandées. Ensuite, le système estime et classe le taux de clics des actualités dans ce pool, proposant aux utilisateurs les actualités dont le taux de clics prédit est le plus élevé.
Comment Milvus améliore la classification des actualités courtes
La classification précise de chaque article d’actualité avant la recherche vectorielle est primordiale pour fournir des recommandations de contenu pertinentes. Les actualités courtes, qui contiennent souvent peu d’informations, présentent une situation difficile où des erreurs de classification sont susceptibles de se produire. Conscient des subtilités de la classification des actualités en texte court, Sohu News s’appuie sur Milvus pour améliorer considérablement la précision de la classification des actualités.
L’équipe utilise le modèle BERT-as-service pour transformer les articles d’actualité longs en vecteurs sémantiques, en ingérant ces vecteurs de manière fluide dans Milvus. Simultanément, les articles d’actualité courts sont convertis en vecteurs sémantiques et envoyés à Milvus afin de récupérer les 20 principaux articles d’actualité longs présentant la similarité cosinus la plus élevée.
L’équipe analyse ensuite les catégories de ces 20 articles d’actualité longs les plus similaires sémantiquement à l’actualité courte interrogée. Supposons que plus de 18 de ces articles partagent une catégorie cohérente mais diffèrent de la catégorie attribuée à l’actualité courte interrogée. Dans ce cas, cela signale une erreur potentielle dans la classification de la catégorie de l’actualité courte. Dans de tels cas, l’équipe corrige rapidement ces erreurs. Le taux de précision de la classification dépasse 95 % grâce à l’intégration de Milvus dans ce processus.
Cette approche innovante, en synergie avec les capacités de Milvus, permet non seulement de relever efficacement les défis de la classification des actualités en texte court, mais contribue également au développement d’un corpus précieux pour l’entraînement de futurs classificateurs de textes courts.
Les résultats : des réponses plus rapides, une précision de recommandation plus élevée et une meilleure expérience utilisateur
La collaboration de Sohu avec Milvus a considérablement transformé son système de recommandation d’actualités, offrant aux utilisateurs une expérience plus personnalisée et plus engageante. Avec Milvus, le système de recommandation de Sohu News a atteint une vitesse de récupération vectorielle 10 fois plus rapide et a remarquablement amélioré la précision des recommandations. En particulier, Milvus a porté le taux de précision de la classification des actualités courtes à plus de 95 %.
Milvus prend en charge les indices courants et garantit un rappel élevé sur des jeux de données massifs, offrant davantage de flexibilité pour équilibrer précision, performance et coût. Son efficacité en matière de consommation mémoire et sa capacité à gérer des volumes de données importants s’alignent parfaitement sur les besoins opérationnels de Sohu.
Cette étude de cas a été initialement rédigée par Tingting Wang, ingénieure en algorithmes NLP chez Sohu, et est éditée et publiée ici avec autorisation.
- À propos de Sohu News
- Les défis : une récupération vectorielle lente et imprécise et une mauvaise classification des actualités en texte court
- La solution : choisir Milvus pour construire un puissant moteur de recherche vectorielle
- Les résultats : des réponses plus rapides, une précision de recommandation plus élevée et une meilleure expérience utilisateur
Contenu
Secteur d'activité
Les médias


