Sohu verbessert personalisierte Nachrichtenempfehlungen mit Milvus

10x schneller
bei der Geschwindigkeit des Vektorabrufs
> 95 %
bei der Genauigkeit der Nachrichtenklassifizierung
Geringerer Speicherverbrauch
für schnellere Antworten und geringere Kosten
Verbesserte Nutzererlebnisse
mit personalisierten Empfehlungen
Milvus has not only streamlined but also remarkably expedited the retrieval of millions of semantic vectors, showcasing a nearly tenfold improvement compared to our previous experience with other vector similarity search engines.
Tingting Wang
Über Sohu News
Sohu, ein an der NASDAQ notiertes Unternehmen für Internetdienste, ist für seine vielfältigen Online-Angebote bekannt, darunter Werbung, Medien und Suchdienste. Sohu News, ein zentraler Geschäftsbereich von Sohu, zeichnet sich als führendes Medienunternehmen aus und bietet umfassende Nachrichten- und Informationsdienste. Als Reaktion auf sich wandelnde Nutzerbedürfnisse setzt Sohu News fortschrittliche KI-Algorithmen und -Technologien ein, wie etwa vektorbasierte semantische Suche, um Inhaltsempfehlungen auf Grundlage der Interessen und Vorlieben der Nutzer zu personalisieren. Sohu News, das sich Innovation und der Bereitstellung von Nachrichten in Echtzeit verschrieben hat, positioniert sich als Vorreiter und gestaltet aktiv die dynamische Landschaft der chinesischen Internetbranche mit.
Die Herausforderungen: Langsame und ungenaue Vektorabfrage und Fehlklassifizierung von Kurznachrichten
Mit dem Fortschritt von Internet- und Mobiltechnologien hat sich die Nachfrage der Nutzer nach Informationszugang vom passiven Empfang hin zur aktiven Suche nach Nachrichten entwickelt, die ihren Interessen entsprechen. Um diesem veränderten Bedarf gerecht zu werden, entwickelte Sohu News ein Empfehlungssystem, das Nutzern die neuesten Nachrichten auf Grundlage ihrer Interessen und Vorlieben empfehlen kann und dadurch letztlich die Klickraten und die Lesedauer von Nachrichten erhöht.
Bei ihrem bisherigen Vector-Search-Stack traten jedoch Herausforderungen auf. Er musste beim Abrufen großer Datensätze schneller werden und lieferte ungenaue Empfehlungen, die nicht den Interessen der Nutzer entsprachen. Der Stack verbrauchte außerdem übermäßig viel Speicher bei der Durchführung semantischer Suchen und machte die Antworten, um die Sache noch schlimmer zu machen, noch langsamer. Sohu News benötigte dringend eine leistungsstarke und speichereffiziente Vector-Search-Technologie, um enorme und stetig wachsende Mengen unstrukturierter Daten zu verarbeiten und sein Empfehlungssystem für schnelle, personalisierte Nachrichtempfehlungen zu unterstützen.
Eine weitere Herausforderung war die Klassifizierung von Kurznachrichten. Die präzise Klassifizierung jedes Nachrichtenartikels vor der Vektorsuche ist entscheidend, um hilfreiche Inhaltsempfehlungen bereitzustellen. Kurze Nachrichtenartikel verfügen jedoch über weniger Merkmale als Langtextnachrichten, was Schwierigkeiten bei der genauen Kategorisierung verursacht. Daher benötigte Sohu News eine robuste Vector-Search-Engine, die dabei helfen konnte, kurze Nachrichtenartikel präzise zu kategorisieren und diejenigen zu identifizieren, die zuvor falsch klassifiziert wurden.
Die Lösung: Milvus für den Aufbau einer leistungsstarken Vector-Search-Engine wählen
Nach sorgfältiger Abwägung entschied sich das Sohu News-Team für Milvus, um die Vector-Search-Engine für sein Nachrichtenempfehlungssystem aufzubauen. Milvus, eine Open-Source-Vektordatenbank, kann Milliarden von Vektorpunkten verarbeiten und bietet blitzschnelle Leistung mit einer hohen Recall-Rate. Es unterstützt außerdem 11 gängige Indizes wie FLAT, HNSW und ScaNN und bietet dadurch mehr Flexibilität, um das Gleichgewicht zwischen Genauigkeit, Leistung und Kosten zu finden.
Wie das Nachrichtenempfehlungssystem funktioniert und wie Milvus es unterstützt
Das Empfehlungssystem verwendet innerhalb seiner Vector-Search-Engine eine Dual-Tower-Struktur, bei der jeder Tower jeweils die semantischen Vektoren der Nutzerpräferenzen und der Nachrichten darstellt.
Das Sohu News-Team entschied sich für das BERT-as-service-Embedding-Modell, um vorhandene Nachrichtenartikel in semantische Vektoren umzuwandeln und diese Vektoren in der Milvus-Vektordatenbank zu speichern. Neu erstellte Nachrichtenartikel werden über Kafka übertragen und anschließend auf ähnliche Weise in semantische Vektoren umgewandelt. Diese Vektoren werden anschließend in die Milvus-Vektordatenbank eingefügt.
Benutzerprofile und -präferenzen umfassen den Verlauf der Nutzer beim Durchsuchen von Nachrichten sowie Tag-Schlüsselwörter, die basierend auf den Interessen der Nutzer gekennzeichnet sind. Diese Schlüsselwörter und Browsing-Daten werden außerdem mithilfe des BERT-as-service-Embedding-Modells in semantische Vektoren umgewandelt und anschließend zur semantischen Ähnlichkeitssuche an Milvus gesendet.
Milvus vergleicht die Kosinusähnlichkeit der beiden Arten semantischer Vektoren, gibt Top-K-Ergebnisse mit der höchsten Kosinusähnlichkeit zurück (was bedeutet, dass diese Ergebnisse den Interessen und Präferenzen des Nutzers am ähnlichsten sind), und platziert sie in einem Kandidatenpool für empfohlene Nachrichten. Anschließend schätzt und ordnet das System die Klickrate der Nachrichten in diesem Pool und liefert den Nutzern die Nachrichten mit der höchsten vorhergesagten Klickrate.
Wie Milvus die Klassifizierung von Kurznachrichten verbessert
Die genaue Klassifizierung jedes Nachrichtenartikels vor der Vektorsuche ist entscheidend, um wertvolle Inhaltsempfehlungen bereitzustellen. Kurznachrichten, die oft nur begrenzte Informationen enthalten, stellen eine schwierige Situation dar, in der Fehlklassifizierungen leicht auftreten können. Angesichts der Komplexität der Klassifizierung von Kurznachrichten nutzt Sohu News Milvus, um die Genauigkeit der Nachrichtenklassifizierung erheblich zu verbessern.
Das Team verwendet das BERT-as-service-Modell, um lange Nachrichtenartikel in semantische Vektoren umzuwandeln und diese Vektoren nahtlos in Milvus aufzunehmen. Gleichzeitig werden kurze Nachrichtenartikel in semantische Vektoren konvertiert und an Milvus gesendet, um die 20 langen Nachrichtenartikel mit der höchsten Kosinusähnlichkeit abzurufen.
Anschließend analysiert das Team die Kategorien dieser 20 langen Nachrichtenartikel, die der abgefragten Kurznachricht semantisch am ähnlichsten sind. Angenommen, mehr als 18 dieser Artikel teilen eine einheitliche Kategorie, weichen jedoch von der Kategorie ab, die der abgefragten Kurznachricht zugewiesen wurde. In diesem Fall weist dies auf einen potenziellen Fehler in der Kategorisierung der Kurznachricht hin. In solchen Fällen korrigiert das Team diese Fehler umgehend. Durch die Einbindung von Milvus in diesen Prozess übersteigt die Klassifizierungsgenauigkeit 95 %.
Dieser innovative Ansatz, der synergistisch mit den Fähigkeiten von Milvus wirkt, bewältigt nicht nur effektiv die Herausforderungen der Klassifizierung von Kurznachrichten, sondern trägt auch zur Entwicklung eines wertvollen Korpus für das Training zukünftiger Kurznachrichten-Klassifikatoren bei.
Die Ergebnisse: Schnellere Antworten, höhere Empfehlungsgenauigkeit und bessere Nutzererfahrung
Die Zusammenarbeit von Sohu mit Milvus hat sein Nachrichtenempfehlungssystem erheblich verändert und bietet den Nutzern ein personalisierteres und ansprechenderes Erlebnis. Mit Milvus hat das Empfehlungssystem von Sohu News eine 10-mal schnellere Vektorabrufgeschwindigkeit erreicht und die Empfehlungsgenauigkeit bemerkenswert verbessert. Insbesondere hat Milvus die Klassifizierungsgenauigkeit von Kurznachrichten auf über 95 % gesteigert.
Milvus unterstützt gängige Indizes und gewährleistet einen hohen Recall bei riesigen Datensätzen, wodurch mehr Flexibilität beim Ausgleich von Genauigkeit, Leistung und Kosten geboten wird. Seine Effizienz beim Speicherverbrauch und seine Fähigkeit, erhebliche Datenmengen zu verarbeiten, entsprechen nahtlos den betrieblichen Anforderungen von Sohu.
Diese Fallstudie wurde ursprünglich von Tingting Wang, der NLP-Algorithmus-Ingenieurin bei Sohu, verfasst und wird hier mit Genehmigung bearbeitet und veröffentlicht.
- Über Sohu News
- Die Herausforderungen: Langsame und ungenaue Vektorabfrage und Fehlklassifizierung von Kurznachrichten
- Die Lösung: Milvus für den Aufbau einer leistungsstarken Vector-Search-Engine wählen
- Die Ergebnisse: Schnellere Antworten, höhere Empfehlungsgenauigkeit und bessere Nutzererfahrung
Inhalte
Anwendungsfall
Branche
Medien


