Wie Sohu personalisierte Nachrichtenempfehlungen mit Milvus verbessert
In der schnelllebigen Welt der Internetdienste ist es entscheidend, den Erwartungen der Nutzer stets einen Schritt voraus zu sein. Sohu, ein an der NASDAQ notiertes Unternehmen, erkannte diesen Bedarf und reformierte sein Nachrichten-Empfehlungssystem durch eine strategische Zusammenarbeit mit Milvus, einer Open-Source-Vektordatenbank. Dieser Blog beleuchtet die Herausforderungen, mit denen Sohu News (ein zentraler Geschäftsbereich von Sohu) konfrontiert war, die implementierten innovativen Lösungen und den transformativen Einfluss, den Milvus auf das Empfehlungssystem von Sohu News hatte.
Sohus Herausforderungen bei der Nachrichtenauslieferung
Obwohl Sohu News die Bedeutung erkannte, stets voraus zu sein, sah sich das Unternehmen durch einen veralteten und ineffizienten Legacy-Vector-Search-Stack in seinem Empfehlungssystem eingeschränkt. Dieser veraltete Stack behinderte den schnellen Vektorabruf und hatte Schwierigkeiten, nahtlos mit dem wachsenden Volumen an Nachrichtendaten zu skalieren, was dazu führte, dass den Nutzern keine personalisierten Nachrichten in Echtzeit bereitgestellt werden konnten. Erschwerend kam die Klassifizierung von Kurznachrichtenartikeln hinzu, die für ihren begrenzten Informationsgehalt bekannt sind. Das bestehende System hatte Probleme damit, diese knappen Textausschnitte präzise zu kategorisieren, was häufig zu Fehlklassifizierungen führte.
Da das Team von Sohu News den Bedarf an einer robusten Lösung erkannte, um große Datensätze zu verarbeiten, präzise Empfehlungen bereitzustellen und die Klassifizierung von Kurznachrichten zu verbessern, begann es, nach einem innovativen Ansatz zu suchen, der es als führend in der Nachrichtenauslieferung positionieren würde.
Die Milvus-Vektordatenbank kommt zur Rettung
Milvus, bekannt für seine blitzschnelle Leistung und hohe Recall-Rate, erwies sich als ideale Lösung für die Verarbeitung riesiger Mengen unstrukturierter Daten. Mit Unterstützung für verschiedene Indizes, darunter FLAT, HNSW und ScaNN, bot Milvus die Flexibilität, Genauigkeit, Leistung und Kosten auszubalancieren. Nach sorgfältiger Bewertung entschied sich das Team von Sohu News für Milvus, um die Vektorsuche-Engine für sein Empfehlungssystem aufzubauen.
Milvus-Integration in Sohus Nachrichten-Empfehlungssystem
Sohu News integriert Milvus reibungslos in sein Empfehlungssystem und verwendet eine Dual-Tower-Struktur innerhalb der von Milvus betriebenen Vektorsuchmaschine. Jeder Tower repräsentiert die semantischen Vektoren der Präferenzen der Nutzer und der Nachrichtenartikel.
Nachrichtenartikel wurden mithilfe des BERT-as-service-Modells in Vektoren umgewandelt und in der Milvus-Vektordatenbank gespeichert. Gleichzeitig wurden Nutzerprofile, bestehend aus gelabelten Tags und Schlüsselwörtern aus Browserverlauf, Suchanfragen und Interessen, ebenfalls in Vektoren umgewandelt. Anschließend berechnet Milvus die Kosinus-Ähnlichkeit zwischen Nutzer- und Artikelvektoren und erzeugt Top-K-Ergebnisse in einem Empfehlungspool, wobei Artikel basierend auf geschätzten Klickraten (CTR) priorisiert und ausgeliefert werden.
Behebung von Fehlklassifizierungen kurzer Nachrichten mit Milvus
Kurznachrichtenartikel enthalten nur begrenzte Informationen, daher klassifiziert das System sie vor der Durchführung semantischer Vektorsuchen vor. Milvus ist entscheidend für die Identifizierung und Korrektur fehlklassifizierter Kurzmeldungen und verbessert die Klassifizierungsgenauigkeit. Der Prozess umfasst die Umwandlung langer und kurzer Nachrichtenartikel in Vektoren mithilfe des BERT-as-service-Embedding-Modells, deren Speicherung in Milvus und die Berechnung der Kosinus-Ähnlichkeit zwischen den beiden Vektortypen. Anschließend gibt Milvus die 20 langen Nachrichtenartikel mit der höchsten Kosinus-Ähnlichkeit zurück.
Die anschließende Analyse untersucht die Kategorien dieser 20 langen Nachrichtenartikel, die der abgefragten Kurznachricht semantisch am ähnlichsten sind. Angenommen, mehr als 18 dieser Artikel teilen eine einheitliche Kategorie, weichen jedoch von der Kategorie ab, die der abgefragten Kurznachricht zugewiesen wurde. In diesem Fall weist dies auf einen potenziellen Fehler in der Kategorisierung der Kurznachricht hin. Das Team korrigiert diese Fehler umgehend, was zu einer Klassifizierungsgenauigkeit von über 95 % führt und die Wirksamkeit von Milvus in diesem Prozess unterstreicht.
Transformativer Einfluss auf das Empfehlungssystem von Sohu News
Die Zusammenarbeit von Sohu mit Milvus führte zu beeindruckenden Ergebnissen. Das Empfehlungssystem erreichte eine 10-mal schnellere Vektorabrufgeschwindigkeit und eine deutlich verbesserte Empfehlungsgenauigkeit. Die Unterstützung von Milvus für gängige Indizes und der effiziente Speicherverbrauch passten nahtlos zu den betrieblichen Anforderungen von Sohu und gewährleisteten ein stärker personalisiertes und ansprechenderes Nutzererlebnis.
Fazit
Die Zusammenarbeit zwischen Sohu und Milvus ist ein Beleg für die transformative Kraft fortschrittlicher Vektorsuchtechnologie. Durch die Bewältigung der Herausforderungen bei der Vektorabrufgeschwindigkeit, der Empfehlungsgenauigkeit und der Klassifizierung von Kurznachrichten hat Milvus Sohu News in eine neue Ära der Innovation geführt und bietet den Nutzern ein stärker personalisiertes und ansprechenderes Nachrichtenerlebnis.
Weiterlesen

How Zilliz Saw the Future of Vector Databases—and Built for Production
An inside look at how Zilliz built vector databases for real-world use, focusing on scalability, stability, and running them reliably at scale.

Zilliz Cloud Introduces Advanced BYOC-I Solution for Ultimate Enterprise Data Sovereignty
Explore Zilliz Cloud BYOC-I, the solution that balances AI innovation with data control, enabling secure deployments in finance, healthcare, and education sectors.

Legal Document Analysis: Harnessing Zilliz Cloud's Semantic Search and RAG for Legal Insights
Enhance legal document analysis with Zilliz Cloud’s Semantic Search and RAG. Improve accuracy, efficiency, and scalability for contracts, case law, and compliance.



