捜狐がMilvusでパーソナライズされたニュース推薦を強化する方法
目まぐるしく変化するインターネットサービスの世界では、ユーザーの期待を先取りすることが極めて重要である。NASDAQ上場企業である捜狐は、この必要性を認識し、オープンソースのベクトルデータベースであるMilvusとの戦略的コラボレーションを通じて、ニュース推薦システムを改革した。このブログでは、捜狐ニュース(捜狐の主要部門)が直面した課題、実施された革新的なソリューション、そしてミルバスが捜狐ニュースの推薦システムに与えた変革的な影響について紹介する。
捜狐のニュース配信の頭痛の種
搜狐新聞は、先手を打つことの重要性を認識しながらも、レコメンダー・システムにおける時代遅れで非効率的なレガシー・ベクトル検索スタックに制約されていることに気づいた。この時代遅れのスタックは、迅速なベクトル検索を妨げ、拡大するニュースデータに対してシームレスに拡張するのに苦労し、その結果、ユーザーにリアルタイムでパーソナライズされたニュースを配信できないでいた。さらに問題を複雑にしていたのが、情報が限られていることで知られる短文のニュース記事の分類だった。既存のシステムは、このような簡潔なスニペットを正確に分類することに苦労しており、誤分類が頻発していた。
大規模なデータセットを処理し、正確なレコメンデーションを提供し、ショートテキストニュースの分類を強化する堅牢なソリューションの必要性を認識した捜狐ニュースチームは、ニュース配信のリーダーとしての地位を確立するための革新的なアプローチを模索し始めました。
Milvusベクターデータベースの登場
Milvusは、電光石火のパフォーマンスと高い想起率で知られ、大量の非構造化データを処理するための理想的なソリューションであることが証明された。FLAT、HNSW、ScaNNを含む様々なインデックスをサポートするMilvusは、精度、パフォーマンス、コストのバランスを取る柔軟性を提供した。慎重に評価した結果、捜狐ニュースチームは推薦システムのベクトル検索エンジンの構築にMilvusを選択した。
Milvusと捜狐のニュース推薦システムの統合
捜狐ニュースはMilvusを推薦システムにスムーズに組み込み、Milvusを搭載したベクトル検索エンジンに二重タワー構造を採用している。それぞれのタワーはユーザーの嗜好とニュース記事の意味ベクトルを表している。
ニュース記事は、BERT-as-service モデルを使用してベクトルに変換され、Milvus ベクトルデータベースに格納された。同時に、閲覧履歴、検索クエリ、興味からラベル付けされたタグとキーワードからなるユーザプロファイルもベクトルに変換された。そして、Milvusはユーザーと記事のベクトル間の余弦類似度を計算し、推定クリックスルー率(CTR)に基づいて記事の優先順位付けと配信を行い、推薦プールのTop-K結果を生成する。
Milvusによるショートニュースの誤分類の解決
短文のニュース記事には限られた情報しか含まれていないため、システムはベクトル意味検索を行う前にそれらを事前に分類する。Milvusは誤分類された短いニュースの識別と修正に重要であり、分類精度を向上させる。このプロセスでは、BERT-as-service 埋め込みモデルを使用して、長いニュース記事と短いニュース記事をベクトルに変換し、それらを Milvus に格納し、2 種類のベクトル間の余弦類似度を計算する。次に、Milvusは、コサイン類似度が最も高い上位20の長いニュース記事を返す。
その後の分析では、クエリされた短いニュースと意味的に最も類似したこれら20の長いニュース記事のカテゴリーを調べる。これらの記事のうち18以上が一貫したカテゴリーを共有しているが、クエリされたショートニュースに割り当てられたカテゴリーからはずれているとする。その場合、短いニュースのカテゴリー分類に潜在的な誤りがあることを知らせる。チームはこれらのエラーを速やかに修正し、その結果、分類精度は95%を超え、このプロセスにおけるMilvusの有効性が浮き彫りになった。
捜狐ニュース推薦システムへの変革的影響
捜狐とMilvusのコラボレーションは素晴らしい結果をもたらした。レコメンデーションシステムは、ベクトル検索速度を10倍高速化し、レコメンデーション精度を大幅に向上させた。Milvusのメインストリームインデックスへの対応と効率的なメモリ消費は、捜狐の運用ニーズとシームレスに合致し、よりパーソナライズされた魅力的なユーザーエクスペリエンスを実現した。
結論
捜狐とMilvusのコラボレーションは、高度なベクトル検索技術の変革力を証明するものである。ベクトル検索の速度、推薦の精度、短文ニュースの分類という課題に取り組むことで、Milvusは捜狐ニュースを革新の新時代へと押し上げ、ユーザーによりパーソナライズされた魅力的なニュース体験を提供している。
読み続けて

How to Improve Retrieval Quality for Japanese Text with Sudachi, Milvus/Zilliz, and AWS Bedrock
Learn how Sudachi normalization and Milvus/Zilliz hybrid search improve Japanese RAG accuracy with BM25 + vector fusion, AWS Bedrock embeddings, and practical code examples.

Top 5 AI Search Engines to Know in 2025
Discover the top AI-powered search engines of 2025, including OpenAI, Google AI, Bing, Perplexity, and Arc Search. Compare features, strengths, and limitations.

Vector Databases vs. NoSQL Databases
Use a vector database for AI-powered similarity search; use NoSQL databases for flexibility, scalability, and diverse non-relational data storage needs.
