ブログ
NeurIPS 2021の10億スケールANN検索チャレンジでZillizが勝利

NeurIPS 2021の10億スケールANN検索チャレンジでZillizが勝利

Jan 21, 20220 min read

2021年12月6日、世界最高峰のAI学術会議NeurIPSは、第1回近似最近傍(ANN)検索チャレンジの結果を発表した。Zilliz研究チームは、10億スケールのデータセットに対するANN検索をより高度に活用したディスクパフォーマンス最適化アルゴリズムにより、ディスクベースANN検索トラックで1位を獲得しました。

メールスクリーンショット](https://assets.zilliz.com/email_1_b1453f6b5c.png)

ニューラルネットワークの出現により、音声、画像、動画などの膨大な非構造化データをベクトルとして埋め込むことが可能になり、ANN検索はこれらの非構造化データを理解する鍵となる。マイクロソフト・リサーチ、フェイスブックAIリサーチ、カーネギーメロン大学、ヤンデックス、その他の影響力のある組織の専門家や学者が率いる第1回ANNサーチ・チャレンジには、清華大学、南京大学、インテル、エヌビディア、奎章科技などから候補者が集まった。このチャレンジでは、合計6つの10億スケールのデータセットが例題データセットとして採用され、そのうち4つはFacebook、Microsoft Turing、Microsoft Bing、Yandexがこのイベントのために特別に公開したものである。

Zillizの研究チームが開発したディスクベースのANN検索ソリューションBlock-based ANN（BBAnn）は、チャレンジのANN検索トラックで1位となった。その性能は、フェイスブックが公開したSimSearchNet++データセットでの検索でピークに達した。このデータセットは、画像の微妙な変化を正確に検出することをシミュレートするもので、ターゲット・ベクトルを中心とした一定半径内のすべてのベクトルを検索するという大きな課題を投げかけている。この課題をより困難にするために、返すべきクエリ結果の数は不確かなままであった。テスト結果によると、Zillizのソリューションは、データセットの関連する全結果の88.573%を検索し、ベースラインの16.274%をはるかに上回り、10億スケールのANN検索における大きなブレークスルーを示した。

今後、Zillizはこの研究成果をオープンソースベクトルデータベースであるMilvusに実装し、様々なアプリケーションシナリオのユーザーのニーズに応えることに専念する。MilvusはLF AI & Data Foundationの卒業プロジェクトである。Milvusは、多数の非構造化データセットを管理することができ、新薬発見、レコメンダーシステム、チャットボットなど、幅広い応用が可能です。Zillizは今後も、オープンソースとクラウドネイティブなソリューションを通じて、企業向けに膨大な非構造化データの隠れた価値を解き放つことに投資していく。

article.updateAt

Zilliz

読み続けて

Top 10 Context Engineering Techniques You Should Know for Production RAG

A practical guide to context engineering for production LLM systems, covering RAG, context processing, memory, agents, and multimodal context.

VidTok: Rethinking Video Processing with Compact Tokenization

VidTok tokenizes videos to reduce redundancy while preserving spatial and temporal details for efficient processing.

Vector Databases vs. NoSQL Databases

Use a vector database for AI-powered similarity search; use NoSQL databases for flexibility, scalability, and diverse non-relational data storage needs.