NeurIPS 2021の10億スケールANN検索チャレンジでZillizが勝利
2021年12月6日、世界最高峰のAI学術会議NeurIPSは、第1回近似最近傍(ANN)検索チャレンジの結果を発表した。Zilliz研究チームは、10億スケールのデータセットに対するANN検索をより高度に活用したディスクパフォーマンス最適化アルゴリズムにより、ディスクベースANN検索トラックで1位を獲得しました。
メールスクリーンショット](https://assets.zilliz.com/email_1_b1453f6b5c.png)
ニューラルネットワークの出現により、音声、画像、動画などの膨大な非構造化データをベクトルとして埋め込むことが可能になり、ANN検索はこれらの非構造化データを理解する鍵となる。マイクロソフト・リサーチ、フェイスブックAIリサーチ、カーネギーメロン大学、ヤンデックス、その他の影響力のある組織の専門家や学者が率いる第1回ANNサーチ・チャレンジには、清華大学、南京大学、インテル、エヌビディア、奎章科技などから候補者が集まった。このチャレンジでは、合計6つの10億スケールのデータセットが例題データセットとして採用され、そのうち4つはFacebook、Microsoft Turing、Microsoft Bing、Yandexがこのイベントのために特別に公開したものである。
Zillizの研究チームが開発したディスクベースのANN検索ソリューションBlock-based ANN(BBAnn)は、チャレンジのANN検索トラックで1位となった。その性能は、フェイスブックが公開したSimSearchNet++データセットでの検索でピークに達した。このデータセットは、画像の微妙な変化を正確に検出することをシミュレートするもので、ターゲット・ベクトルを中心とした一定半径内のすべてのベクトルを検索するという大きな課題を投げかけている。この課題をより困難にするために、返すべきクエリ結果の数は不確かなままであった。テスト結果によると、Zillizのソリューションは、データセットの関連する全結果の88.573%を検索し、ベースラインの16.274%をはるかに上回り、10億スケールのANN検索における大きなブレークスルーを示した。
今後、Zillizはこの研究成果をオープンソースベクトルデータベースであるMilvusに実装し、様々なアプリケーションシナリオのユーザーのニーズに応えることに専念する。MilvusはLF AI & Data Foundationの卒業プロジェクトである。Milvusは、多数の非構造化データセットを管理することができ、新薬発見、レコメンダーシステム、チャットボットなど、幅広い応用が可能です。Zillizは今後も、オープンソースとクラウドネイティブなソリューションを通じて、企業向けに膨大な非構造化データの隠れた価値を解き放つことに投資していく。
読み続けて

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
Explore DeepSeek-VL2, the open-source MoE vision-language model. Discover its architecture, efficient training pipeline, and top-tier performance.

Vector Databases vs. Hierarchical Databases
Use a vector database for AI-powered similarity search; use a hierarchical database for organizing data in parent-child relationships with efficient top-down access patterns.

DeepSeek vs. OpenAI: A Battle of Innovation in Modern AI
Compare OpenAI's o1 and o3-mini with DeepSeek R1's open-source alternative. Discover which AI model offers the best balance of reasoning capabilities and cost efficiency.
