AIのための検索の拡張:MilvusはどのようにOpenSearchを凌駕するか

検索は急速に進化しており、Milvusやベクトル検索のようなベクトルデータベースは、この変革において極めて重要な役割を果たしている。OpenSearchは、伝統的な検索と分析において長い間人気のある選択肢であるが、主にキーワードベースと構造化検索に焦点を当てている。対照的に、Milvus**はベクトル検索に依存するAI駆動型アプリケーションのために特別に設計されており、テキスト、画像、またはマルチメディアコンテンツからのembeddingsのような高次元データを横断する高速でスケーラブルな類似検索を可能にする。
この投稿では、Milvusがスピードやスケーラビリティといった重要な分野でOpenSearchに匹敵するだけでなく、ベクトル検索に特化した機能でOpenSearchを凌駕していることを探る。これらすべての機能が統合されたMilvusは、複数のデータベースの必要性を最小限に抑え、最新のAIアプリケーションのインフラを簡素化・最適化する統合ソリューションを提供する。
オープンサーチとは?
OpenSearchは、もともとElasticsearchから派生したオープンソースの検索・分析エンジンです。主に全文検索とログ解析のために設計されており、拡張機能としてベクトル検索が追加されている**。分散アーキテクチャ上に構築されたOpenSearchはスケーラブルで、構造化データと非構造化データのリアルタイム検索と分析を提供する。強力なクエリDSL(Domain Specific Language)をサポートし、高度な分析のための機械学習機能を含んでいる。OpenSearchの中核は転置インデックスであり、用語を文書の位置にマッピングすることで効率的な全文検索を可能にする技術である。OpenSearchのベクトル検索機能は、この基盤の上に構築されており、テキストやマルチメディアの埋め込みなどの高次元データの類似検索を可能にします。
Milvusとは?
Milvus](https://milvus.io/)は、スケーラブルで高性能なベクトル検索用に設計されたオープンソースのベクトルデータベースであり、特にAIや大規模データアプリケーション向けに調整されています。億単位**の高次元ベクトルを効率的に処理・検索できるため、retrieval-augmented generation (RAG)、画像・動画検索、レコメンデーションエンジン などのAI搭載システムに最適です。
ベクトル検索にとどまらず、Milvusは従来の全文検索、スカラーフィルタリング、ハイブリッド検索、マルチモーダル検索機能を含む幅広い検索機能を提供しています。この包括的な機能セットにより、Milvusは多様な検索ニーズに対応することができ、AI駆動型アプリケーションやデータ集約型アプリケーションのための汎用的でスケーラブルなプラットフォームとなっている。
ベクトル検索の卓越性
- HNSW、IVF_FLAT、DiskANN、GPUベースのCAGRAなどの複数のインデックス作成方法をサポートしています。この柔軟性により、ユーザーは、RAGシステムまたは従来の機械学習アプリケーションの構築にかかわらず、特定のニーズに基づいて速度、精度、リソース効率のバランスをとることができます。
- OpenSearch:基本的なベクトル検索機能を提供するが、Milvusの広範なインデックス作成オプションはない。
従来の検索機能
しかし、まだあります!Milvusが得意とするのはベクトルだけではない。こんなことも得意です:
- キーワード検索** - OpenSearchと同様に、従来のテキスト検索を行うことができます。
- 高度なフィルタリング** - 特定のスカラーフィールドを横断して検索することができ、ベクトル検索をより高速に実行できます。
- 接頭辞、接尾辞、接尾辞検索** - 検索クエリをより正確に制御できます。
つまり、ベクトル検索と従来の検索操作を1つのシステムに統合し、技術スタックを簡素化できます!✨
ハイブリッド検索の威力
ここからが面白いところだ。Milvusは従来の検索機能とベクトル検索機能を統合することで、純粋なベクトル検索を超えた。このハイブリッドなアプローチは、キーワードベースと類似度ベースの検索を組み合わせることで、よりニュアンスに富んだ、文脈を考慮したクエリを可能にします。両者の長所を活用することで、Milvusはより正確で関連性の高い結果を提供し、ユーザーエクスペリエンスを向上させ、複雑なデータ検索や分析を必要とするアプリケーションにより良い結果をもたらします。
スケーラビリティとパフォーマンス
AIの世界で最近見られるように、スケーラビリティはあればいいというものではなく、なくてはならないものです。Milvusは、分散システムを念頭に置いてゼロから構築されているため、スケーラブルな運用が可能です。数百万から数十億のデータポイントを扱う場合でも、Milvusはお客様のニーズに合わせて水平方向に拡張することができます。さらに、CPUとGPUの両方に最適化されているため、お客様のニーズと予算に最も適したハードウェアを使用することができます。
OpenSearch から Milvus への移行: 実例
シナリオ:製品、サービス、手順に関するドキュメントを含む大規模な社内ナレッジベースを持つ企業を想像してください。彼らはこの情報をインタラクティブにしたいので、データに効果的にアクセスし、相互作用するためにRAGアプリケーションを構築することにしました。
概念実証(PoC):エンジニアリングチームは、まずOpenSearchをエンジンとして使い、セマンティック検索を実装した。このPoCは有望な結果を示し、ユーザーは自然言語のクエリに基づいて関連情報を検索することができる。
限界の発生:このPoCは有望な結果を示していますが、ユーザーからのフィードバックによると、検索精度は以下のように低下し始めます:
- クエリのあいまいさが増し、無関係な回答やあいまいな回答につながる。
- 知識ベースが大きく複雑になり、OpenSearchのベクトル検索のスケーラビリティの限界を超える。
RAGアプリケーションのためのMilvusの強化:。
特定された制限に対処し、ユーザーエクスペリエンスを向上させるため、エンジニアリングチームはMilvusをRAGアプリケーションに統合することを決定した:
- ハイブリッド検索:ハイブリッド検索: Milvusは、セマンティックな意味と並行してキーワード検索を使用することで、改善された文脈認識によるハイブリッド検索の統合を可能にします。
- スケーラビリティMilvusの分散アーキテクチャにより、RAGアプリケーションは最適な検索パフォーマンスを維持しながら、増大する知識ベースを容易に扱うことができる。
**結果RAGアプリケーションのOpenSearchをMilvusに置き換えることで、回答の関連性とユーザー満足度が大幅に向上しました。従業員は必要な情報を素早く見つけることができるようになり、生産性の向上と様々な部門における意思決定の改善につながりました。
結論
OpenSearchは、多くの検索と分析のニーズに対応する堅牢で汎用性の高いソリューションであることに変わりはないが、Milvusは、特にAIと機械学習アプリケーションに重点を置く組織にとって、魅力的な選択肢として浮上している。
Milvusは、OpenSearchの伝統的な検索機能の多くにマッチするだけでなく、ベクトル操作にも優れており、最新のデータ駆動型アプリケーションの進化するニーズに応えるユニークな機能のブレンドを提供している。
AIとビッグデータの限界を押し広げ続ける中、Milvusのように伝統的な技術と最先端技術の橋渡しをするツールの価値はますます高まっている。AIを活用したソリューションを開発している新興企業であれ、検索インフラストラクチャのアップグレードを検討している企業であれ、Milvusはこれらの要求を効率的に満たすように設計された強力な機能の組み合わせを提供します。
皆様のご意見をお聞かせください!
このブログ記事を気に入っていただけましたら、GitHub に星を付けていただけると本当に嬉しいです!また、DiscordのMilvusコミュニティにもぜひご参加ください。さらに学びたい方は、GitHubのBootcampリポジトリや、Milvusを使ったRAGアプリの構築例をまとめたnotebooksをご覧ください。
読み続けて

Proactive Monitoring for Vector Database: Zilliz Cloud Integrates with Datadog
we're excited to announce Zilliz Cloud's integration with Datadog, enabling comprehensive monitoring and observability for your vector database deployments with your favorite monitoring tool.

Vector Databases vs. Hierarchical Databases
Use a vector database for AI-powered similarity search; use a hierarchical database for organizing data in parent-child relationships with efficient top-down access patterns.

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval
GPL is an unsupervised domain adaptation technique for dense retrieval models that combines a query generator with pseudo-labeling.