ブログ
Milvusが複数のインデックス・タイプをサポート

Milvusが複数のインデックス・タイプをサポート

Mar 24, 20230 min read

Milvusは、類似検索やAIアプリケーションのための最先端の機能を備えたオープンソースのベクトルデータベースである。Milvusの本質的な特徴の一つは、様々なIndexタイプをサポートしていることです。Indexは、データのクエリと検索を最適化するのに役立ちます。

インデックスタイプ

現在、Milvusは8種類のインデックスをサポートしている： 1.FLAT：FLAT: 100万件規模の小規模なデータセットにおいて、完璧に正確な検索結果(再現率100%)を求める場面に最適です。FLATはベクトルを圧縮せず、正確な検索結果を保証する唯一のインデックスである。FLATからの結果は、再現率100%未満の他のインデックスが生成した結果と比較するポイントになる。 2.IVF_FLAT：IVF_FLATは、精度と検索スピードの理想的なバランスを求めるシナリオ（10万エントリ未満の低次元データ）に最適な量子化ベースのインデックスです。IVF_FLATは、ベクトルデータをクラスタに分割し、対象入力と最も類似したクラスタ内のベクトルとの比較に基づいて類似検索結果を返すシステムです。IVS_FLATはクラスタ数を考慮することで、検索時間を大幅に短縮します。IVF_FLATは圧縮を行わないため、生成されるインデックスファイルのサイズは、インデックス付けされていない元の生のベクトルデータとほぼ同じであることに注意してください。 3.IV_SQ8：IVF_SQ8: IVF_SQ8は量子化ベースのインデックスで、ディスク、CPU、GPUのメモリ消費量を大幅に削減したい場合に最適です。IV_SQ8は、スカラー量子化を行うことで、各FLOAT（4バイト）をUINT8（1バイト）に変換することでこれを実現します。IV_SQ8 インデックスは、10 万エントリ以下の低次元データのシナリオに適しています。 4.HNSW インデックスHNSW (Hierarchical Navigable Small World)はグラフベースのインデックスであり、検索効率の要求が高いシナリオに最適である。このインデックスはツリー状の構造を作り、ベクトルをインデックス化する。したがって、データセットが巨大で（次元数の多い大規模なデータセット）、高速な検索が必要な場合に有効である。ある規則に従って、画像に対して多層のナビゲーション構造を構築する。この構造では、上層はより疎であり、ノード間の距離はより遠く、下層はより密であり、ノード間の距離はより近い。探索は最上層から開始し、この層でターゲットに最も近いノードを見つけ、次の層に入って別の探索を開始する。何度も繰り返すうちに、目標位置に素早く近づくことができる。 5.IVF_PQ：IVF_PQは量子化ベースのインデックスであり、精度を犠牲にしても高次元データの高速検索を求めるシナリオに最適である。高次元ベクトル空間を低次元ベクトル空間のデカルト積に一様に分解し、低次元ベクトル空間を量子化する。積の量子化は、ターゲットベクトルと各低次元空間のクラスタリング中心との距離を計算し、時間と空間の複雑さを軽減します。IVF_PQ インデックスファイルは IVF_SQ8 よりも小さい（精度が低い）． 6.ANNOY：ANNOYは、高い再現率を求めるシナリオに最適なツリーベースのインデックスです。次元の高いデータセット（100万エントリ以下）に便利です（類似ベクトルを検索する場合にも）。 7.BIN_FLAT：このインデックスは、10万エントリ未満の低次元データに適している。このインデックスはFLATと同じですが、BIN_FLATはバイナリ埋め込みに使用されます。 8.BIN_IVF_FLAT**：このインデックスは、1,000万エントリ未満の高次元データセットで、類似ベクトルを検索する場合に適している。このインデックスは FLAT と同じであるが、BIN_IVF_FLAT はバイナリ埋め込みに使用される。

結論

Milvusは様々なインデックスタイプをサポートしており、様々なユースケースに対してデータの検索とクエリを最適化することができます。適切なインデックスタイプを選択することで、アプリケーションの検索性能を大幅に向上させることができます。

特定のユースケースにどのIndexタイプを使用するかまだ決めかねている場合は、異なるIndexを試し、そのパフォーマンスを比較することをお勧めします。Milvusは、適切なIndexタイプと構成により、お客様のAIアプリケーションに電光石火の検索パフォーマンスを提供することができます。

次のステップ

Milvus](https://hub.docker.com/r/milvusdb/milvus)とスタートをダウンロードする。
Milvusインデックスタイプ](https://milvus.io/docs/index.md)
この論文でMilvusベンチマークをチェックしてください。

article.updateAt

Chris Churilo
Chris Churilo is the VP of Marketing & Community at Zilliz where she leads all community, developer relations, and marketing efforts. Prior to Zilliz, Chris was a founding member of the InfluxData’s go to market efforts and helped propel the time series database platform to dominance in the market. In earlier roles she defined and designed a SaaS monitoring solution at Centroid, and prior to that she was the VP of product management at iPass and was the LOB for several cloud services that required her to track the business and operational metrics and analytics to help identify and resolve issues.

読み続けて

How to Choose the Best Embedding Model for RAG in 2026: 10 Models Benchmarked

We benchmarked 10 embedding models on cross-modal, cross-lingual, long-document, and dimension compression tasks. See which one fits your RAG pipeline.

Zilliz Cloud Now Available in Azure North Europe: Bringing AI-Powered Vector Search Closer to European Customers

The addition of the Azure North Europe (Ireland) region further expands our global footprint to better serve our European customers.

Announcing the General Availability of Zilliz Cloud BYOC on Google Cloud Platform

Zilliz Cloud BYOC on GCP offers enterprise vector search with full data sovereignty and seamless integration.