ブログ
pgvectorとAerospikeの比較：AIアプリケーションに適したベクターデータベースの選択

pgvectorとAerospikeの比較：AIアプリケーションに適したベクターデータベースの選択

Oct 07, 20241 min read

ベクターデータベースとは？

pgvectorとAerospikeを比較する前に、まずベクターデータベースの概念について説明します；

ベクトルデータベース](https://zilliz.com/learn/what-is-vector-database)は、特に高次元のベクトルを格納し、照会するために設計されています。ベクトルは非構造化データの数値表現です。これらのベクトルは、テキストの意味、画像の視覚的特徴、または製品の属性などの複雑な情報をエンコードします。効率的な類似検索を可能にすることで、ベクトルデータベースはAIアプリケーションにおいて極めて重要な役割を果たし、より高度なデータ分析と検索を可能にしている。

ベクトルデータベースの一般的なユースケースには、電子商取引の商品推奨、コンテンツ発見プラットフォーム、サイバーセキュリティにおける異常検知、医療画像分析、自然言語処理(NLP)タスクなどがある。また、AI幻覚のような問題を軽減するために、外部知識を提供することによって大規模言語モデル(LLMs)の性能を強化する技術であるRAG(Retrieval Augmented Generation) において重要な役割を果たす。

市場には、以下のような多くの種類のベクトル・データベースがある：

Milvus](https://zilliz.com/what-is-milvus)、Zilliz Cloud(フルマネージドMilvus)など。
Faiss](https://zilliz.com/learn/faiss)やAnnoyのようなベクトル検索ライブラリ。
Chroma](https://zilliz.com/blog/milvus-vs-chroma)やMilvus Liteのような軽量ベクトルデータベース。
小規模なベクトル検索が可能なベクトル検索アドオンを備えた従来のデータベース**。

pgvectorは伝統的なデータベースであり、Aerospikeは分散型のスケーラブルなNoSQLデータベースである。どちらもアドオンとしてベクトル検索機能を持っている。この投稿では、両者のベクトル検索機能を比較する。&#x20；

pgvector：概要とコア技術

pgvectorはPostgreSQLの拡張で、ベクトル操作のサポートを追加します。これにより、ユーザはPostgreSQLデータベース内に直接ベクトル埋め込みを格納し問い合わせることができ、別個のベクトルデータベースを必要とせずにベクトルの類似検索機能を提供します。

pgvectorの主な機能は以下の通りです：

厳密および近似最近傍探索のサポート
PostgreSQLのインデックス機構との統合
加算や減算のようなベクトル演算の実行機能
様々な距離メトリクス(ユークリッド、余弦、内積)のサポート。

pgvectorはデフォルトで正確な最近傍探索を採用しており、完全な再現を保証しますが、大規模なデータセットでは遅くなる可能性があります。性能を最適化するために、pgvectorは近似最近傍探索のインデックスを作成するオプションを提供しています。このアプローチは、多くの実世界のアプリケーションにおいて、しばしば価値のあるトレードオフです。

注意すべき点は、近似インデックスを追加するとクエリの結果が変わる可能性があるということです。これは、実際に返される結果に影響を与えない一般的なデータベースインデックスとは異なります。pgvectorでサポートされる2種類の近似インデックスがあります：

1.HNSW (Hierarchical Navigable Small World)：pgvectorバージョン0.5.0で導入されたHNSWは、その高い性能と結果の品質で知られています。HNSWは多層グラフ構造を構築し、検索時の高速な走査を可能にします。 2.IVFFlat (Inverted File Flat)：ベクトル空間をクラスタに分割する手法。検索時には、まず最も関連性の高いクラスターを特定し、そのクラスター内で厳密な検索を行う。これにより、大規模なデータセットの検索を大幅に高速化することができる。

これらのインデックス・タイプの選択は、データセット・サイズ、要求されるクエリ速度、精度の許容可能なトレードオフなどの要素を考慮し、特定のユースケースに依存する。HNSWは一般的にパフォーマンスが高いが、より多くのメモリを使用する可能性がある。

プロジェクトでpgvectorを実装する際には、両方のインデックスタイプとそのパラメータを試して、特定のニーズに最適な構成を見つけるようにしてください。この微調整のプロセスは、ベクトル検索操作の性能と精度に影響を与えます。

pgvectorの使い方を知りたいですか？チュートリアル](https://zilliz.com/blog/getting-started-pgvector-guide-developers-exploring-vector-databases)をご覧ください！

Aerospike**とは?概要

Aerospikeは、高性能なリアルタイムアプリケーション向けのNoSQLデータベースである。ベクトルインデックスの作成と検索をサポートしており、ベクトルデータベースのユースケースに適しています。ベクトル機能はAerospike Vector Search (AVS)と呼ばれ、現在プレビュー中です。Aerospikeから早期アクセスをリクエストできます。

AVSは、ベクター検索用にHNSW（Hierarchical Navigable Small World）インデックスのみをサポートしています。AVSで更新や挿入が行われると、ベクトルを含むレコードデータがAerospikeデータベース（ASDB）に書き込まれ、すぐに表示されます。インデックスを作成するためには、各レコードは、インデックスの指定されたベクトルフィールドに少なくとも1つのベクトルを持つ必要があります。1つのレコードに対して複数のベクトルとインデックスを持つことができるので、同じデータをさまざまな方法で検索することができます。Aerospike では、アップサートされたレコードを特定のセットに割り当てて、それらを監視および操作できるようにすることを推奨しています。

AVSにはインデックスを構築する独自の方法があり、それはすべてのAVSノードで同時並行的に行われます。ベクトルレコードの更新はASDBに直接書き込まれますが、インデックスレコードはインデックスキューから非同期に処理されます。これはバッチで行われ、すべてのAVSノードに分散されるため、AVSクラスタのすべてのCPUコアを使用し、スケーラブルです。Ingestionのパフォーマンスはホストのメモリとストレージレイヤーの構成に大きく依存します。

インデキシングキュー内の各アイテムについて、AVSはインデキシング用のベクトルを処理し、各ベクトルのクラスタを構築し、それらをASDBにコミットします。インデックスレコードには、ベクター自体のコピーと、HNSWグラフの指定されたレイヤーにおけるそのベクターのクラスタが含まれます。インデックス作成には、単一命令、複数データ並列処理のためのベクトル拡張（AVX）を使用する。

クラスタ内のレコードは相互に接続されているため、AVSはインジェスト時にクエリーを行い、インデックスキャッシュに「事前水分補給」を行う。これらのクエリーはクエリーリクエストとしてカウントされず、ストレージレイヤーに対するリードとして表示される。こうすることで、キャッシュに関連データが蓄積され、クエリ性能を向上させることができる。これはAVSがどのようにベクトルデータを扱い、類似検索のためのインデックスを構築し、高次元のベクトル検索に対応できるかを示している。

主な相違点&#x20；

ベクトル検索にpgvectorとAerospikeのどちらを使うかを決める際、考慮すべき主な要素を以下に示します。

検索方法：

pgvectorは厳密近傍探索と近似近傍探索をサポートします。近似インデックスには2種類あります：HNSW（Hierarchical Navigable Small World）とIVFFlat（Inverted File Flat）です。HNSWは高速な探索のために多層グラフを構築し、IVFFlatはベクトル空間をクラスタに分割する。Aerospike Vector Search (AVS)は、ベクトル検索用のHNSWインデックスのみをサポートしています。

データの取り扱い：

pgvectorはPostgreSQLと統合されているため、従来のリレーショナルデータと共にベクトル埋め込みを保存し、問い合わせることができます。ベクトル検索と構造化データ操作を組み合わせる必要がある場合、これは便利です。AerospikeはNoSQLデータベースであり、高性能なリアルタイムアプリケーション用に設計されています。

スケーラビリティとパフォーマンス

pgvectorはPostgreSQLのインデックス機構を使用します。しかし、非常に大きなデータセットの場合は、インデックスとクエリを注意深く調整する必要があるかもしれません。Aerospikeは高いスケーラビリティを持つように設計されており、クラスタ内の全ノードにわたる独自の同時インデックス作成プロセスを持っています。この分散アプローチは、大規模なベクトル検索操作に適しています。

柔軟性とカスタマイズ：

pgvectorは加算や減算のような様々なベクトル演算を行うことができ、複数の距離メトリック（ユークリッド、余弦、内積）をサポートしています。PostgreSQLの豊富な機能や拡張とシームレスに統合されています。AerospikeはSQLライクな操作の柔軟性という点では劣るかもしれませんが、スケール時の性能を微調整するためのオプションは豊富です。

統合とエコシステム：

pgvectorには、PostgreSQLの大規模なツールと統合のエコシステムの利点があります。既存のスタックがPostgreSQLに大きく投資されているのであれば、pgvectorは自然にフィットするでしょう。Aerospikeはあまり一般的ではありませんが、高性能なリアルタイムアプリケーションにとって価値のある特定の統合があるかもしれません。

使いやすさ：

pgvectorは、PostgreSQLに慣れ親しんでいればセットアップも使用も簡単です。NoSQLデータベースに慣れていない場合は、Aerospikeの方が学習曲線が急かもしれません。しかし、どちらもパフォーマンスを最適化するためにインデックスタイプとパラメータを慎重に検討する必要がある。

コスト

pgvectorはPostgreSQLのオープンソースの拡張であるため、低コストである可能性があります。Aerospikeはオープンソース版とエンタープライズ版の両方を提供しており、AVSは現在プレビュー版です。AVSは現在プレビュー版です。総コストは特定のデプロイと規模に依存します。

セキュリティ

どちらもセキュリティ機能を持っていますが、詳細は異なります。PostgreSQLにはpgvectorが使用できる強固な認証とアクセス制御の仕組みがあります。Aerospikeにもセキュリティ機能はありますが、暗号化、認証、ベクトル検索のアクセス制御に関する最新の情報については、彼らのドキュメントを確認する必要があります。

各技術を選択するタイミングについて

pgvector を使う：

pgvectorは、既にPostgreSQLを持っていて、既存のリレーショナルデータベースにベクトル検索を追加したい場合に適しています。pgvectorは、正確な最近傍検索や、クエリの性能がボトルネックにならない中小規模のデータセットに適しています。

Aerospike を使用してください：

Aerospike with Vector Search (AVS)は、大規模なベクトル検索を処理する必要がある高性能なリアルタイムアプリケーションに適しています。膨大なデータセットを低レイテンシでベクトル類似性検索する必要があるシステムを構築する場合に適しています。Aerospikeの分散インデックス作成機能は、推薦システム、リアルタイムの不正検出、大規模な画像やテキストの類似検索など、スピードとスケーラビリティが重要な分野のアプリケーションに特に役立ちます。

結論

pgvectorは、PostgreSQLとの統合、リレーショナルデータベースを扱う開発者にとって使い慣れた環境、ベクトル検索を構造化データ操作と組み合わせる柔軟性で際立っている。Aerospikeは、大規模データセットのための高性能でスケーラブルなベクトル検索であり、分散インデックスの方が大規模化に適している可能性がある。この2つのどちらを選択するかは、ユースケース、既存のインフラ、データ量、パフォーマンス要件に基づいて決める必要がある。チームの専門知識、データの性質（構造化か半構造化か）、ベクトル検索ニーズの規模、アプリケーションのリアルタイム・パフォーマンスを考慮して決定してください。

本記事ではpgvectorとAerospikeの概要を説明しますが、特定のユースケースに基づいてこれらのデータベースを評価することが重要です。このプロセスを支援するツールの1つが、ベクターデータベースの性能を比較するために設計されたオープンソースのベンチマークツールであるVectorDBBenchです。最終的には、特定のデータセットとクエリパターンを使った徹底的なベンチマークが、分散データベースシステムにおけるベクトル検索に対する、強力でありながら異なるこの2つのアプローチのどちらを選ぶかについて、十分な情報を得た上で決断を下すために不可欠となるでしょう。

オープンソースのVectorDBBenchを使って、ベクターデータベースを自分で評価・比較する

VectorDBBenchは、高性能なデータ保存・検索システム、特にベクトルデータベースを必要とするユーザーのために設計されたオープンソースのベンチマークツールです。このツールにより、ユーザは独自のデータセットを用いてMilvusやZilliz Cloud(マネージドMilvus)などの異なるベクトルデータベースシステムの性能をテスト・比較し、ユースケースに最も適したものを決定することができます。VectorDBBenchを使用することで、ユーザーはマーケティング上の主張や逸話的証拠に頼るのではなく、実際のベクトルデータベースのパフォーマンスに基づいて情報に基づいた決定を下すことができます。

VectorDBBenchはPythonで書かれており、MITオープンソースライセンスの下でライセンスされています。VectorDBBenchは、その機能と性能の改善に取り組む開発者のコミュニティによって活発にメンテナンスされています。

VectorDBBenchをGitHubリポジトリ**からダウンロードして、我々のベンチマーク結果を再現したり、あなた自身のデータセットでパフォーマンス結果を得てください。
VectorDBBench Leaderboard](https://zilliz.com/vector-database-benchmark-tool?database=ZillizCloud%2CMilvus%2CElasticCloud%2CPgVector%2CPinecone%2CQdrantCloud%2CWeaviateCloud&dataset=medium&filter=none%2Clow%2Chigh&tab=1)で、主流のベクトルデータベースのパフォーマンスを簡単に見てみましょう。
ベクターデータベースの評価については、以下のブログをお読みください。
- ベンチマーク・ベクター・データベースのパフォーマンス：テクニックと洞察](https://zilliz.com/learn/benchmark-vector-database-performance-techniques-and-insights)
- VectorDBBench: オープンソースベクターデータベースベンチマークツール](https://zilliz.com/learn/open-source-vector-database-benchmarking-your-way)
- ベクターデータベースを他のデータベースと比較する](https://zilliz.com/comparison)

VectorDB、GenAI、MLに関するその他のリソース

ジェネレーティブAIリソースハブ｜Zilliz](https://zilliz.com/learn/generative-ai)
あなたのGenAIアプリのためのトップパフォーマンスAIモデル｜Zilliz](https://zilliz.com/ai-models)
RAGとは](https://zilliz.com/learn/Retrieval-Augmented-Generation)
大規模言語モデル(LLM)を学ぶ](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
ベクトルデータベース101](https://zilliz.com/learn/what-is-vector-database)
自然言語処理(NLP)](https://zilliz.com/learn/introduction-to-natural-language-processing-tokens-ngrams-bag-of-words-models)

article.updateAt

Chloe Williams
Chloe Williams is a technical writer at Zilliz.

読み続けて

8 Latest RAG Advancements Every Developer Should Know

Explore eight advanced RAG variants that can solve real problems you might be facing: slow retrieval, poor context understanding, multimodal data handling, and resource optimization.

The Great AI Agent Protocol Race: Function Calling vs. MCP vs. A2A

Compare Function Calling, MCP, and A2A protocols for AI agents. Learn which standard best fits your development needs and future-proof your applications.

Vector Databases vs. Hierarchical Databases

Use a vector database for AI-powered similarity search; use a hierarchical database for organizing data in parent-child relationships with efficient top-down access patterns.

The Definitive Guide to Choosing a Vector Database

Overwhelmed by all the options? Learn key features to look for & how to evaluate with your own data. Choose with confidence.

Get the Free Guide