ブログ
Qdrant vs Neo4j AIアプリケーションに適したベクターデータベースの選択

Qdrant vs Neo4j AIアプリケーションに適したベクターデータベースの選択

Dec 11, 20241 min read

ベクターデータベースとは？

QdrantとNeo4jを比較する前に、まずベクターデータベースの概念について説明します；

ベクトルデータベース](https://zilliz.com/learn/what-is-vector-database)は、特に高次元のベクトルを格納し、クエリするように設計されています。ベクトルは非構造化データの数値表現です。これらのベクトルは、テキストの意味、画像の視覚的特徴、または製品の属性などの複雑な情報をエンコードします。効率的な類似検索を可能にすることで、ベクトルデータベースはAIアプリケーションにおいて極めて重要な役割を果たし、より高度なデータ分析と検索を可能にしている。

ベクトルデータベースの一般的なユースケースには、電子商取引の商品推奨、コンテンツ発見プラットフォーム、サイバーセキュリティにおける異常検知、医療画像分析、自然言語処理(NLP)タスクなどがある。また、AI幻覚のような問題を軽減するために、外部知識を提供することによって大規模言語モデル(LLMs)の性能を向上させる技術であるRAG(Retrieval Augmented Generation) において重要な役割を果たす。

市場には、以下のような多くの種類のベクトル・データベースがある：

Milvus](https://zilliz.com/what-is-milvus)、Zilliz Cloud(フルマネージドMilvus)など。
Faiss](https://zilliz.com/learn/faiss)やAnnoyのようなベクトル検索ライブラリ。
Chroma](https://zilliz.com/blog/milvus-vs-chroma)やMilvus Liteのような軽量ベクトルデータベース。
小規模なベクトル検索が可能なベクトル検索アドオンを備えた従来のデータベース**。

Qdrantは専用のベクトルデータベースである。Neo4jは、アドオンとしてベクトル検索機能を持つグラフデータベースである。この投稿では、それらのベクトル検索機能を比較します。&#x20；

Qdrant：概要とコアテクノロジー

Qdrantは類似検索と機械学習のためのベクトルデータベースです。ベクトルデータのためにゼロから構築されたQdrantは、AI開発者のためのデータベースです。Qdrantはパフォーマンスを最適化し、最新のMLモデルの鍵となる高次元のベクトルデータを扱うことができます。

Qdrantの強みの一つは柔軟なデータモデリングです。ベクトルだけでなく、各ベクトルに関連するペイロードデータも保存し、インデックスを付けることができます。これはベクトルの類似性とメタデータのフィルタリングを組み合わせた複雑なクエリを実行できることを意味し、より強力でニュアンスのある検索が可能になります。QdrantはACIDに準拠したトランザクションにより、並行処理中でもデータの一貫性を保証します。

Qdrantのベクトル検索はプラットフォームの中核です。高次元空間で効率的なインデックス作成にはHNSW（Hierarchical Navigable Small World）アルゴリズムのカスタムバージョンを使用しています。Distance Matrix APIは、ベクトル間のペアワイズ距離を効率的に計算することができるので、クラスタリングや次元削減のようなタスクに最適です。速度よりも精度が重要なシナリオのために、Qdrantは正確な検索をサポートし、グラフUIを通してベクトルの関係を探索する視覚的なツールを提供します。

Qdrantの特徴はクエリと最適化機能です。Qdrantのクエリ言語はベクトル検索とシームレスに連動し、データ内のユニークな値を集計・カウントする強力なファセットAPIを含む複雑な操作をサポートします。オンディスクテキストやジオインデックスのようなメモリ最適化機能により、インテリジェントキャッシングでパフォーマンスを維持しながら大規模なデプロイメントに対応できます。Qdrantはスケーラビリティのために自動的にシャーディングとレプリケーションを行い、文字列のマッチングから数値範囲や地理的な位置情報まで様々なデータタイプやクエリ条件をサポートします。スカラー、積、バイナリ量子化機能により、特に高次元のベクトルに対してメモリ使用量を削減し、検索を高速化することができます。

ユースケースに応じて、近似マッチングと完全マッチングの両方で、検索精度とパフォーマンスのトレードオフを設定できます。このアーキテクチャは、ベクトル検索をフィルタリングや集約と組み合わせる必要がある実世界のシナリオを想定して設計されているため、実用的なAIアプリケーションの構築に最適です。

Neo4J: 基礎編

Neo4jのベクトル検索により、開発者はグラフ全体で類似データを検索するためのベクトルインデックスを作成することができる。これらのインデックスは、ベクトル埋め込み（テキスト、画像、音声のようなデータの意味をとらえた数値表現）を含むノード・プロパティで動作します。システムは4096次元までのベクトルと、コサインおよびユークリッド類似性関数をサポートしている。

この実装では、HNSW（Hierarchical Navigable Small World）グラフを使用して、高速な近似k-最近傍検索を行う。ベクトル・インデックスに問い合わせを行う際、検索したい近傍ノードの数を指定すると、システムは類似度スコア順にマッチするノードを返す。これらのスコアは0～1で、高いほど類似度が高い。HNSWアプローチは、類似ベクトル間のつながりを保持し、システムがベクトル空間の異なる部分に素早くジャンプできるようにすることでうまく機能します。

ベクトル・インデックスの作成と使用は、クエリ言語を通して行います。CREATE VECTOR INDEX コマンドでインデックスを作成し、ベクトルの次元や類似関数などのパラメータを指定することができます。システムは設定された次元のベクトルだけがインデックスされることを確認します。これらのインデックスのクエリはdb.index.vector.queryNodesプロシージャで行われ、インデックス名、結果数、クエリベクトルを入力として受け取ります。

Neo4jのベクトルインデックスには、ベクトル表現を圧縮することでメモリ使用量を削減する量子化のようなパフォーマンス最適化があります。ノードあたりの最大接続数(M)や、挿入時に追跡される最近傍の数(ef_construction)などのパラメータで、インデックスの動作を調整できます。これらのパラメータによって精度と性能のバランスをとることができるが、ほとんどのユースケースではデフォルトのままで十分である。また、システムはバージョン5.18から関係ベクトルインデックスをサポートしているので、関係プロパティで類似データを検索することができる。

これにより、開発者はAIを活用したアプリケーションを構築することができる。グラフクエリとベクトル類似性検索を組み合わせることで、アプリケーションは完全一致ではなく、意味的な意味に基づいて関連データを見つけることができる。例えば、映画の推薦システムは、グラフ構造を使用して、推薦がユーザーの好みと同じジャンルまたは時代から来ることを保証しながら、類似した映画を見つけるためにプロット埋め込みベクトルを使用することができます。

主な違い

コアテクノロジーと検索手法

QdrantとNeo4jは共にベクトル検索にHNSW（Hierarchical Navigable Small World）アルゴリズムを使用していますが、それぞれ独自の実装を持っています。Qdrantは高次元ベクトル空間用のカスタムHNSWを開発しました。これには、ベクトル間のペアごとの距離を効率的に計算する距離行列APIが含まれており、クラスタリングや次元削減に最適です。

Neo4jは異なるアプローチをとっており、コサインとユークリッドの類似性関数で4,096次元までのベクトルをサポートしている。Neo4jの実装は、ベクトル検索をグラフクエリと統合することに重点を置いており、意味的な類似性検索とデータ内の構造的な関係を組み合わせることができる。これは、コンテンツの類似性とデータポイント間の関係の両方を考慮する必要がある場合に威力を発揮する。

データ処理とアーキテクチャ

Qdrantは柔軟なデータモデリングが可能です。ベクターをペイロードデータと一緒に保存することができます。つまり、ベクトルの類似性とメタデータのフィルタリングを組み合わせた複雑なクエリを作成することができます。QdrantはACIDに準拠したトランザクションによりデータの一貫性を保つので、並行処理中でも信頼性があります。Qdrantはベクターとそのメタデータ間の複雑な関係を維持する必要があるアプリケーションに最適です。

Neo4jはグラフアーキテクチャでデータを扱います。ノードとリレーションシッププロパティに対するベクトルインデックス（5.18で導入）を使えば、基礎となるグラフ構造を活用しながら類似データを検索できます。これは、データポイント間の関係を理解することが、類似したベクトルを見つけることと同じくらい重要である場合、素晴らしいことです。

パフォーマンスとスケーラビリティ

Qdrantのパフォーマンスはいくつかのメカニズムにより最適化されています。分散ワークロードのための自動シャーディングとレプリケーション、大規模データセットのためのオンディスクテキストとジオインデキシング、頻繁にアクセスされるデータのためのインテリジェントキャッシングを備えています。また、Qdrantはスカラー、積、バイナリ量子化により、検索品質を損なうことなくメモリ使用量を削減します。

Neo4jはベクトル量子化によりパフォーマンスを最適化し、ベクトル表現を圧縮してメモリフットプリントを削減します。Qdrantでは、ノードあたりの最大接続数や挿入時の最近傍などのパラメータを微調整できるため、検索精度と性能の適切なバランスを見つけることができます。

クエリー機能と検索機能

Qdrantのクエリシステムはベクトル検索用に構築されています。クエリ言語はベクトル検索とうまく統合されており、データ内のユニークな値を集計、カウントする強力なファセットAPIを備えています。Qdrantは様々なデータ型とクエリ条件、近似一致と完全一致の両方をサポートしています。これにより、ベクトル検索を従来のフィルタリングや集計操作と組み合わせることができます。

Neo4jのクエリは、グラフデータベースの遺産を中心に行われる。ベクトル検索はdb.index.vector.queryNodesプロシージャを通して実装され、Neo4jのグラフクエリ言語とうまく統合されています。さらに、関係ベクトル・インデックスにより、グラフの関係の類似パターンを見つけることができます。

Qdrant vs Neo4j: ベクトル検索の実用的な比較

AIアプリケーションを構築する際、ベクトル検索ツールの選択はプロジェクトを左右します。QdrantとNeo4jはどちらも優れたソリューションですが、ベクトル検索に対するアプローチの方向性が異なります。これらの違いを理解することで、最適なものを選ぶことができます。

コアテクノロジーと検索手法

QdrantもNeo4jも基本的にはHNSW(Hierarchical Navigable Small World)アルゴリズムを使用していますが、それぞれ独自の実装を持っています。Qdrantは高次元ベクトル空間用に独自のHNSWを実装しています。これには、クラスタリングや次元削減に最適な、ベクトル間のペア距離を効率的に計算するDistance Matrix APIが含まれています。

Neo4jは異なるアプローチをとり、コサインとユークリッドの類似性関数で4096次元までのベクトルをサポートする。Neo4jの実装は、ベクトル検索をグラフクエリと統合することに重点を置いているため、意味的な類似性検索とデータ内の構造的な関係を組み合わせることができる。これは、コンテンツの類似性とデータポイント間の関係の両方を考慮する必要がある場合に特に強力です。

データ処理とアーキテクチャ

Qdrantは柔軟なデータモデリングが可能です。ベクターをペイロードデータと一緒に保存することができます。つまり、ベクトルの類似性とメタデータのフィルタリングを組み合わせた複雑なクエリを作成することができます。システムはACIDに準拠したトランザクションでデータの一貫性を保つため、同時処理中でも信頼性があります。このアーキテクチャにより、Qdrantはベクタとそのメタデータ間の複雑な関係を維持する必要があるアプリケーションに最適です。

Neo4jはグラフアーキテクチャでデータを扱います。ノードやリレーションシッププロパティに対するベクトルインデックスのサポート（5.18で導入）により、基礎となるグラフ構造を使用しながら類似データを検索できます。これは、データポイント間の関係を理解することが、類似したベクトルを見つけることと同じくらい重要なシナリオに最適です。

パフォーマンスとスケーラビリティ

Qdrantのパフォーマンスはいくつかのメカニズムにより最適化されています。分散ワークロードのための自動シャーディングとレプリケーション、大規模データセットのためのオンディスクテキストとジオインデキシング、頻繁にアクセスされるデータのためのインテリジェントキャッシング。また、Qdrantはスカラー、積、バイナリ量子化により、検索品質を損なうことなくメモリ使用量を削減します。

クエリー機能と検索機能

Qdrantのクエリシステムはベクトル検索のために構築されています。クエリ言語はベクトル検索と統合されており、データ内のユニークな値を集計・カウントする強力なファセットAPIを備えています。Qdrantは様々なデータ型とクエリ条件、近似一致と完全一致の両方をサポートしています。この柔軟性により、ベクトル検索を従来のフィルタリングや集計操作と組み合わせることができます。

Neo4jのクエリ・アプローチは、グラフ・データベースの伝統を中心としている。ベクトル検索は、Neo4jのグラフクエリ言語と統合されたdb.index.vector.queryNodesプロシージャによって実装されています。この統合により、グラフ・トラバーサル・クエリとベクトル類似性検索を組み合わせることができ、0から1の類似性スコアで結果を得ることができます。関係ベクトル・インデックスを追加することで、グラフ関係の類似パターンをさらに見つけやすくなります。

Qdrantを選ぶとき

Qdrantはベクトル類似性検索に重点を置き、大規模で高次元のベクトルデータを扱う必要がある場合に最適です。例えば、大規模な画像類似検索システム、セマンティック文書検索サービス、複雑な属性フィルタリングを伴う数百万アイテムの商品推薦エンジンなどです。

Neo4jを選ぶとき

Neo4jは、アプリケーションでデータポイント間の関係やベクトルの類似性を理解し、利用する必要がある場合に適した選択です。例えば、セマンティック検索による知識グラフ、パターン認識と類似性検索を組み合わせた不正検知システム、ユーザーの類似性と接続パターンの両方を考慮する必要があるソーシャルネットワーク分析ツールなどです。

結論

Qdrantは高いパフォーマンスを必要とする純粋なベクトル検索シナリオに最適で、Neo4jはベクトルの類似性とグラフの関係性を組み合わせる必要がある場合に輝きます。ベクトル検索がメインでパフォーマンスの最適化が必要な場合はQdrantを、ベクトル類似度検索でグラフの関係性を活用する必要がある場合はNeo4jをお選びください。既存のインフラ、チームの専門知識、グラフデータベースの追加機能から利益を得られるかどうかを考慮して決定してください。

QdrantとNeo4jの概要はこちらをご覧ください。そのために役立つツールの一つが、ベクターデータベースの比較のためのオープンソースのベンチマークツールであるVectorDBBenchです。最終的には、独自のデータセットとクエリパターンを使って徹底的にベンチマークを行うことが、分散データベースシステムにおけるベクトル検索に対する、強力だが異なるこの2つのアプローチのどちらを選ぶかを決める鍵となるでしょう。

オープンソースのVectorDBBenchを使ってベクトルデータベースを評価・比較する

VectorDBBenchは、高性能なデータ保存・検索システム、特にベクトルデータベースを必要とするユーザーのためのオープンソースのベンチマークツールです。このツールにより、ユーザはMilvusやZilliz Cloud(マネージドMilvus)のような異なるベクトルデータベースシステムを独自のデータセットを使ってテストし比較し、自分のユースケースに合うものを見つけることができます。VectorDBBenchを使えば、ユーザーはマーケティング上の主張や伝聞ではなく、実際のベクターデータベースのパフォーマンスに基づいて決定を下すことができます。

VectorDBBenchはPythonで書かれており、MITオープンソースライセンスの下でライセンスされています。VectorDBBenchは、その機能と性能の改善に取り組む開発者のコミュニティによって活発にメンテナンスされています。

VectorDBBenchをGitHubリポジトリ**からダウンロードして、我々のベンチマーク結果を再現したり、あなた自身のデータセットでパフォーマンス結果を得てください。
VectorDBBench Leaderboard](https://zilliz.com/vector-database-benchmark-tool?database=ZillizCloud%2CMilvus%2CElasticCloud%2CPgVector%2CPinecone%2CQdrantCloud%2CWeaviateCloud&dataset=medium&filter=none%2Clow%2Chigh&tab=1)で、主流のベクトルデータベースのパフォーマンスを簡単に見てみましょう。
ベクターデータベースの評価については、以下のブログをお読みください。
- ベンチマーク・ベクター・データベースのパフォーマンス：テクニックと洞察](https://zilliz.com/learn/benchmark-vector-database-performance-techniques-and-insights)
- VectorDBBench: Open-Source Vector Database Benchmark Tool](https://zilliz.com/learn/open-source-vector-database-benchmarking-your-way)
- ベクターデータベースを他のデータベースと比較する](https://zilliz.com/comparison)

VectorDB、GenAI、MLに関するその他のリソース

ジェネレーティブAIリソースハブ｜Zilliz](https://zilliz.com/learn/generative-ai)
あなたのGenAIアプリのためのトップパフォーマンスAIモデル｜Zilliz](https://zilliz.com/ai-models)
RAGとは](https://zilliz.com/learn/Retrieval-Augmented-Generation)
大規模言語モデル(LLM)を学ぶ](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
ベクトルデータベース101](https://zilliz.com/learn/what-is-vector-database)
自然言語処理(NLP)](https://zilliz.com/learn/introduction-to-natural-language-processing-tokens-ngrams-bag-of-words-models)

article.updateAt

Chloe Williams
Chloe Williams is a technical writer at Zilliz.

読み続けて

Introducing Zilliz Cloud Global Cluster: Region-Level Resilience for Mission-Critical AI

Zilliz Cloud Global Cluster delivers multi-region resilience, automatic failover, and fast global AI search with built-in security and compliance.

Zilliz Cloud Now Available in Azure North Europe: Bringing AI-Powered Vector Search Closer to European Customers

The addition of the Azure North Europe (Ireland) region further expands our global footprint to better serve our European customers.

Vector Databases vs. Object-Relational Databases

Use a vector database for AI-powered similarity search; use an object-relational database for complex data modeling with both relational integrity and object-oriented features.

The Definitive Guide to Choosing a Vector Database

Overwhelmed by all the options? Learn key features to look for & how to evaluate with your own data. Choose with confidence.

Get the Free Guide