ブログ
TiDBとVearchの比較 AIアプリケーションに適したベクターデータベースの選択

TiDBとVearchの比較 AIアプリケーションに適したベクターデータベースの選択

Dec 28, 20240 min read

ベクターデータベースとは？

TiDBとVearchを比較する前に、まずベクターデータベースの概念について説明しよう；

ベクトルデータベース](https://zilliz.com/learn/what-is-vector-database)は、特に高次元のベクトルを格納し、クエリするために設計されています。ベクトルは非構造化データの数値表現です。これらのベクトルは、テキストの意味、画像の視覚的特徴、または製品の属性などの複雑な情報をエンコードします。効率的な類似検索を可能にすることで、ベクトルデータベースはAIアプリケーションにおいて極めて重要な役割を果たし、より高度なデータ分析と検索を可能にしている。

ベクトルデータベースの一般的なユースケースには、電子商取引の商品推奨、コンテンツ発見プラットフォーム、サイバーセキュリティにおける異常検知、医療画像分析、自然言語処理(NLP)タスクなどがある。また、AI幻覚のような問題を軽減するために、外部知識を提供することによって大規模言語モデル(LLM)の性能を向上させる技術であるRAG(Retrieval Augmented Generation)でも重要な役割を果たしている。

市場には、以下のような多くの種類のベクトル・データベースがある：

Milvus](https://zilliz.com/what-is-milvus)、Zilliz Cloud(フルマネージドMilvus)など。
Faiss](https://zilliz.com/learn/faiss)やAnnoyのようなベクトル検索ライブラリ。
Chroma](https://zilliz.com/blog/milvus-vs-chroma)やMilvus Liteのような軽量ベクトルデータベース。
小規模なベクトル検索が可能なベクトル検索アドオンを備えた従来のデータベース**。

TiDBは従来のデータベースにベクトル検索をアドオンしたもので、Vearchはベクトルデータベースである。この記事では、両者のベクトル検索機能を比較する。

TiDB: 概要とコアテクノロジー

PingCAP社によって開発されたTiDBは、オープンソースの分散型SQLデータベースであり、ハイブリッドトランザクション処理と分析処理（HTAP）機能を提供する。MySQLと互換性があるため、MySQLのエコシステムに慣れ親しんでいるチームにとっては導入が容易です。TiDBの分散SQLアーキテクチャは、SQLデータベースのリレーショナルモデルを維持しながら、NoSQLデータベースのような水平スケーラビリティを提供し、トランザクションと分析の両方のワークロードを処理するための高い柔軟性を実現しています。

TiDBの中核的な強みの1つはHTAPアーキテクチャで、トランザクション（OLTP）と分析（OLAP）のワークロードを単一のデータベースで処理できるため、別々のシステムを用意する必要がありません。さらに、TiDBはMySQLと互換性があるため、アプリケーションコードを大幅に変更することなく、MySQLに依存している既存の環境に簡単に統合することができます。また、このデータベースは自動シャーディング機能を備えており、ノード間でデータを自動的に分散することで、強力な一貫性を維持しながら読み取りと書き込みのパフォーマンスを向上させます。

TiDBは外部ライブラリやプラグインとの統合によりベクトル検索をサポートし、ベクトル化されたデータの効率的な管理とクエリを可能にします。この機能とTiDBのHTAPアーキテクチャを組み合わせることで、トランザクションや分析ワークロードに加えてベクトル検索機能を必要とするビジネスにとって、TiDBは汎用性の高い選択肢となります。TiDBの分散アーキテクチャにより、必要な構成が整えば、大規模なベクタークエリを処理することができます。

TiDBにベクトル検索機能を組み込むには追加の設定が必要ですが、TiDBはSQLと互換性があるため、開発者はベクトル検索と従来のリレーショナルクエリを組み合わせることができます。この柔軟性により、TiDBはベクトル検索とリレーショナルデータベースの両方の機能を必要とする複雑なアプリケーションに適しており、多様なデータ管理ニーズに対する包括的なソリューションを提供します。

Vearch** とは？概要とコアテクノロジー

Vearchは、高速で効率的な類似検索を必要とするAIアプリケーションを開発する開発者のためのツールです。超強力なデータベースのようなものだが、通常のデータを保存する代わりに、最新のAI技術の多くを支えるトリッキーなベクトル埋め込みを扱うように構築されている。

Vearchの最もクールな点は、そのハイブリッド検索だ。ベクトルによる検索（類似した画像やテキストを見つけることを想像してほしい）と、数値やテキストのような通常のデータによるフィルタリングができる。そのため、「このような商品を探す、ただし電子機器カテゴリーで500ドル以下」というような複雑な検索も可能だ。何百万ものベクトルからなるコーパスをミリ秒単位で検索できるのだ。

Vearchはニーズに応じて成長するように設計されている。クラスタのセットアップを使用し、コンピュータのチームが一緒に働くようなものだ。異なるタイプのノード（マスター、ルーター、パーティション・サーバー）があり、メタデータの管理からデータの保存や計算まで、異なるジョブを処理する。これにより、Vearchはデータの増加に合わせてスケールアウトし、信頼性を高めることができる。より多くのデータやトラフィックを処理するために、汗をかくことなくマシンを追加することができます。

開発者にとっては、Vearchは生活を容易にする素晴らしい機能をいくつか備えている。リアルタイムでインデックスにデータを追加できるので、検索結果は常に最新の状態に保たれます。複雑なデータに便利な、1つのドキュメントに複数のベクトル・フィールドをサポートする。また、Python SDKも用意されており、迅速な開発とテストが可能だ。Vearchは、インデックス作成方法（IVFPQとHNSW）に柔軟性があり、CPUとGPUの両方のバージョンをサポートしているので、特定のハードウェアやユースケースに合わせて最適化することができます。レコメンデーションシステム、類似画像検索、または高速な類似マッチングを必要とするAIアプリの構築など、Vearchはそれを効率的に実現するツールを提供します。

##主な違い

検索パフォーマンスと方法論

TiDBはSQLを使用し、プラグインによってベクトル検索機能を提供する。HTAPアーキテクチャは、トランザクションと分析ワークロードを1つのシステムで処理する。

Vearchは、類似検索に特化したベクトルインデックス作成手法（IVFPQとHNSW）を使用している。何百万ものベクトルをミリ秒単位で処理でき、ベクトル類似度と従来のフィルタリングを組み合わせたハイブリッド検索をサポートしている。

データ管理

TiDBはMySQLと互換性のあるシステムで、構造化データを得意としている。ノード間でデータを自動シャードし、ACIDに準拠している。ベクターデータには特別な設定が必要。

Vearchはベクター埋め込みをネイティブに扱い、ドキュメントごとに複数のベクターフィールドをサポートする。リアルタイム更新が可能で、ベクターデータを通常のメタデータと組み合わせることができる。

スケーラビリティ

TiDBは自動シャーディングによって水平方向にスケールし、すべてのデータ（通常のデータとベクトルデータ）はノードに分散されます。スケーリング中も強力な一貫性を保ちます。

Vearchは、機能ごとに特化したノード（マスター、ルーター、パーティションサーバー）を持つ分散アーキテクチャを採用しています。CPUとGPUの両方のデプロイをサポートしている。

インテグレーション

TiDBはMySQLエコシステムに適合し、標準的なSQLツールとフレームワークをサポートする。ベクター検索には外部ライブラリが必要です。

Vearchは直接統合するためにPython SDKとREST APIを提供している。AIアプリケーションとの相性は良いが、従来のデータベース操作にはカスタムインテグレーションが必要になるかもしれない。

セットアップとメンテナンス

TiDBはMySQLの知識を必要とするが、使い慣れたデータベースパターンに従う。ベクター検索のセットアップには専門知識が必要です。

Vearchはベクトル検索のユースケースにフォーカスしており、ユースケースのためのシンプルなセットアップを行う。クラスタヘルスモニタリングツールも含まれている。

コスト

TiDBはフルデータベースであるため、より多くのリソースを消費する可能性があります。通常のデータベースとベクトル検索の両方のコストを考慮してください。

Vearchはベクトル操作に特化して最適化されているため、純粋なベクトル検索ワークロードではより少ないリソースで済む可能性がある。

それぞれの選択時期

従来のデータベース操作とベクトル検索の両方を処理できるハイブリッドソリューションが必要な場合は、TiDBを選択してください。すでにMySQLを使用している企業がACIDコンプライアンスを維持しながらベクトル検索を追加したい場合や、ベクトル類似検索と同時に複雑なSQLクエリを必要とするアプリケーションに最適です。TiDBは、トランザクションデータとレコメンデーションシステムを組み合わせたeコマースプラットフォームや、分析処理と類似性マッチングの両方を必要とする金融サービスなどのユースケースに適している。

ベクトル類似検索のパフォーマンスとスケーラビリティに主眼を置く場合は、Vearchを選択する。画像類似検索エンジン、推薦システム、自然言語処理アプリケーションなど、高速なベクトル演算を必要とするAIに特化したアプリケーションに適しています。Vearchは、リアルタイムのベクトル検索更新が必要で、複雑なSQL操作を必要としない場合に適しています。

要約

TiDBとVearchは目的が異なる：TiDBはベクトル検索を備えた分散SQLデータベースであり、Vearchは高性能なベクトル類似検索を行う。TiDBはベクトル検索付きの分散SQLデータベースで、Vearchは高性能なベクトル類似検索データベースです。

TiDBとVearchの概要を知るにはこれを読めばよいが、これらを評価するには、ユースケースに基づいて評価する必要がある。その際に役立つツールの一つが、ベクターデータベースを比較するためのオープンソースのベンチマークツールであるVectorDBBenchだ。最終的には、独自のデータセットとクエリパターンを使って徹底的にベンチマークを行うことが、分散データベースシステムにおけるベクトル検索に対する、強力だが異なるこの2つのアプローチのどちらを選ぶかを決める鍵となるだろう。

オープンソースのVectorDBBenchを使ってベクトルデータベースを評価・比較する

VectorDBBenchは、高性能なデータ保存・検索システム、特にベクトルデータベースを必要とするユーザーのためのオープンソースのベンチマークツールです。このツールにより、ユーザはMilvusやZilliz Cloud(マネージドMilvus)のような異なるベクトルデータベースシステムを独自のデータセットを使ってテストし比較し、自分のユースケースに合うものを見つけることができます。VectorDBBenchを使えば、ユーザーはマーケティング上の主張や伝聞ではなく、実際のベクターデータベースのパフォーマンスに基づいて決定を下すことができます。

VectorDBBenchはPythonで書かれており、MITオープンソースライセンスの下でライセンスされています。VectorDBBenchは、その機能と性能の改善に取り組む開発者のコミュニティによって活発にメンテナンスされています。

VectorDBBenchをGitHubリポジトリ**からダウンロードして、我々のベンチマーク結果を再現したり、あなた自身のデータセットでパフォーマンス結果を得てください。
VectorDBBench Leaderboard](https://zilliz.com/vector-database-benchmark-tool?database=ZillizCloud%2CMilvus%2CElasticCloud%2CPgVector%2CPinecone%2CQdrantCloud%2CWeaviateCloud&dataset=medium&filter=none%2Clow%2Chigh&tab=1)で、主流のベクトルデータベースのパフォーマンスを簡単に見てみましょう。
ベクターデータベースの評価については、以下のブログをお読みください。
- ベンチマーク・ベクター・データベースのパフォーマンス：テクニックと洞察](https://zilliz.com/learn/benchmark-vector-database-performance-techniques-and-insights)
- VectorDBBench: Open-Source Vector Database Benchmark Tool](https://zilliz.com/learn/open-source-vector-database-benchmarking-your-way)
- ベクターデータベースを他のデータベースと比較する](https://zilliz.com/comparison)

VectorDB、GenAI、MLに関するその他のリソース

ジェネレーティブAIリソースハブ｜Zilliz](https://zilliz.com/learn/generative-ai)
あなたのGenAIアプリのためのトップパフォーマンスAIモデル｜Zilliz](https://zilliz.com/ai-models)
RAGとは](https://zilliz.com/learn/Retrieval-Augmented-Generation)
大規模言語モデル(LLM)を学ぶ](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
ベクトルデータベース101](https://zilliz.com/learn/what-is-vector-database)
自然言語処理(NLP)](https://zilliz.com/learn/introduction-to-natural-language-processing-tokens-ngrams-bag-of-words-models)

article.updateAt

Chloe Williams
Chloe Williams is a technical writer at Zilliz.

読み続けて

How to Build an Enterprise-Ready RAG Pipeline on AWS with Bedrock, Zilliz Cloud, and LangChain

Build production-ready enterprise RAG with AWS Bedrock, Nova models, Zilliz Cloud, and LangChain. Complete tutorial with deployable code.

AI Integration in Video Surveillance Tools: Transforming the Industry with Vector Databases

Discover how AI and vector databases are revolutionizing video surveillance with real-time analysis, faster threat detection, and intelligent search capabilities for enhanced security.

Vector Databases vs. Spatial Databases

Use a vector database for AI-powered similarity search; use a spatial database for geographic and geometric data analysis and querying.

The Definitive Guide to Choosing a Vector Database

Overwhelmed by all the options? Learn key features to look for & how to evaluate with your own data. Choose with confidence.

Get the Free Guide