ブログ
TiDB vs Rockset AIアプリケーションに適したベクターデータベースの選択

TiDB vs Rockset AIアプリケーションに適したベクターデータベースの選択

Dec 28, 20240 min read

ベクターデータベースとは？

TiDBとRocksetを比較する前に、まずベクターデータベースの概念について説明しよう；

ベクトルデータベース](https://zilliz.com/learn/what-is-vector-database)は、特に高次元のベクトルを格納し、クエリするように設計されています。ベクトルは非構造化データの数値表現です。これらのベクトルは、テキストの意味、画像の視覚的特徴、または製品の属性などの複雑な情報をエンコードします。効率的な類似検索を可能にすることで、ベクトルデータベースはAIアプリケーションにおいて極めて重要な役割を果たし、より高度なデータ分析と検索を可能にしている。

ベクトルデータベースの一般的なユースケースには、電子商取引の商品推奨、コンテンツ発見プラットフォーム、サイバーセキュリティにおける異常検知、医療画像分析、自然言語処理(NLP)タスクなどがある。また、AI幻覚のような問題を軽減するために、外部知識を提供することによって大規模言語モデル(LLMs)の性能を向上させる技術であるRAG(Retrieval Augmented Generation) において重要な役割を果たす。

市場には、以下のような多くの種類のベクトル・データベースがある：

Milvus](https://zilliz.com/what-is-milvus)、Zilliz Cloud(フルマネージドMilvus)など。
Faiss](https://zilliz.com/learn/faiss)やAnnoyのようなベクトル検索ライブラリ。
Chroma](https://zilliz.com/blog/milvus-vs-chroma)やMilvus Liteのような軽量ベクトルデータベース。
小規模なベクトル検索が可能なベクトル検索アドオンを備えた従来のデータベース**。

TiDBは伝統的なデータベースであり、Rocksetは検索・分析データベースである。どちらもアドオンとしてベクトル検索を備えている。この記事では、両者のベクトル検索機能を比較する。

TiDB: 概要とコアテクノロジー

TiDBはPingCAP社によって開発されたオープンソースの分散型SQLデータベースで、ハイブリッドトランザクション処理と分析処理（HTAP）機能を提供する。MySQLと互換性があるため、MySQLのエコシステムに慣れ親しんでいるチームにとっては導入が容易です。TiDBの分散SQLアーキテクチャは、SQLデータベースのリレーショナルモデルを維持しながら、NoSQLデータベースのような水平スケーラビリティを提供し、トランザクションと分析の両方のワークロードを処理するための高い柔軟性を実現しています。

TiDBの中核的な強みの1つはHTAPアーキテクチャであり、トランザクション（OLTP）と分析（OLAP）のワークロードを単一のデータベースで処理できるため、別々のシステムを用意する必要がありません。さらに、TiDBはMySQLと互換性があるため、アプリケーションコードを大幅に変更することなく、MySQLに依存している既存の環境に簡単に統合することができます。また、このデータベースは自動シャーディング機能を備えており、ノード間でデータを自動的に分散することで、強力な一貫性を維持しながら読み取りと書き込みのパフォーマンスを向上させます。

TiDBは外部ライブラリやプラグインとの統合によりベクトル検索をサポートし、ベクトル化されたデータの効率的な管理とクエリを可能にします。この機能とTiDBのHTAPアーキテクチャを組み合わせることで、トランザクションや分析ワークロードに加えてベクトル検索機能を必要とするビジネスにとって、TiDBは汎用性の高い選択肢となります。TiDBの分散アーキテクチャにより、必要な構成が整えば、大規模なベクタークエリを処理することができます。

TiDBにベクトル検索機能を組み込むには追加の設定が必要ですが、TiDBはSQLと互換性があるため、開発者はベクトル検索と従来のリレーショナルクエリを組み合わせることができます。この柔軟性により、TiDBはベクトル検索とリレーショナルデータベースの両方の機能を必要とする複雑なアプリケーションに適しており、多様なデータ管理ニーズに対する包括的なソリューションを提供します。

Rockset概要とコアテクノロジー

Rocksetは、ベクトル埋め込みを含む、構造化・非構造化データのリアルタイム検索・分析データベースです。リアルタイムにデータを取り込み、インデックスを作成し、クエリを実行することができるため、瞬時の洞察を必要とするアプリケーションに最適です。Rocksetは、ストリーミングとバルクの両方のデータ取り込みをサポートしており、高速イベントストリームと変更データキャプチャ（CDC）フィードを1～2秒で処理できます。

Rocksetの主な特徴の一つは、ミュータブルなRocksDB上に構築されたコンバージド・インデクシングです。これにより、ベクターとメタデータをインプレースで更新できるため、データが頻繁に変更されるシナリオでは非常に効率的です。Rocksetは最大40MBまでのドキュメントを扱うことができ、最大200,000までのベクトル次元をサポートしているので、幅広いベクトル埋め込みユースケースに適しています。

Rocksetはコアにベクトル検索を内蔵しています。KNN (K-Nearest Neighbors) と ANN (Approximate Nearest Neighbors) 検索をサポートし、スケーラビリティのために分散 FAISS インデックスを使用しています。Rocksetはアルゴリズムにとらわれないので、独自の検索実装を選択することができます。コストベースのオプティマイザは、最適なパフォーマンスを得るためにKNNとANNの検索方法を動的に選択することができます。

ベクトル検索用のRocksetのユニークな点は、検索、ANN、列インデックス、行インデックスを1つにまとめたコンバージド・インデックスです。つまり、様々なクエリーパターンをすぐに扱うことができるのです。Rocksetはメタデータフィルタリングとハイブリッド検索もサポートしている。オプティマイザが最も効率的なクエリパスを選択します。複数のANNフィールドを横断して検索することができ、マルチモーダルモデルをサポートし、クエリーインターフェイスにはSQLとREST APIの両方が用意されている。

主な違い

検索方法とパフォーマンス

TiDBはプラグインや外部ライブラリを使ってベクトル検索をサポートしており、様々な検索アルゴリズムを実装することができます。ただし、これには追加のセットアップと設定が必要です。TiDBはベクトル検索において、ノード間の強い一貫性を維持します。

Rocksetには、分散FAISSインデックスを使ったKNNとANNメソッドによるベクトル検索が組み込まれている。そのコンバージド・インデックスは、複数のインデックスタイプ（検索、ANN、列、行）を1つのシステムに統合し、クエリのパフォーマンスを自動的に最適化する。システムは最大200,000次元のベクトルと最大40MBのドキュメントを扱うことができる。

データ管理

TiDBは、MySQL互換のインターフェイスにより、構造化データの取り扱いに優れています。HTAPアーキテクチャにより、OLTPとOLAPのワークロードを1つのシステムに統合します。ベクトル検索機能は、従来のSQLクエリと同様に動作します。

Rockset は、構造化データと非構造化データを同じように処理する。Converged Indexingシステムにより、ベクターとメタデータの高速更新が可能であり、頻繁に変更されるデータに対して効率的である。ストリーミングデータとバルクデータの両方を取り込むことができ、1～2秒以内に変更を処理する。

スケーラビリティ

TiDBは自動シャーディングにより、データをノード間で自動的に分散します。これにより、データセットが大きくなってもパフォーマンスを維持できます。TiDBは強力な一貫性を保ちながら、水平方向に拡張できます。

Rocksetの分散アーキテクチャは、クラウドネイティブな設計によってスケーリングに対応します。システムは自動的にノード間のリソース割り当てとクエリの分散を管理します。

インテグレーション

TiDBはMySQLベースのシステムやツールとの統合性が高い。SQL互換性があるため、既存のアプリケーションはTiDBで動作させるために最小限の変更で済みます。

Rocksetはクエリ用にSQLとREST APIの両方を提供している。ストリーミングデータソースと簡単に接続でき、CDCフィードもサポートしている。様々なベクトル埋め込みモデルやマルチモーダルデータに対応している。

##TiDBを選ぶ

ベクトル検索によるトランザクション処理と分析処理の両方が必要な場合。MySQLとの互換性、強力な一貫性、ベクトル操作による複雑なSQLクエリの処理能力。既存のMySQLインフラストラクチャやSQLチームは、学習曲線が管理しやすいと感じるでしょう。

Rocksetを選ぶ

データが頻繁に変化し、リアルタイムで検索する必要がある場合。レコメンデーションエンジン、類似検索システム、AIを利用した検索機能など、ストリーミングデータに対して高速なベクトル検索を必要とするアプリケーションに最適です。内蔵のベクトル機能と高速なデータ処理により、設定なしでベクトル検索を実装する必要があるチームに最適です。

結論

TiDBはMySQLと互換性があり、HTAPはプラグインでベクトル検索ができる。データの更新頻度、一貫性の要件、既存のインフラに基づいて選択する。TiDBは一貫性が重要なMySQLの世界にフィットし、Rocksetは高速なベクトル検索と頻繁な更新が必要なリアルタイムアプリケーションにフィットする。

これを読めばTiDBとRocksetの概要がわかるが、これらを評価するにはユースケースに基づいて評価する必要がある。それに役立つツールの一つが、ベクターデータベースを比較するためのオープンソースのベンチマークツールであるVectorDBBenchだ。最終的には、独自のデータセットとクエリパターンを使って徹底的にベンチマークを行うことが、分散データベースシステムにおけるベクトル検索に対する、強力だが異なるこの2つのアプローチのどちらを選ぶかを決める鍵となるだろう。

オープンソースのVectorDBBenchを使ってベクトルデータベースを評価・比較する

VectorDBBenchは、高性能なデータ保存・検索システム、特にベクトルデータベースを必要とするユーザーのためのオープンソースのベンチマークツールです。このツールにより、ユーザはMilvusやZilliz Cloud(マネージドMilvus)のような異なるベクトルデータベースシステムを独自のデータセットを使ってテストし比較し、自分のユースケースに合うものを見つけることができます。VectorDBBenchを使えば、ユーザーはマーケティング上の主張や伝聞ではなく、実際のベクターデータベースのパフォーマンスに基づいて決定を下すことができます。

VectorDBBenchはPythonで書かれており、MITオープンソースライセンスの下でライセンスされています。VectorDBBenchは、その機能と性能の改善に取り組む開発者のコミュニティによって活発にメンテナンスされています。

VectorDBBenchをGitHubリポジトリ**からダウンロードして、我々のベンチマーク結果を再現したり、あなた自身のデータセットでパフォーマンス結果を得てください。
VectorDBBench Leaderboard](https://zilliz.com/vector-database-benchmark-tool?database=ZillizCloud%2CMilvus%2CElasticCloud%2CPgVector%2CPinecone%2CQdrantCloud%2CWeaviateCloud&dataset=medium&filter=none%2Clow%2Chigh&tab=1)で、主流のベクトルデータベースのパフォーマンスを簡単に見てみましょう。
ベクターデータベースの評価については、以下のブログをお読みください。
- ベンチマーク・ベクター・データベースのパフォーマンス：テクニックと洞察](https://zilliz.com/learn/benchmark-vector-database-performance-techniques-and-insights)
- VectorDBBench: Open-Source Vector Database Benchmark Tool](https://zilliz.com/learn/open-source-vector-database-benchmarking-your-way)
- ベクターデータベースを他のデータベースと比較する](https://zilliz.com/comparison)

VectorDB、GenAI、MLに関するその他のリソース

ジェネレーティブAIリソースハブ｜Zilliz](https://zilliz.com/learn/generative-ai)
あなたのGenAIアプリのためのトップパフォーマンスAIモデル｜Zilliz](https://zilliz.com/ai-models)
RAGとは](https://zilliz.com/learn/Retrieval-Augmented-Generation)
大規模言語モデル(LLM)を学ぶ](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
ベクトルデータベース101](https://zilliz.com/learn/what-is-vector-database)
自然言語処理(NLP)](https://zilliz.com/learn/introduction-to-natural-language-processing-tokens-ngrams-bag-of-words-models)

article.updateAt

Chloe Williams
Chloe Williams is a technical writer at Zilliz.

読み続けて

My Wife Wanted Dior. I Spent $600 on Claude Code to Vibe-Code a 2M-Line Database Instead.

Write tests, not code reviews. How a test-first workflow with 6 parallel Claude Code sessions turns a 2M-line C++ codebase into a daily shipping pipeline.

Why and How to Migrate from Self-Hosted Milvus to Zilliz Cloud

A simple, step-by-step guide to migrating from Milvus to Zilliz Cloud. Learn both endpoint and backup methods for a smooth, scalable vector database migration.

How to Use Anthropic MCP Server with Milvus

MCP + Milvus: Streamline AI agent development with standardized data access, eliminating integration hassles while enhancing context and flexibility.

The Definitive Guide to Choosing a Vector Database

Overwhelmed by all the options? Learn key features to look for & how to evaluate with your own data. Choose with confidence.

Get the Free Guide