Zilliz Cloud vs MyScale AIアプリケーションに適したベクターデータベースの選択
ベクターデータベースとは?
Zilliz CloudとMyScaleを比較する前に、まずベクターデータベースの概念について説明します;
ベクトルデータベース](https://zilliz.com/learn/what-is-vector-database)は、特に高次元のベクトルを格納し、クエリするために設計されています。ベクトルは非構造化データの数値表現です。これらのベクトルは、テキストの意味、画像の視覚的特徴、または製品の属性などの複雑な情報をエンコードします。効率的な類似検索を可能にすることで、ベクトルデータベースはAIアプリケーションにおいて極めて重要な役割を果たし、より高度なデータ分析と検索を可能にしている。
ベクトルデータベースの一般的なユースケースには、電子商取引の商品推奨、コンテンツ発見プラットフォーム、サイバーセキュリティにおける異常検知、医療画像分析、自然言語処理(NLP)タスクなどがある。また、AI幻覚のような問題を軽減するために、外部知識を提供することによって大規模言語モデル(LLM)の性能を向上させる技術であるRAG(Retrieval Augmented Generation) において重要な役割を果たす。
市場には、以下のような多くの種類のベクトル・データベースがある:
- Milvus](https://zilliz.com/what-is-milvus)、Zilliz Cloud(フルマネージドMilvus)など。
- Faiss](https://zilliz.com/learn/faiss)やAnnoyのようなベクトル検索ライブラリ。
- Chroma](https://zilliz.com/blog/milvus-vs-chroma)やMilvus Liteのような軽量ベクトルデータベース。
- 小規模なベクトル検索が可能なベクトル検索アドオンを備えた従来のデータベース**。
Zilliz Cloudは専用のベクターデータベースである。MyScaleはClickHouse上に構築されたデータベースで、ベクトル検索とSQLアナリティクスを組み合わせ、アドオンとしてベクトル検索機能を備えている。この記事では、両社のベクトル検索機能を比較する。
Zilliz Cloud:概要とコアテクノロジー
Zilliz Cloudは、オープンソースのMilvusエンジン上に構築されたフルマネージドベクターデータベースサービスです。ベクトル埋め込みデータを効率的に保存、管理、検索することで、開発者や組織が大規模なAIアプリケーションを扱えるよう支援します。Zillizクラウドがインフラを管理するため、開発者はデータベースを管理する代わりにAI機能の構築に集中することができます。
Zilliz Cloudの主な利点の1つは、パフォーマンスの自動最適化です。このシステムにはAutoIndexテクノロジーが搭載されており、あなたのデータとユースケースに最適なインデックス作成方法を選択します。そのため、パラメータのチューニングや異なるインデックスタイプの比較に時間を費やす必要はありません。また、このプラットフォームはIVF(Inverted File)とグラフベースのテクニックを使い、大規模なデータセットの類似性検索を高速化します。
このプラットフォームにはエンタープライズ機能がある。AWS、Azure、Google Cloudにベクターデータベースを展開することができ、Zillizのフルマネージドサービスを利用することも、BYOC(Bring Your Own Cloud Account)を利用することもできる。機密データを扱う組織のために、Zilliz Cloudは暗号化、アクセス管理、コンプライアンスツールなどのセキュリティコントロールを備えている。また、さまざまな一貫性レベルをサポートしているため、ニーズに応じて高速更新と強力なデータ一貫性のバランスを取ることができます。
コスト管理はZilliz Cloudのもう一つの重要な側面である。このプラットフォームでは、階層型ストレージを使用して、アクセスの少ないデータをより安価なストレージオプションに自動的に移動させるため、パフォーマンスに影響を与えることなくコストを削減することができます。また、ワークロードに合わせてコンピュートリソースを選択することもできます。例えば、重い処理タスクにはより強力なインスタンスを使用し、単純なクエリにはより軽量なインスタンスを使用するといった具合です。この柔軟性により、パフォーマンスを維持しながらコストを最適化することができます。
異なるタイプのデータを一緒に検索する必要があるAIアプリケーションのために、Zilliz Cloudはハイブリッド検索をサポートしています。単一のクエリで、テキスト埋め込み、画像ベクトル、その他のデータタイプを横断的に検索できます。また、このプラットフォームは、コサイン、ユークリッド、内積などの様々な類似度メトリクスをサポートしているため、様々な機械学習モデルやユースケースに適している。データが増大するにつれて、システムは自動的にリソースを追加することで水平方向に拡張できるため、負荷の高い作業でも優れたパフォーマンスを維持することができます。
MyScaleとは?概要とコアテクノロジー
MyScaleはオープンソースのClickHouseデータベース上に構築されたクラウドベースのデータベースで、AIや機械学習のワークロード向けに設計されている。構造化データ、ベクトルデータ、リアルタイム分析、機械学習を扱うことができる。MyScaleは時系列、ベクトル検索、全文検索に重点を置いているため、リアルタイム処理やAI主導の洞察に適している。ClickHouseアーキテクチャを使用することで、MyScaleはAI向けに高性能でスケーラブルです。
MyScaleの主な特徴の1つはネイティブSQLのサポートで、ベクトル検索、全文検索、従来のSQLクエリを1つのシステムに統合することで、AI主導のクエリを簡素化します。これにより、複数のツールの必要性を減らし、AI向けのスケーラビリティを実現している。MyScaleは、ベクトル化されたデータを操作するためのOLAPデータベース・アーキテクチャを使用して、1つのプラットフォーム上で構造化データとベクトル化データの両方の分析処理をサポートし、管理します。開発者はSQLを使用してMyScaleとやり取りできるため、リレーショナルデータベースに精通したすべてのプログラマーがアクセス可能です。
MyScaleには複数のベクトルインデックスタイプと類似度メトリクスがあり、様々なユースケースをサポートします。ユークリッド距離(L2)、内積(IP)、余弦類似度といった一般的な距離メトリクスをサポートしています。データベースには複数のインデックス作成アルゴリズムがあります:MSTG(マルチスケールツリーグラフ)、ScaNN、IVFFLAT、IVFPQ、IVFSQ、HNSWがあり、それぞれパラメータを調整することができます。MyScale独自のMSTGベクトルエンジンは、NVMe SSDを使用してデータ密度を高めているため、パフォーマンスとコストの両面で特殊なベクトルデータベースを凌駕します。
SQLデータベース、ベクトルデータベース、全文検索エンジンの機能を1つのシステムに統合することで、MyScaleはインフラとメンテナンスコストを削減します。この統合により、共同データクエリーと分析が可能になり、AIアプリケーションのための単一のデータ基盤が実現します。MyScaleはまた、LLMシステムの完全な観測性を実現するMyScale Telemetryを備えているため、効率的なモニタリングとデバッグが可能です。データがより複雑になるにつれ、MyScaleは、異なるデータタイプ間のコンピューティング・パフォーマンスと統合性を維持しながら、より新しいデータ様式とデータベース・サイズに対応できる、将来性のあるソリューションです。
主な違い
AIアプリケーションのためのベクトルデータベースに関して言えば、Zilliz CloudとMyScaleはベクトル検索に対する2つの異なるアプローチです。Zilliz CloudはオープンソースのMilvusエンジンの上に構築され、MyScaleはClickHouseアーキテクチャの上に構築されている。この根本的な違いは、各プラットフォームがデータと検索をどのように処理するかに影響する。
Zilliz Cloudは最適化を組み込んだ特殊なベクトル演算に重点を置いている。AutoIndexは、データとユースケースに適したインデックスタイプを自動的に選択することで、インデックスタイプの選択とチューニングの複雑さを取り除きます。IVFとグラフベースの類似性検索メソッドは、コサイン類似度、ユークリッド距離、内積などの標準的なメトリクスをサポートします。
MyScaleは、SQL、ベクトル検索、全文検索を1つのシステムに統合することで、異なるアプローチを取っています。この統一されたプラットフォームにより、開発者は従来のクエリとベクトル操作の両方にSQL構文を使用できる。MyScaleは、より高いデータ密度を実現するためにNVMe SSDを使用する独自のMSTGベクトルエンジンを含む、複数のインデックスオプションを提供しています。その他のオプションには、ScaNN、IVFFLAT、IVFPQ、IVFSQ、HNSWなどがあり、開発者は検索を最適化できる柔軟性を備えています。
データ管理**に関しては、それぞれのプラットフォームに利点がある。Zilliz Cloudは純粋なベクトル演算を得意とし、異なるデータタイプのハイブリッド検索をサポートしている。テキスト埋め込みと画像ベクトルを1つのクエリで検索できる。このプラットフォームは自動的に水平スケーリングに対応し、AWS、Azure、Google Cloudへのデプロイオプションを提供し、フルマネージドサービスか独自のクラウドアカウントを持ち込むかを選択できる。
構造化データとベクトルデータに対するMyScaleの統一されたアプローチはユニークだ。SQL構文を使用することで、開発者は従来のクエリとベクトル操作をシームレスに組み合わせることができる。これは、分析機能とベクトル検索の両方を必要とするアプリケーションに特に有効です。ClickHouseの基盤は、強力なリアルタイム処理と分析をサポートします。
コスト管理機能はプラットフォームによって異なる。Zilliz Cloudは階層型ストレージを採用しており、アクセス数の少ないデータは自動的に安価なストレージに移動する。また、ユーザーはワークロードに合わせてコンピュート・リソースを選択することができ、重い処理にはより強力なインスタンスを、単純なクエリーにはより軽いインスタンスを使用することができる。MyScaleはインフラ統合によるコスト効率にアプローチし、複数のデータベース機能を1つのシステムに統合することでコストを削減する。MSTGベクトルエンジンは、ストレージコストの最適化にも役立ちます。
どちらのプラットフォームも包括的なセキュリティ機能を備えている。Zilliz Cloudは、暗号化、アクセス管理、コンプライアンスツールを提供し、更新速度とデータの一貫性のバランスを取るために異なる一貫性レベルを備えている。MyScaleは標準的なデータベース・セキュリティ機能と、システム監視のためのMyScale Telemetryを備えている。
それぞれの選択時期
Zilliz Cloudは、設定のオーバーヘッドを最小限に抑えた純粋なベクトル検索が必要な場合に適しています。レコメンデーションシステム、画像類似検索、自動パフォーマンス最適化を必要とする大規模AIアプリケーションを構築する企業に最適です。複雑なインフラを管理することなくAI機能の構築に集中したいチーム、特に複数のベクトルタイプや異なるデータモダリティを横断するハイブリッド検索を扱う場合に最適です。
MyScaleは、アプリケーションでSQL操作とベクトル検索を組み合わせる必要がある場合に適しています。MyScaleは、時系列データをベクトル操作で扱い、リアルタイム分析を必要とする企業や、構造化データとベクトルデータの両方を1つのシステムで処理したい企業に最適です。SQLの専門知識を持つチームが、従来のデータベース操作とベクトル類似検索を組み合わせた複雑なクエリを必要とするアプリケーションを構築する場合に最適です。
結論
Zilliz CloudとMyScaleのどちらを選択するかは、ベクトル検索に対するアプローチの違いに尽きる。Zilliz Cloudは、ベクトル検索に特化したソリューション、自動最適化、マネージド・インフラストラクチャに適している。MyScaleは、従来のデータベース機能とベクトル検索の両方を必要とするアプリケーション向けに、SQLとベクトル操作を組み合わせた統合的なアプローチに最適です。データ・タイプ(純粋なベクトルか、混合データか)、クエリ・パターン(ベクトル検索専用か、SQLとベクトル操作の組み合わせか)、チームの専門性(インフラ管理か、SQL開発か)、スケーリング・ニーズ(自動最適化か、手動最適化か)などを考慮し、要件に基づいて決定する必要があります。正しい選択は、これらの要素がアプリケーションの目標とチームの能力にどのようにマッチするかによって決まります。
Zilliz CloudとMyScaleの概要についてはこちらをお読みいただきたいが、これらを評価するには、ユースケースに基づいて評価する必要がある。それに役立つツールの1つが、ベクターデータベースを比較するためのオープンソースのベンチマークツールであるVectorDBBenchだ。最終的には、独自のデータセットとクエリパターンを使って徹底的なベンチマークを行うことが、分散データベースシステムにおけるベクトル検索に対する、強力だが異なるこの2つのアプローチのどちらを選ぶかを決める鍵となるだろう。
オープンソースのVectorDBBenchを使ってベクトルデータベースを評価・比較する
VectorDBBenchは、高性能なデータ保存・検索システム、特にベクトルデータベースを必要とするユーザーのためのオープンソースのベンチマークツールです。このツールにより、ユーザはMilvusやZilliz Cloud(マネージドMilvus)のような異なるベクトルデータベースシステムを独自のデータセットを使ってテストし比較し、自分のユースケースに合うものを見つけることができます。VectorDBBenchを使えば、ユーザーはマーケティング上の主張や伝聞ではなく、実際のベクターデータベースのパフォーマンスに基づいて決定を下すことができます。
VectorDBBenchはPythonで書かれており、MITオープンソースライセンスの下でライセンスされています。VectorDBBenchは、その機能と性能の改善に取り組む開発者のコミュニティによって活発にメンテナンスされています。
VectorDBBenchをGitHubリポジトリ**からダウンロードして、我々のベンチマーク結果を再現したり、あなた自身のデータセットでパフォーマンス結果を得てください。
VectorDBBench Leaderboard](https://zilliz.com/vector-database-benchmark-tool?database=ZillizCloud%2CMilvus%2CElasticCloud%2CPgVector%2CPinecone%2CQdrantCloud%2CWeaviateCloud&dataset=medium&filter=none%2Clow%2Chigh&tab=1)で、主流のベクトルデータベースのパフォーマンスを簡単に見てみましょう。
ベクターデータベースの評価については、以下のブログをお読みください。
- ベンチマーク・ベクター・データベースのパフォーマンス:テクニックと洞察](https://zilliz.com/learn/benchmark-vector-database-performance-techniques-and-insights)
- VectorDBBench: Open-Source Vector Database Benchmark Tool](https://zilliz.com/learn/open-source-vector-database-benchmarking-your-way)
- ベクターデータベースを他のデータベースと比較する](https://zilliz.com/comparison)
VectorDB、GenAI、MLに関するその他のリソース
- ジェネレーティブAIリソースハブ|Zilliz](https://zilliz.com/learn/generative-ai)
- あなたのGenAIアプリのためのトップパフォーマンスAIモデル|Zilliz](https://zilliz.com/ai-models)
- RAGとは](https://zilliz.com/learn/Retrieval-Augmented-Generation)
- 大規模言語モデル(LLM)を学ぶ](https://zilliz.com/learn/ChatGPT-Vector-Database-Prompt-as-code)
- ベクトルデータベース101](https://zilliz.com/learn/what-is-vector-database)
- 自然言語処理(NLP)](https://zilliz.com/learn/introduction-to-natural-language-processing-tokens-ngrams-bag-of-words-models)
読み続けて

Zilliz Cloud Enterprise Vector Search Powers High-Performance AI on AWS
Zilliz Cloud on AWS powers secure, scalable, ultra-fast vector search for enterprise AI apps, with BYOC, sub-10ms latency, and zero-DevOps simplicity.

Empowering Innovation: Highlights from the Women in AI RAG Hackathon
On January 25, 2025, the inaugural Women in AI RAG Hackathon brought together a diverse group of women technologists at Stanford University

Enhancing AI Reliability Through Fine-Grained Hallucination Detection and Correction with FAVA
In this blog, we will explore hallucinations, the taxonomy that provides a framework for categorizing them, and how FAVA detects and corrects errors
The Definitive Guide to Choosing a Vector Database
Overwhelmed by all the options? Learn key features to look for & how to evaluate with your own data. Choose with confidence.