ビジネスに最適なCUタイプとサイズを選ぶには?

Zilliz CloudにおけるCU(Compute Unit)とは、検索リクエストやインデックスに対応するハードウェアリソースを指します。Zilliz Cloudは3種類のCUを提供しています:パフォーマンス最適化型、キャパシティ最適化型、コスト最適化型(近日公開予定)*です。それぞれのCUタイプは、異なるビジネスニーズに対応するために、異なるCPU、メモリ、ストレージリソースの組み合わせで構成されています。したがって、Zilliz Cloudクラスタを構成する際には、適切なCUオプションとサイズを選択することが非常に重要です。
パフォーマンス最適化CU
パフォーマンスに最適化されたCUは、ミリ秒単位の高速レスポンスタイムと、少なくとも100クエリ/秒(QPS)の高スループットを必要とする類似検索タスクに最適です。各CUは約150万個の768次元ベクトルを扱うことができます。
このCUタイプは、以下のユースケースに不可欠である(ただし、これに限定されない):
- 生成AIアプリケーション
- 推薦システム
- 検索エンジン
- チャットボット
- コンテンツモデレーション
- LLMの知識ベースの増強
- 不正防止システム
キャパシティの最適化されたCU
アプリケーションが数千万のベクトルを処理する場合は、容量最適化CUの使用を検討してください。各 CU は約 500 万個の 768 次元ベクトルを処理できます。このタイプのCUは、パフォーマンス最適化CUよりもはるかに多くのデータを格納でき、コストは低いですが、パフォーマンスも低くなります。
容量最適化CUは、以下のようなシナリオで特に有用です(ただし、これに限定されません):
- テキスト、画像、動画、分子構造などの大規模な非構造化データの検索
- 著作権違反の検出
- 身元確認
コスト最適化されたCU(近日公開予定)
コスト最適化CUは、応答時間を気にせず、予算が非常に限られている場合に最適です。各CUは、比較的リーズナブルな価格で2,000万個の768次元ベクトルを扱うことができます。検索レイテンシは高くなりますが、容量最適化CUの最大4倍のデータを保持できます。
このタイプのCUは、以下のようなオフラインタスクに最適です:
- データのラベリングやクラスタリング
- 重複排除
- データセットの異常値検出またはクラスバランシング
3つのCUタイプの評価
下の表はZilliz CloudのCUタイプの違いの概要です。
CUタイプ** | レイテンシー | スループット | 容量 | 100万ベクトルあたりのコスト (注:768次元ベクトルに基づく) |
---|---|---|---|---|
パフォーマンス最適化|低|高|低|月々65ドルから | ||||
容量最適化|中|中|中|月々20ドルから | ||||
コスト最適化|高|低|高|近日公開予定 |
パフォーマンス比較
さまざまなCUオプションのパフォーマンスを測定するために、2つの重要な指標、検索レイテンシとスループットを調べました。様々なtopk
値(10、100、250、1000)を持つ2つのデータセットを使って、Zilliz Cloudの3種類のCUをテストした。最初のデータセットは768次元の1,000,000ベクトル、2番目は同じ次元の5,000,000ベクトルです。
top_k | / | / | 10 | 100 | 250 | 1000 |
---|---|---|---|---|---|---|
待ち時間|パフォーマンス最適化CU|1M 768dim|<10ms|<10ms|<10ms|10-20ms | ||||||
容量最適化CU|5M 768dim|<50ms|<50ms|<50ms|50-100ms | ||||||
コスト最適化CU |
上の表は、パフォーマンス最適化CUが低レイテンシを実現する最良の選択であり、容量最適化CUを凌駕していることを示している。典型的なtopk
値が10~250の場合、レイテンシは10ミリ秒未満を維持し、容量最適化よりも5~10倍高速である。topk値が数千の場合、各CUタイプのレイテンシは、パフォーマンス最適化CUで10~20ミリ秒、キャパシティ最適化CUで50~100ミリ秒と変化する。しかし、数千の
topk`値を持つタスクを実行する場合、パフォーマンス最適化CUの応答が遅くなるとはいえ、その検索レイテンシは多くのリアルタイム・アプリケーションに適していることは注目に値する。
| top_k|||10|100|250|1000 | ------ | ------------------------ | ----------- | --- | --- | --- | ---- | | QPS|パフォーマンス最適化cu|1M 768dim|520|440|270|150 | 容量最適化CU|5M 768dim|100|80|60|40 | コスト最適化CU|近日公開
スループットに関しては、パフォーマンス最適化CUが優れている。容量最適化CUを4~5倍上回る。
容量比較
Zilliz Cloudの3種類のCUを、標準的なベクトル次元を使用してテストしました:128、256、512、768、1024です。
| ベクター次元|CUあたりのベクター数(百万)|CUあたりのベクター数(百万)|CUあたりのベクター数(百万)|CUあたりのベクター数(百万 | ----------------- | ----------------------------------- | --------------------- | ----------------- | | パフォーマンス最適化CU|キャパシティ最適化CU|コスト最適化CU | 128|5|25| 近日発売予定 | 256|2.96|14.87|近日発売予定 | 512|1.63|8.22|近日発売予定 | 768 | 1.5 | 5 | 20 | | 1024|0.86|4.34|近日中
上表のテスト結果に基づくと、次のようになる:
- コスト最適化されたCUは、768次元ベクトルを格納する際に最大の容量を持ち、パフォーマンス最適化されたCUの13倍、容量最適化されたCUの4倍となっている。
- ベクトル次元が大きくなるにつれて、データを保持するためにより多くの記憶領域が必要になる。例えば、CUは1024次元ベクトルと比較して、およそ2倍の512次元ベクトルを格納することができる。
注:注**:この実験では、スカラー・フィールドを追加せずに、主キーとベクトルだけに注目した。しかし、id、label、keywords、summary、URLなどのスカラー・フィールドが追加された場合、各CUタイプの実際の容量は上記の表とは異なる可能性がある。したがって、正確さを期すためには経験的な測定に頼ることが不可欠である。
いくつかの例を見てみよう!
Zilliz Cloudの3つのCUオプションをレイテンシー、スループット、キャパシティ、コストの観点から比較してみました。しかし、どのようにあなたのビジネスに最適なオプションを選択するのでしょうか?正しい選択をするために、2つの例を見てみましょう。
例1
768次元の埋め込みベクトルで1000万以上のプライベートドキュメントのテキストチャンクを保存するためにZilliz Cloudを採用するLLM拡張チャットボットを構築しているとします。あなたのアプリケーションは、Zilliz Cloudが1,000 QPSをサポートし、30ミリ秒未満のエンドツーエンドのレイテンシでトップ10の結果を取得する必要があります。
パフォーマンスに最適化されたCUは、30ミリ秒未満のレイテンシを達成する唯一の方法です。各パフォーマンス最適化CUは最大150万個の768次元ベクトルを保持できるため、1,000万個のベクトルすべてを処理するには少なくとも7個のCUが必要です。topk`値が10の場合、1つのCUでスループットのピークQPSは520に達します。1,000QPSを取るには、2つのレプリカが必要になる。
したがって、このシナリオに最適なアプローチは、パフォーマンスを最適化したCUのレプリカを2つ使用し、それぞれに7つのCUを含めることです。
例2
あなたのアプリケーションが画像の著作権侵害を検出し、1億のプールから類似のものを 見つける必要があるとします。各画像は768次元ベクトルに埋め込まれています。リアルタイムの応答は必要ありませんが、50 QPSのスループットでトップ100の結果を期待します。
容量最適化されたCUとパフォーマンス最適化されたCUの両方が、トップ100の結果を取得する場合、毎秒50のリクエストを処理することができます。しかし、容量最適化CUは、パフォーマンス最適化CUよりも3倍多くのベクトルを格納できる。したがって、容量最適化CUの方がニーズに適した選択肢となります。
テスト結果によると、容量最適化CUは1つで最大560万個の768次元ベクトルを格納できます。億個のベクトルを格納するには、最低20個のCUが必要です。topk`値が100の場合、1つのCUでスループットのピークQPSは80に達する。50QPSならレプリカ1台で十分です。したがって、20個のキャパシティに最適化されたCUを持つクラスタが必要になる。
まとめ
Zilliz Cloudは3種類のCUを提供しています。アプリケーションに光速性とリアルタイム応答性が必要な場合は、パフォーマンス最適化CUが最適です。容量に最適化されたCUは、何千万ものベクトルの保存と取得を必要とするアプリケーションに最適です。予算が限られており、スピードとスループットを犠牲にしても構わない場合は、コスト最適化CUが最適です。
Zilliz Cloudを始める
無料トライアル(クレジットカード不要)、または30日間エンタープライズトライアルをお試しください。クラウドマーケットプレイス](https://zilliz.com/pricing)を通してご契約いただくと、さらに[100ドル]のクレジットをプレゼントいたします。
Zilliz Cloudのドキュメントをより深くご覧ください。
読み続けて

Balancing Precision and Performance: How Zilliz Cloud's New Parameters Help You Optimize Vector Search
Optimize vector search with Zilliz Cloud’s level and recall features to tune accuracy, balance performance, and power AI applications.

Leveraging Milvus and Friendli Serverless Endpoints for Advanced RAG and Multi-Modal Queries
This tutorial has demonstrated how to leverage Milvus and Friendli Serverless Endpoints to implement advanced RAG and multi-modal queries.

Deploying a Multimodal RAG System Using vLLM and Milvus
This blog will guide you through creating a Multimodal RAG with Milvus and vLLM.