Zillizクラウドに包括的なモニタリングと監視機能を導入

Zillizでは、高性能なvector databaseアプリケーションの構築と保守に必要なツールをユーザーに提供することをお約束します。過去数ヶ月間、私たちのエンジニアリングチームは幅広いモニタリングと観測可能性の機能に取り組んできました。このプラットフォームへの強力な追加機能により、ユーザーはクラスタのパフォーマンスを監視し、カスタムアラートを設定し、潜在的な問題に迅速に対応することができます。
クラスターメトリクス:ベクターデータベースのパフォーマンスを可視化
新しいMetricsダッシュボードでは、いくつかの重要な領域にわたってクラスタのパフォーマンスを包括的に見ることができます:
CPU使用率、メモリ使用率、ストレージ消費量を監視します。
9 Performance Metrics:** 1秒あたりのクエリー数(QPS)、1秒あたりのベクター数(VPS)、および読み取りと書き込みの両方の操作の待ち時間を追跡します。
コレクション数、エンティティ数、およびロードされたエンティティを監視します。
これらのメトリクスは直感的なダッシュボードから利用でき、カスタム時間範囲を選択して詳細な分析を行うことができます。
クラスタ・メトリクスのスクリーンショット.png
図1:Zillizクラウド監視メトリクスのスクリーンショット
カスタマイズ可能なアラート:潜在的な問題に先手を打つ
メトリックスを補完するために、2種類のアラートを導入しました:
- 5つの組織アラート: **クレジットカードの有効期限、無料クレジット残高、利用料金など、請求関連の事柄に焦点を当てます。
図2- 組織アラートのスクリーンショット.png
図2:組織アラートのスクリーンショット
- CU の使用状況、QPS のしきい値、待ち時間の問題、リクエストの異常など、クラスタの運用面を監視します。
図 3- プロジェクトアラートのスクリーンショット.png
図3: Project Alertsのスクリーンショット
当社のアラートシステムには、事前に定義されたターゲットと条件が付属していますが、広範なカスタマイズも可能です。しきい値、期間を設定し、様々な重大度レベルから選択することで、特定のニーズに合わせてアラートを調整することができます。
メトリクス・アラートシステムの主な機能
Zillizの新しいモニタリング&オブザーバビリティシステムは、お客様のZilliz Cloudクラスタに対する包括的な洞察を提供するように設計されています。以下がその内容です:
リアルタイムモニタリングは、クラスタのパフォーマンスに関する最新の洞察を得ることを可能にします。この即時フィードバックにより、パフォーマンスの問題が発生した場合、迅速に特定し対応することができます。
カスタマイズ可能なダッシュボード**を実装しており、ユースケースにとって最も重要なメトリクスにフォーカスして表示をカスタマイズできます。クエリのパフォーマンス、リソースの使用率、データの増加のいずれに関心がある場合でも、これらの重要な領域を強調するようにダッシュボードを設定できます。
当社の柔軟なアラート設定システムでは、カスタムしきい値と期間を持つアラートを設定できます。このきめ細かな制御により、潜在的な問題を早期に発見し、クラスタをプロアクティブに管理することができます。
重要な通知を見逃さないために、複数の通知チャネルを統合しました。電子メール、PagerDuty、slack、またはWebhookの統合によってアラートを受け取ることができ、これらの通知を既存のワークフローや監視システムに簡単に組み込むことができます。
最後に、私たちのシステムは履歴データへのアクセスを提供し、時間の経過とともにパフォーマンスの傾向を分析することができます。この機能は、長期的な最適化、キャパシティプランニング、およびシステムに対する変更の影響を理解するために非常に重要です。
これらの機能が連携することで、堅牢な監視・観測ソリューションを提供し、Zilliz Cloudクラスタの最適なパフォーマンスを維持することができます。
はじめに
Zilliz Cloudのモニタリングと監視機能は、Zilliz Cloudのコンソールから簡単にアクセスできるように設計されています。これらのツールを活用する方法をご紹介します:
クラスタ・ビュー内のMetricsタブに移動し、詳細なパフォーマンス・データを探索します。
Setting Up Alerts: 組織アラートまたはプロジェクトアラートページにアクセスして、アラート設定を構成および管理します。
ステップバイステップのガイドやベストプラクティスなど、Monitoring & Observability 機能の詳細については、ドキュメントページ をご覧ください。これらのリソースは、あなたがこれらの強力なツールを最大限に活用し、あなたのZilliz Cloudエクスペリエンスを最適化するのに役立ちます。
What's Next?
私たちは、メトリクスとアラートシステムの継続的な強化に取り組んでいます。ロードマップをご覧ください:
1.アラートテンプレート:私たちは、迅速なセットアップと複数のアラートへの容易な適用のためのテンプレートを開発し、アラート設定プロセスを合理化しています。
2.ポッド・リソース・メトリクス:今後のメトリクスには、CPU使用率、メモリ使用率、ネットワークフローのような詳細なポッドレベルの情報が含まれます。
3.拡張データ・オペレーション・メトリクス:Indexed Entity メトリクス、クラスタ接続メトリクスなど、データ操作に関するより深い洞察を提供するメトリクスを拡張します。
4.サードパーティとの統合:高度な監視設定をサポートするために、一般的な監視プラットフォームであるDatadogやPrometheusとの統合を開発しています。
これらの次期機能により、Zilliz Cloudクラスタに対するより詳細な制御と洞察が提供され、パフォーマンスを最適化し、より効果的に問題に対応できるようになります。Zilliz Cloudの新機能Metrics and Alertsの詳細については、10月3日に開催されるrelease deep-dive webinarにご参加ください。
私たちは、今後数ヶ月でこれらの機能拡張をご紹介できることを楽しみにしています。あなたのフィードバックはZilliz Cloudを形作る上で非常に重要です。Discord](http://milvus.io/discord)またはサポートチームへのお問い合わせでご意見をお聞かせください。
モニタリング&オブザーバビリティの新機能について、皆様のご意見をお待ちしております。
読み続けて

Introducing Zilliz Cloud Global Cluster: Region-Level Resilience for Mission-Critical AI
Zilliz Cloud Global Cluster delivers multi-region resilience, automatic failover, and fast global AI search with built-in security and compliance.

Introducing Business Critical Plan: Enterprise-Grade Security and Compliance for Mission-Critical AI Applications
Discover Zilliz Cloud’s Business Critical Plan—offering advanced security, compliance, and uptime for mission-critical AI and vector database workloads.

Data Deduplication at Trillion Scale: How to Solve the Biggest Bottleneck of LLM Training
Explore how MinHash LSH and Milvus handle data deduplication at the trillion-scale level, solving key bottlenecks in LLM training for improved AI model performance.