HydroX AIとZillizによる安全なRAG:責任あるGenAIのためのPIIマスキング

人工知能の急速な成長に伴い、ウェブコンテンツや個人情報のような膨大な量の非構造化データが、AIモデルの学習やRAGのようなGenAIアプリケーションを強化するために使用されています。個人を特定できる情報(PII**)を保護することは、特にモデルのトレーニングや推論において、このデータを責任を持って使用するために不可欠となっています。
この重要なニーズを満たすために、オープンソースのMilvusベクトルデータベースの作成者であるZillizは、HydroX AIと提携し、AIアプリケーションにおけるデータプライバシーを強化するために設計された高度なツールであるPII Maskerを導入しました。
PIIの安全性とGenAIセキュリティの重要性
ジェネレーティブAI(GenAI)モデルは、コンテンツ作成、質問応答、情報分析に新たな可能性をもたらしましたが、同時に特有のセキュリティ上の課題ももたらしています。GenAIモデルは膨大で多様なデータセットで学習されるため、意図せずに学習し、データ内に埋め込まれた機密性の高いPIIを再現してしまう可能性がある。このリスクは、個人データがモデルの出力で意図せずに明らかになる可能性がある場合に特に問題となります。
GenAIワークフローにおいてデータの安全性を確保することは、組織がコンプライアンスを維持するためだけでなく、データ漏えいを減らし、モデルが不正確な情報や誤解を招く情報を生成する幻覚を最小限に抑えることで、モデルのパフォーマンスを向上させるためにも不可欠です。
PII Maskerは、データがMilvusやZilliz Cloud(Milvusのマネージドバージョン)のようなベクトルデータベースに保存される前にPIIをフィルタリングすることにより、GenAIモデルにセキュリティの重要なレイヤーを追加します。このステップにより、特にGenAIアプリケーションで非構造化データとその高次元ベクトル表現を類似検索と意味理解のために保存するためにベクトルデータベースを使用する場合、機密情報が暴露されるリスクが大幅に低減されます。
ベクターデータベースとGenAI:安全性が求められる完璧なマッチング
Milvusのようなベクトルデータベースは、多くのGenAIアプリケーションのバックボーンであり、ベクトル埋め込みを効率的に格納、インデックス付け、検索する。画像、テキスト、動画検索のようなシナリオにおいて、Milvusは、GenAIモデルが根拠のある情報で動作し、高品質の回答を生成することを可能にし、ヘルスケアから金融まで、業界を超えたAI駆動型アプリケーションにスケーラブルなソリューションを提供する。しかし、ベクトル埋め込みは、従来の方法では検出が困難なPIIの痕跡を含むことが多く、データプライバシーに対する革新的なソリューションが下流のアプリケーションに不可欠となっています。
PII Maskerはここで極めて重要な役割を果たします。組織は、データがベクターデータベースに到達する前にPII Markerを使用してPIIを匿名化またはマスクすることにより、データパイプラインの各レイヤーでプライバシーを確保することができます。PII MaskerはMilvusとZilliz Cloudの両方とシームレスに統合されており、ユーザーはナレッジベースとRAGアプリケーションをプライバシー規制に準拠させ、ユーザーデータを保護しながら、自信を持ってGenAIアプリケーションを構築することができます。
AIモデルの安全性を高めるPII Maskerの主な機能
HydroX AIがZillizと共同で開発したPII Maskerは、高精度でPIIを自動的に検出しマスクします。DeBERTa-v3 NLPモデルを使用して、PII Maskerは機密情報を識別し、取り扱いが容易な構造化された出力を提供します。最大1,024トークンをサポートするPII Maskerは、PIIを保護しながら大規模なデータセットを効率的に処理します。この機能により、RAGや様々なGenAIアプリケーションが誤ってレスポンスに含まれる機密情報を公開することを防ぎ、データ漏洩リスクを低減し、クエリが非公開であることを保証します。
PII Maskerの未来
PII Maskerはすでに大きなメリットを提供していますが、HydroX AIはその機能の進化に取り組んでいます。ここでは、2つの進化分野を紹介します:
1.拡張言語サポート: AI アプリケーションがグローバルに成長するにつれて、複数の言語で PII の安全性を確保することが不可欠です。PII Maskerの将来のバージョンは、多様なデータプールに対応するために言語機能を拡張し、国際的な組織にとってより汎用性の高いツールにします。
2.**PII Maskerは現在、名前、住所、電話番号のような明示的なPIIを検出している。将来的には、文脈的に暗示的なPII(明示的には機密ではないが、他のデータと組み合わされたときに身元が明らかになる可能性がある情報)を識別し、マスクする能力を強化することを目指している。
PII Maskerを始めよう
PIIを保護するRAGアプリケーションの実装に興味のある開発者のために、PII Maskerは、既存のワークフローにシームレスに統合できるように設計された簡単なAPIを提供します。リポジトリをクローンし、依存関係をインストールし、数行のコードを実行することで、開発者は機密データを効率的にマスクし始めることができます。このZillizとHydroX AIとのコラボレーションにより、ユーザーのプライバシーを尊重し、グローバルな規制に準拠したAIアプリケーションの作成が容易になります。
HydroX AIの創設者兼CEOであるZhuo Liは、このイニシアチブの意義を次のように強調しています。"PII MaskerをAIワークフローに組み込むことで、機密情報が確実に保護され、企業は最高水準のデータプライバシーを守りながら自信を持ってイノベーションを行うことができます。"
PII Masker がどのように AI 機能を進化させながらデータ保護を強化できるのかについて詳しく知りたい方は、PII Masker GitHub リポジトリ をご覧いただくか、PII Masker と Milvus による RAG 構築 のステップバイステップガイドをご覧ください。
読み続けて

Demystifying the Milvus Sizing Tool
Explore how to use the Sizing Tool to select the optimal configuration for your Milvus deployment.

VidTok: Rethinking Video Processing with Compact Tokenization
VidTok tokenizes videos to reduce redundancy while preserving spatial and temporal details for efficient processing.

Empowering Innovation: Highlights from the Women in AI RAG Hackathon
Over the course of the day, teams built working RAG-powered applications using the Milvus vector database—many of them solving real-world problems in healthcare, legal access, sustainability, and more—all within just a few hours.

