ブログ
HydroX AIとZillizによる安全なRAG：責任あるGenAIのためのPIIマスキング

HydroX AIとZillizによる安全なRAG：責任あるGenAIのためのPIIマスキング

Nov 07, 20240 min read

人工知能の急速な成長に伴い、ウェブコンテンツや個人情報のような膨大な量の非構造化データが、AIモデルの学習やRAGのようなGenAIアプリケーションを強化するために使用されています。個人を特定できる情報（PII**）を保護することは、特にモデルのトレーニングや推論において、このデータを責任を持って使用するために不可欠となっています。

この重要なニーズを満たすために、オープンソースのMilvusベクトルデータベースの作成者であるZillizは、HydroX AIと提携し、AIアプリケーションにおけるデータプライバシーを強化するために設計された高度なツールであるPII Maskerを導入しました。

PIIの安全性とGenAIセキュリティの重要性

ジェネレーティブAI（GenAI）モデルは、コンテンツ作成、質問応答、情報分析に新たな可能性をもたらしましたが、同時に特有のセキュリティ上の課題ももたらしています。GenAIモデルは膨大で多様なデータセットで学習されるため、意図せずに学習し、データ内に埋め込まれた機密性の高いPIIを再現してしまう可能性がある。このリスクは、個人データがモデルの出力で意図せずに明らかになる可能性がある場合に特に問題となります。

GenAIワークフローにおいてデータの安全性を確保することは、組織がコンプライアンスを維持するためだけでなく、データ漏えいを減らし、モデルが不正確な情報や誤解を招く情報を生成する幻覚を最小限に抑えることで、モデルのパフォーマンスを向上させるためにも不可欠です。

PII Maskerは、データがMilvusやZilliz Cloud(Milvusのマネージドバージョン)のようなベクトルデータベースに保存される前にPIIをフィルタリングすることにより、GenAIモデルにセキュリティの重要なレイヤーを追加します。このステップにより、特にGenAIアプリケーションで非構造化データとその高次元ベクトル表現を類似検索と意味理解のために保存するためにベクトルデータベースを使用する場合、機密情報が暴露されるリスクが大幅に低減されます。

ベクターデータベースとGenAI：安全性が求められる完璧なマッチング

Milvusのようなベクトルデータベースは、多くのGenAIアプリケーションのバックボーンであり、ベクトル埋め込みを効率的に格納、インデックス付け、検索する。画像、テキスト、動画検索のようなシナリオにおいて、Milvusは、GenAIモデルが根拠のある情報で動作し、高品質の回答を生成することを可能にし、ヘルスケアから金融まで、業界を超えたAI駆動型アプリケーションにスケーラブルなソリューションを提供する。しかし、ベクトル埋め込みは、従来の方法では検出が困難なPIIの痕跡を含むことが多く、データプライバシーに対する革新的なソリューションが下流のアプリケーションに不可欠となっています。

PII Maskerはここで極めて重要な役割を果たします。組織は、データがベクターデータベースに到達する前にPII Markerを使用してPIIを匿名化またはマスクすることにより、データパイプラインの各レイヤーでプライバシーを確保することができます。PII MaskerはMilvusとZilliz Cloudの両方とシームレスに統合されており、ユーザーはナレッジベースとRAGアプリケーションをプライバシー規制に準拠させ、ユーザーデータを保護しながら、自信を持ってGenAIアプリケーションを構築することができます。

AIモデルの安全性を高めるPII Maskerの主な機能

HydroX AIがZillizと共同で開発したPII Maskerは、高精度でPIIを自動的に検出しマスクします。DeBERTa-v3 NLPモデルを使用して、PII Maskerは機密情報を識別し、取り扱いが容易な構造化された出力を提供します。最大1,024トークンをサポートするPII Maskerは、PIIを保護しながら大規模なデータセットを効率的に処理します。この機能により、RAGや様々なGenAIアプリケーションが誤ってレスポンスに含まれる機密情報を公開することを防ぎ、データ漏洩リスクを低減し、クエリが非公開であることを保証します。

PII Maskerの未来

PII Maskerはすでに大きなメリットを提供していますが、HydroX AIはその機能の進化に取り組んでいます。ここでは、2つの進化分野を紹介します：

1.拡張言語サポート: AI アプリケーションがグローバルに成長するにつれて、複数の言語で PII の安全性を確保することが不可欠です。PII Maskerの将来のバージョンは、多様なデータプールに対応するために言語機能を拡張し、国際的な組織にとってより汎用性の高いツールにします。

2.**PII Maskerは現在、名前、住所、電話番号のような明示的なPIIを検出している。将来的には、文脈的に暗示的なPII（明示的には機密ではないが、他のデータと組み合わされたときに身元が明らかになる可能性がある情報）を識別し、マスクする能力を強化することを目指している。

PII Maskerを始めよう

PIIを保護するRAGアプリケーションの実装に興味のある開発者のために、PII Maskerは、既存のワークフローにシームレスに統合できるように設計された簡単なAPIを提供します。リポジトリをクローンし、依存関係をインストールし、数行のコードを実行することで、開発者は機密データを効率的にマスクし始めることができます。このZillizとHydroX AIとのコラボレーションにより、ユーザーのプライバシーを尊重し、グローバルな規制に準拠したAIアプリケーションの作成が容易になります。

HydroX AIの創設者兼CEOであるZhuo Liは、このイニシアチブの意義を次のように強調しています。"PII MaskerをAIワークフローに組み込むことで、機密情報が確実に保護され、企業は最高水準のデータプライバシーを守りながら自信を持ってイノベーションを行うことができます。"

PII Masker がどのように AI 機能を進化させながらデータ保護を強化できるのかについて詳しく知りたい方は、PII Masker GitHub リポジトリをご覧いただくか、PII Masker と Milvus による RAG 構築のステップバイステップガイドをご覧ください。

article.updateAt

Victor Bian
test
Jiang Chen
Jiang is currently Head of Ecosystem and Developer Relations at Zilliz. He has years of experience in data infrastructures and cloud security. Before joining Zilliz, he had previously served as a tech lead and product manager at Google, where he led the development of web-scale semantic understanding and search indexing that powers innovative search products such as short video search. He has extensive industry experience handling massive unstructured data and multimedia content retrieval. He has also worked on cloud authorization systems and research on data privacy technologies. Jiang holds a Master's degree in Computer Science from the University of Michigan.

コンテンツ

無料で始めて、簡単にスケール

あなたのGenAIアプリケーションのために構築されたフルマネージドのベクトルデータベースを試してみてください。

Zilliz Cloudを無料で試す

この記事を共有

読み続けて

Selecting the Right ETL Tools for Unstructured Data to Prepare for AI

Learn the right ETL tools for unstructured data to power AI. Explore key challenges, tool comparisons, and integrations with Milvus for vector search.

Enhancing AI Reliability Through Fine-Grained Hallucination Detection and Correction with FAVA

In this blog, we will explore the nature of hallucinations, the taxonomy that provides a framework for categorizing them, the FAVABENCH dataset designed for evaluation, and how FAVA detects and corrects errors.

3 Key Patterns to Building Multimodal RAG: A Comprehensive Guide

These multimodal RAG patterns include grounding all modalities into a primary modality, embedding them into a unified vector space, or employing hybrid retrieval with raw data access.