FivetranとMilvusでAIを駆使した検索を解き放つ

*このブログはFivetranに掲載されたものです。
Fivetranは現在、Milvus_vectorデータベースをデスティネーションとしてサポートしており、RAGやAIを活用した検索を行うためのあらゆるデータソースの搭載を容易にしています。
データはAIのバックボーンであり、シームレスな接続性はその可能性を最大限に引き出す鍵である。非構造化データは現在、全データの約80%を占めており、エンタープライズ検索や検索拡張世代(RAG)を利用したチャットボットなどのAIアプリケーションにとって計り知れない価値を秘めています。データ量が増大するにつれて、スケーラブル ベクトルデータベース Milvusのようなデータベースは、組織の情報を効率的に保存し、横断的に検索するために不可欠となる。
検索用のデータは、クラウドストレージ、ビジネスアプリケーション、リレーショナルデータベースなど、さまざまな場所に保存されている。典型的なアプローチは、これらのソースを単一のリポジトリに結合し、テキストのような非構造化データをベクトル埋め込みに変換し、メタデータとともにベクトルデータベースに格納することである。このアプローチにより、AIアプリケーションは多種多様なデータセットにアクセスし、データソースの変化に適応することができる。
FivetranのMilvusデスティネーションは、このプロセスを簡素化し、複雑なデータパイプラインを構築、保守、監視する必要性を排除します。データエンジニアは、数回クリックするだけで、高速で効率的かつスケーラブルなAI検索ソリューションを作成することができ、インフラストラクチャの複雑さを管理するよりも、ビジネス価値の創造に集中することができます。
Fivetran Milvus Destinationのセットアップ方法](https://assets.zilliz.com/Figure_How_to_set_up_the_Fivetran_Milvus_Destination_df4df79eea.png)
MilvusとFivetranがAIの基盤を構築する方法
Milvus**は、スケールのために構築された高性能なオープンソースのベクトルデータベースである。Kubernetes上にデプロイされたMilvusの単一のクラスタは、数十億のベクトルを扱うことができる。Zilliz Cloudは、Milvusのフルマネージドバージョンであり、RBACやSOC2などのエンタープライズ対応機能を追加し、独自のCardinalベクトル検索エンジンにより、さらに優れたパフォーマンスを実現しています。MilvusとZilliz Cloudは、セマンティック検索、RAG、マルチモーダル検索といった最新のAIアプリケーションで広く利用されています。
AIを活用した検索ソリューションの構築における課題の1つは、様々なソースからMilvusにデータを取り込み、リアルタイムで意味検索可能にすることである。FivetranのMilvus Destinationは、あらゆるソースからMilvusへのデータ取り込みを簡素化し、企業がデータ移動の管理に煩わされることなく洞察を得ることを可能にする。Milvusの高度なベクトル検索機能とこの合理化されたデータフローを利用することで、開発者は組織の多様なデータソースを十分に活用するAIアプリケーションを迅速に構築することができます。
Fivetran Milvusのデスティネーションでは、以下のことが可能です:
Fivetranコネクタを介して600以上のソースからMilvus/Zillizにデータを取り込む。
非構造化データの抽出、ロードとベクトル化をOpenAIのエンベッディングモデルで効率化。
構造化データのカラムを伝播することで、ベクトル検索へのメタデータのフィルタリングを可能にします。
インクリメンタルな同期でほぼリアルタイムの検索を構築します。
FivetranのパートナーSDK:カスタムコネクタとデスティネーションの構築
Fivetranの パートナーSDKは、技術ベンダーが彼らのサービスのためのソースまたは宛先コネクタを作成し、Fivetranの自動化されたデータ移動プラットフォームとシームレスに統合する権限を与えます。SDKの主な利点は以下の通りです:
言語にとらわれない**:gRPCベースのSDKは、ソースコネクタとデスティネーションコネクタをサポートされているプログラミング言語で記述することができ、開発者が選択した言語で再利用または新しいコードを記述する柔軟性を提供します。
複雑さの軽減**:テンプレートとローカルテスト環境により、サードパーティベンダーはコネクタを簡単にテストおよびデプロイできます。
SDKは、データウェアハウス、データレイク、ストレージプラットフォームがFivetranの600以上のコネクタに簡単にアクセスできるようにし、製品活性化のための新しいチャネルを開きます。
Milvusを開発したZilliz社は、ベクトルデータベースの操作をFivetranのリレーショナル更新モデルに密接にマッピングすることで、Fivetranとの統合を構築した。彼らはまた、取り込み中にベクトルを生成するために、OpenAIの埋め込みサービスのようなサードパーティのソリューションを合理化した。
AIを活用した検索
非構造化データは、最も価値のあるデータであることが多いが、管理が最も難しいデータでもある。FivetranとMilvusにより、企業はAIを搭載した検索ツールを迅速かつ容易に構築し、最も豊富なデータセットから洞察を引き出すことができます。
Fivetranのフルマネージド・コネクタは、スキーマ移行サポートを内蔵し、主要なビジネス・アプリケーションからデータを自動的、確実かつ安全に移動させます。例えば、Slackメッセージの社内検索ツールを構築したい企業を想像してみてください。FivetranのSlackコネクタを使用すると、データはまずレプリケートされ、Snowflakeのようなデータウェアハウスやデータレイクハウスに正規化された形式で保存されます。その後、このデータを非正規化、連結、チャンク化、変換し、FivetranのSnowflakeソースコネクタを使用してMilvusに接続することができます。テキストチャンクをoriginal_textというカラムに格納するだけで、Milvusのデスティネーションは自動的にOpenAIのエンベッディングサービスを呼び出し、テキストからベクトルを生成する。このベクトルはスカラーフィールドとして他のラベルと一緒にMilvusに格納され、ベクトル類似度とメタデータフィルタリングに基づいた効率的な意味検索に利用される。
図- FivetranとMilvusの統合によるデータソースの検索パイプラインの構築方法](https://assets.zilliz.com/Figure_How_to_build_a_search_pipeline_for_data_sources_with_the_Fivetran_and_Milvus_integration_93cf3bf903.png)
結論
新たに導入されたFivetranのMilvusデスティネーションは、あらゆるデータソースをセマンティックに検索可能にするため、AIにおけるデータランドスケープをさらに拡張する。多様なデータベース/ウェアハウスやビジネスアプリからソースデータをMilvusベクトルデータベースに取り込むことで、この統合はAIワークフローの開発を容易にします。セットアップ手順](https://fivetran.com/docs/destinations/milvus)に従って、FivetranのMilvusデスティネーションの利用を開始することができます。
この統合の詳細とリアルタイム検索の構築方法を実際にご覧になりたい方は、2024年9月26日の製品発表会ウェビナーにご参加ください。この統合の特徴を説明し、このコネクタを使って GitHub 課題の RAG チャットボットを構築する方法を実演します!
読み続けて

The Real Bottlenecks in Autonomous Driving — And How AI Infrastructure Can Solve Them
Autonomous driving is data-bound. Vector databases unlock deep insights from massive AV data, slashing costs and accelerating edge-case discovery.

VidTok: Rethinking Video Processing with Compact Tokenization
VidTok tokenizes videos to reduce redundancy while preserving spatial and temporal details for efficient processing.

Vector Databases vs. Graph Databases
Use a vector database for AI-powered similarity search; use a graph database for complex relationship-based queries and network analysis.

