AirbyteとZillizが語る、AIを成功させるためのデータエンジニアリングの重要性
*この記事は2024年10月17日にDBTAに掲載されたものを許可を得て再掲載したものです。
データの収集と活用を可能にすることは、企業規模のAIプロジェクトを成功裏にサポートする上で極めて重要である。データ統合からデータパイプライン、AIのパフォーマンス、データガバナンス、コンプライアンスなどに至るまで、データエンジニアリングのベストプラクティスを遵守することが、AIを活用した未来を実現する上でこれほど賢明なことはない。
DBTA_の最新ウェビナー「AIのためのデータエンジニアリング・ベストプラクティス」(https://www.dbta.com/Webinars/2076-Data-Engineering-Best-Practices-for-AI.htm)では、Airbyteのエンジニアリング・ディレクターであるブライアン・レナード氏と、Milvus、Zillizのプリンシパル・デベロッパー・アドボケイトであるティム・スパン氏が、効果的なAI利用の展開とスケーリングに関連する一般的な課題を、データエンジニアリングによってどのように解決できるかについて専門知識を提供した。
Leonard氏によると、オープンソースのデータムーブメント企業として、Airbyteは、2万人以上のデータおよびAIの専門家がマルチクラウド環境にわたって多様なデータを管理できるようにし、データをどこでも実行可能にする。AirbyteのAIユースケースについて、多くの企業はAirbyteプラットフォームを活用して、Google DriveやSalesforceなどの非構造化ソースからレコードを抽出し、そのデータをレイクハウスに移動することで、ファーストパーティデータをAIアプリにロードしている。
レナードは次に、AIデータ・パイプラインを詳しく見て、抽出から正規化、処理、利用までの道のりを検証した。パイプラインの各段階には、以下のプロセスが組み込まれている:
- 抽出:*** データの暗号化、PIIマスキング、プッシュダウン・フィルター、ファイル転送、パーミッション
- 正規化:** スキーマ正規化、データクリーニング、重複排除
- 処理:** エンリッチメント、要約、ユースケース最適化、ドキュメントチャンキング、埋め込み計算
- エンベッディングをベクトルデータベースMilvusのようなクエリ可能なデータストアに置く。
Spann氏は、Zilliz社のMilvusの利点について説明した。Milvusは、スケールのために構築された高性能なオープンソースのベクトルデータベースである。ベクトル検索は、AIの新しいパラダイムであるとスパン氏は指摘する。「今や、画像、テキスト、ビデオ、ドキュメントなど、あらゆるものがデータであり、ベクトル検索はそれを検索可能にする。実際、IDCは、2025年に新たに生成されるデータの90%が非構造化データになると予測しており、ベクトル検索の重要なニーズを反映している。
ベクトル・データベースは、RAGから分子類似性検索、不正・異常検知、マルチモーダル類似性検索など、様々なユースケースで検索を強力にサポートする。その核心は、非構造化データとそこから知識を抽出する能力であり、AIを成功に導くための基本である。
2017年以来、Zillizは組織が非構造化データを理解するのを支援してきた。Zillizは、高性能でスケーラブルかつ可用性の高い分散システムの開発で高い実績を持つ、アルゴリズムとデータベースのトップクラスのエンジニアチームによって構築され、ベクトル検索用に独自に調整されている。
その結果、Milvusはセットアップが簡単で機能豊富なベクトル・データベースとなり、弾力的なスケーリング、再利用可能なコード、広範な統合機能を提供し、強固で協力的なコミュニティに支えられている。スパンはその後、ウェビナーの視聴者にMilvusの運用方法を説明し、その構造や特徴などを詳しく説明した。
AI時代のデータエンジニアリングについて詳しく説明したウェビナーの全内容については、ウェビナーのアーカイブ版こちらをご覧ください。
読み続けて

Milvus 2.6.x Now Generally Available on Zilliz Cloud, Making Vector Search Faster, Smarter, and More Cost-Efficient for Production AI
Milvus 2.6.x is now GA on Zilliz Cloud, delivering faster vector search, smarter hybrid queries, and lower costs for production RAG and AI applications.

Zilliz Cloud Now Available in Azure North Europe: Bringing AI-Powered Vector Search Closer to European Customers
The addition of the Azure North Europe (Ireland) region further expands our global footprint to better serve our European customers.

How to Build RAG with Milvus, QwQ-32B and Ollama
Hands-on tutorial on how to create a streamlined, powerful RAG pipeline that balances efficiency, accuracy, and scalability using the QwQ-32B and Milvus.



