学習
AI & Machine Learning

BGE-M3を探る：Milvusによる情報検索の未来

Apr 15, 20242 分で読めます

BGE-M3とMilvusの可能性は無限であり、事実上、情報検索に依存するあらゆる分野に革新の大きな機会を提供する。

シリーズ全体を読む

あなたが賑やかな国際食品市場にいて、それぞれの売り手が異なる言語を話し、ユニークなスパイスのセレクションを提供しているとしよう。あるレシピのために特定の食材を見つけたいが、レシピではその食材を他の言語で呼んでいて、お店のラベルでは使われていなかったり、食材によってはカウンターの後ろに隠れていたりする。この状況は、多言語や多面的な情報検索タスクにおける課題のようなものだ。様々な言語やフォーマットから正しい情報を探し出し、食材がどこの国のものであろうと、完璧な料理を作ることができるようにするのです。

情報検索(IR)の世界における包括的なソリューションであるBGE-M3は、言語や構造が多様なデータの海から関連情報を検索する複雑な作業をナビゲートするために設計された最先端のツールです。BGE-M3は、高所から複数のスペクトル、言語、詳細にわたる信号を検出する最新センサーを搭載した高性能航空機を巧みに操縦するパイロットのように、比類のない精度と適応性でお客様を安心させ、膨大で多様なデータをナビゲートすることで、情報検索（IR）の状況を一変させます。

BGE-M3は、複数の言語やフォーマットでIRタスクを実行するシステムの能力を向上させるとともに、以下のような様々な詳細レベルまで掘り下げることができます：

多言語**：複数の言語で書かれた文書を検索する。例えば、医療機関が新しい治療法に関する研究を世界的な情報源から収集する必要がある場合、情報は英語、中国語、スペイン語など、いくつもの言語で書かれている可能性があります。課題は、異なる言語を理解し、同じ医学用語でも他の言語では異なる名称や関連用語があるかもしれないことを認識することです。BGE-M3は100を超える言語のレポートを分析することができ、言語の障壁によって重要な情報が失われることがありません。
多機能性**：テキスト、画像、動画など異なるフォーマットで表示され、クエリの異なる次元や側面を含む可能性のある情報を抽出します。例えば、市場動向を調査するビジネスアナリストは、テキストレポート、インフォグラフィック、ビデオプレゼンテーションからデータを抽出する必要があるかもしれません。BGE-M3はテキスト、オーディオ、ビデオデータを処理し、複数のチャンネルを包括的にモニタリングすることができます。

マルチグラニュラリティ：BGE-M3の検索精度を調整する機能は、異なる詳細レベルを必要とするタスクにとって極めて重要です。ある研究者は、ある日には科学文献の大まかな概要を必要とし、次の日には特定の研究の詳細を深く掘り下げる必要があるかもしれません。BGE-M3は検索設定を調整し、必要な粒度に応じて最も関連性の高い情報を提供します。

BGE-M3はBGEM3EmbeddingFunctionクラスを通してMilvusに統合されているため、これらの機能を実現し、クロスリンガルで多様なIRアプリケーションのための強力なツールとなります。

BGE-M3とMilvusの統合

BGE-M3をMilvusと統合するには、システムのセットアップ（インストール）と、圧倒的な効率で情報を処理するための高度な機能（インスタンス化とパラメータ調整）を活用する必要があります。

統合ステップガイド

ステップ1：FlagEmbedding Pythonパッケージのインストール

BGE-M3をMilvusで使用する前に、エンベッディングを作成するために必要なPythonパッケージをインストールする必要があります。

pip install FlagEmbedding
pip install pymilvus
pip install libclang
pip install tensorflow-io-gcs-filesystem
pip install milvus-model

このコマンドは様々なパッケージをインストールします。Milvusが効率的にインデックスと検索ができる形式にデータをエンコードするために重要です。

ステップ2：BGEM3EmbeddingFunctionのインスタンス化

パッケージがインストールされたら、次のステップはPython環境内でエンベッディング関数をセットアップすることです。

``python from pymilvus.model.hybrid import BGEM3EmbeddingFunction

bge_m3 = BGEM3EmbeddingFunction( model_name = 'BAAI/bge-m3'、 device = 'cpu'、 use_fp16 = False )


* `model_name = 'BAAI/bge-m3':` このパラメータは埋め込み作成に使用するモデルを指定する。
* `device = 'cpu':` このパラメータは計算デバイスを選択します。GPUを使用している場合はcuda:0に変更できます。
* use_fp16 = False:` この設定は、メモリを節約するために半精度浮動小数点を使用するかどうかを決定します。効率が必要で、互換性のあるGPUを使用している場合は、これをTrueに設定してください。

#### ステップ 3: ドキュメントとクエリー処理の組み込み

関数をインスタンス化したら、ドキュメントとクエリーの処理を開始できます。

**例ドキュメントのエンコード

異なる言語によるドキュメントの例

ドキュメント = [ "気候変動は世界的に重要な問題である。"、 "El cambio climático es un problema global significativo."、 "气候变化是一个重大的球球问题。" ]

ドキュメントのエンコード

docs_embeddings = bge_m3.encode_documents(documents) print("Document Embeddings:", docs_embeddings)

このコードは、ドキュメントのリストを埋め込みにエンコードし、Milvusがインデックス作成と検索に使用できるようにします。

**例クエリのエンコード

クエリの例

クエリ = [ "気候変動の影響は何ですか？"、 "¿Cuáles son los efectos del cambio climático?"、 "气候变化有什么影响？" ]

クエリをエンコードする

query_embeddings = bge_m3.encode_queries(queries) print("Query Embeddings:", query_embeddings)


このコードはMilvusのインデックス付き文書を検索するために使用できるクエリを処理する。

この例はテキストデータをMilvusが効率的に処理できる埋め込みデータに変換する方法を示しています。文書であれクエリであれ、各テキスト文字列はその意味内容を表す密なベクトルに変換される。Milvusはこれらのベクトルを用いて、大規模なデータセットを高速かつ正確に検索します。

## Milvusによる類似検索の実装

文書とクエリの埋め込みが準備できたら、Milvusを使って類似検索を行うにはいくつかのステップが必要です：文書埋め込みにインデックスを作成し、クエリ埋め込みでインデックスを検索して最も類似した文書を見つけます。以下はその方法です：

### ステップ1: Milvusのセットアップとサーバへの接続

まず、Milvusが適切にセットアップされ、動作していることを確認してください。また、アプリケーションからMilvusサーバへの接続を確立する必要があります。  詳しくは[How to Get Started](https://milvus.io/blog/how-to-get-started-with-milvus.md)をご覧ください。

**この記事の中で、Milvus サーバの設定用の docker compose ファイルが紹介されています。コンテナのバージョンが、この記事の冒頭でインストールした `pymilvus` のバージョンと一致していることを確認してください。インストールしたバージョンを確認するには、以下のコードを実行してください：

import pymilvus print(pymilvus.version)


以下のコマンドで `pymilvus` のバージョンを変更できる：

pip install --force-reinstall -v "pymilvus==あなたのバージョン"


**このチュートリアルでは、バージョン 2.4.0 を使用します。インストールが完了したら、アプリケーションからMilvusサーバへの接続を確立するために以下のコードを実行してください：

ライブラリのインポート

numpy を np としてインポートする。 from pymilvus import ( connections、 FieldSchema、 CollectionSchema、 DataType、コレクション、ユーティリティ )

ミルバスへの接続

connections.connect("default", host="localhost", port="19530")


### ステップ 2: コレクションの定義と作成

ベクトル類似検索に最適化されたベクトルデータベースMilvusのコレクションを初期化する：

fieldsはFieldSchemaオブジェクトのリストであり、それぞれがMilvusコレクション内の # フィールド(列)の構造を定義する。

フィールドはFieldSchemaオブジェクトのリストで、それぞれがMilvusコレクション内のフィールド(カラム)の構造を定義しています。

リレーショナルデータベースのテーブルに似ています)。

fields = [ FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True)、フィールドスキーマ(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024) ]

この行はCollectionSchemaオブジェクトを作成し、以前に定義され # たフィールドリストとその説明を渡します。

定義済みのフィールドリストとコレクションの説明を渡します。

schema = CollectionSchema(fields, description="ドキュメント埋め込みコレクション") コレクション名="doc_embeddings" コレクション = Collection(name=collection_name, schema=schema)

コレクションがロードされたことを確認する

collection.load()


### ステップ 3: コレクションが既に存在するか確認する

ステップ 3: インデックスを修正する前にコレクションを解放する

if utility.has_collection(collection_name)： collection.release()

ステップ4: 既存のインデックスが存在する場合はそれを削除する

if collection.has_index()： collection.drop_index()

ステップ 5: 新しいインデックスの作成

index_params = { "index_type"："IVF_FLAT", # 反転ファイルシステム "metric_type"："L2", # ユークリッド距離 "params"：{"nlist"：128} } collection.create_index("embedding", index_params) print("新しいインデックスが正常に作成されました。")

さらなる操作のために必要であれば、コレクションをメモリにロードします。

collection.load()


このコードでは、コレクションが存在する場合はそれをメモリから解放し、既存のインデックスが存在する場合はそれを削除し、IVF_FLAT型とL2距離メトリックを使用して "embedding "フィールドに新しいインデックスを作成します。

### ステップ4：データセットの準備

このコードブロックは、特定のモデル（BAAI/bge-m3）とデバイス設定（ここではcpu）を使用して、多言語ドキュメントをベクトル埋め込みにエンコードするためのBGEM3EmbeddingFunctionを初期化し、その後のベクトルベースの検索操作を容易にするために、これらの埋め込みをMilvusコレクションに挿入します。

データの準備と挿入

from pymilvus.model.hybrid import BGEM3EmbeddingFunction

bge_m3 = BGEM3EmbeddingFunction( model_name='BAAI/bge-m3'、 device='cpu'、 use_fp16=False )

あなたのデータ

ドキュメント = [ "気候変動は世界的に重要な問題である"、 "El cambio climático es un problema global significativo."、 "气候变化是一个重大的球问题。" ]

データの挿入

docs_embeddings = bge_m3.encode_documents(documents) entities = [{"embedding": doc.tolist()} for doc in docs_embeddings['dense']]. insert_result = collection.insert(エンティティ)


### ステップ5：検索とクエリ操作

このコードブロックはMilvusコレクションに対してベクトルベースの検索操作を実行するように設計されています。まず、検索パフォーマンスを最適化するために、コレクションをメモリにロードします。次に、L2ユークリッド距離メトリックを使用して検索パラメータを設定し、検索中に 10個のインデックスノード(nprobe)を考慮するように指定します。このコードは3番目の文書の埋め込みをクエリとして検索を実行し、最も類似した6つのエントリを検索し、それらのIDを返す。最後に、ヒットとそれに対応するIDを含む検索結果を表示して、検索操作の結果を示し、ベクトル検索を終了する。

検索前にコレクションをメモリにロードする

collection.load()

検索パラメータを定義する

search_params = { "metric_type"："L2", "params"：{"nprobe"：10} } query_embeddings = docs_embeddings['dense'][2:3] # 例: 最初の2つのエンベッディングで検索する。 result = collection.search( query_embeddings、 "embedding"、 search_params、 limit=6、 output_fields=["id"]) )

for hits in result： for hit in hits： print(f "hit: {hit}, id: {hit.id}")


## BGE-M3とMilvusによる課題の克服

BGE-M3やMilvusのような先進技術との連携は、情報検索に革命をもたらす可能性があります。しかしながら、他の高度なテクノロジーと同様に、特にカスタマイズや拡張性において課題が生じる可能性があります。

### よくある課題を例で解説

#### 課題1：多言語機能の最大化

BGE-M3は多様な言語を扱うことに長けていますが、多くの場合、すべての言語で一貫したパフォーマンスを確保するために、その機能を最大限に活用することが課題となります。例えば、あるグローバルカスタマーサポートセンターでは、世界中の顧客からの問い合わせを分析し、検索するためにBGE-M3を利用しています。BGE-M3は多言語コンテンツをサポートしていますが、学習データが少ない言語や文法構造が複雑な言語（ハンガリー語やフィンランド語など）でも同等のパフォーマンスを確保するには、モデルの慎重なキャリブレーションと、これらの言語のニュアンスを効果的に捉えるための学習データセットの継続的な更新が必要です。

#### 課題2：効率的なスケーラビリティとパフォーマンスの確保

Milvusと統合されたBGE-M3は大規模なデータセットを効率的に管理・検索しますが、クエリの応答時間や精度を損なうことなく、指数関数的に増大するデータ量に対応するためにスケーリングする場合、課題はさらに大きくなります。例えば、ある金融分析会社は、BGE-M3とMilvusを利用して、グローバル市場におけるリアルタイムの取引データ分析を行っています。データが急速に蓄積される中、迅速な検索速度と正確な結果を維持するには、戦略的なインデックス管理と計算リソースの慎重な配分が必要です。これらの側面を最適化することで、データの規模が大きくなってもパフォーマンスがロバストに保たれ、これは即時のデータアクセスと分析を必要とするアプリケーションにとって極めて重要です。

### ベストプラクティス

1.**モデルパラメーターのチューニング

BGE-M3は、埋め込み次元やモデルの精度を調整するなど、特定のニーズに応じて調整できる様々なパラメータを提供しています。これらのパラメータを微調整することで、検索精度と計算効率のバランスをとることができます。

2.**疎な埋め込みと密な埋め込み：***の活用

疎な埋め込みと密な埋め込みを組み合わせることで、同じシステム内で異なるニーズに対応することができます。スパース埋め込みは、スケーラビリティや高次元データを疎に扱うのに有効であり、一方、密な埋め込みは、意味検索のようなタスクの精度を高めるのに重要な、データ中の複雑なパターンを捉えるのに適しています。

3.**スケーラビリティと効率性の確保:**。

データ量が増大するにつれ、システムを効率的に拡張することが不可欠となる。複数のノードにデータを分散させるシャーディングの実装や、クエリ・トラフィックを管理するロード・バランシングの使用などの手法により、システムが拡張しても応答性と効率性を維持できるようにします。

## BGE-M3とMilvusの高度な機能と将来の方向性

BGE-M3とMilvusの統合は、情報検索システムに堅牢な機能をもたらし、高度な機能と将来の大きな進歩の可能性を備えています。

### 高度な機能とカスタマイズオプション

* 特定のドメイン**のための微調整：BGE-M3は、専門分野での関連性と精度を高めるため、分野別の微調整が可能です。例えば、法律分野では、BGE-M3は法律用語や判例に関する微調整を行い、法律文書の検索精度を向上させることができます。

* 他のAIモデルとの統合**：BGE-M3は、名前固有表現認識（NER）システムなどの他のAIモデルとシームレスに統合することができます。この統合は、膨大なデータセットから特定の医学用語に関する情報を正確に識別し、検索することが重要な医学研究のような分野で特に有用です。(例Ray DataとMilvusによるRAGアプリケーションのためのスケールでの推論の組み込み)


### 今後の軌跡と展開

* IR技術における今後の展開**：BGE-M3とMilvusの今後の開発により、動的環境における複雑なクエリの待ち時間をさらに短縮し、精度を向上させることが期待される。これにはアルゴリズムの強化やより効率的なデータ処理メカニズムが含まれる。(続きを読む: ベクターデータベースの研究開発における新たなトレンド)

* 新しいアプリケーションの可能性**：この技術は、リアルタイムのマルチメディア情報検索などの分野に拡大し、様々なアプリケーションにおいて、テキストだけでなく、オーディオやビデオのコンテンツを扱い、分析することを可能にし、デジタルメディアやエンターテインメントのような分野を大きく変革する。

### 結論BGE-M3とMilvusで検索に革命を起こす

BGE-M3とMilvusの併用は、情報検索（IR）における大きな進歩であり、様々な領域におけるデータへのアクセスや分析方法を変革します。ここでは、この統合によるIRへの変革的な影響とAIコミュニティへの貢献について概説する。

* 強化された多言語機能**：BGE-M3の100以上の言語を扱う驚くべき能力はMilvusとシームレスに統合され、多言語文書検索のための堅牢でスケーラブルなソリューションを提供します。これにより、言語データが取り残されたり誤解されたりすることなく、グローバルなアプリケーションをより包括的で効果的なものにします。

* 検索における精度と拡張性**：BGE-M3の微調整機能とMilvusの効率的なインデックス作成機能を組み合わせることで、正確でスケーラブルな検索操作が可能になります。この相乗効果により、高密度検索、マルチベクトル検索、スパース検索をサポートし、学術研究からリアルタイムの消費者データ分析まで幅広いアプリケーションに最適です。

* 部門を超えたイノベーションの促進**：BGE-M3とMilvusは、複雑なデータセットの効率的で正確な検索を可能にすることで、ヘルスケア、金融、法律業界などのセクターの革新とサービスの向上に貢献します。これらのテクノロジーは、詳細かつ関連性の高い情報への迅速なアクセスを必要とするシステムのバックボーンとなり、意思決定プロセスや業務効率を向上させます。

BGE-M3とMilvusの可能性は無限であり、情報検索に依存する事実上あらゆる分野に革新の大きな機会を提供します。このエキサイティングな展望は、研究者、開発者、ビジネスリーダーに、これらの技術をどのようにプロジェクトに統合し、それぞれの領域で可能なことの限界を押し広げることができるかを探求することを促します。