GPL高密度検索の教師なし領域適応のための生成的擬似ラベリング

情報検索は、多くの自然言語処理(NLP]アプリケーションにとって重要である。伝統的な辞書的手法はテキストコンテンツを検索するために使われてきたが、辞書的なギャップに悩まされてきた。これらの方法は、同義語を認識したり、あいまいな単語を区別したりすることができない。
このような問題に対処するために、クエリと文章を共有のベクトル空間にマッピングする高密度検索手法が普及しており、従来のアプローチよりも改善されている。しかし、これらの手法は大規模な学習データセットを必要とし、ドメインシフトの影響を受けやすい。例えば、MS MARCOで学習したモデルはCOVID-19の文献では性能が低い。
従って、大量のラベル付きデータを必要とせずに、密な検索モデルを新しいドメインに効果的に適応させる手法を作る必要がある。提案されている手法の一つはGPL(Generative Pseudo Labeling)であり、クエリ生成器と擬似ラベリングを組み合わせた、密検索モデルのための教師なしドメイン適応手法である。 GPLはターゲットドメインのクエリを生成するためにT5モデルを用いる。GPLはT5モデルを使い、対象ドメインに対するクエリを生成する。GPLは既存の密検索モデルを使って否定的な文章を検索し、クロスエンコーダを使って(クエリ、文章)のペアをスコアリングする。
GPLは他のドメイン適応手法を凌駕する。MS MARCOで学習したモデルと比較して最大9.3 nDCG@10(ランク10における正規化割引累積利得)、QGen(クエリ生成)と比較して最大4.5 nDCG@10まで性能が向上する。
図: ドメインに適応した密なレトリバーを訓練するためのGPL
図:GPL for training domain-adapted dense retriever|出典
この記事では、GPLがどのようにドメイン適応の問題に対処しているか、その基礎となるメカニズム、そしてこれまでのドメイン適応手法に対する改善点について説明する。詳細についてはGenerative Pseudo Labelingの論文を参照されたい。
密な検索が必ずしも十分でない理由
その素晴らしい能力にもかかわらず、密な検索手法には欠点がある。最も大きな問題は、大規模な学習データセットが必要なことと、新しいドメインに適応する際の課題である。以下にこれらの課題の内訳を示す:
データ要件:*** 密集検索モデルは、効果的に実行するために大量の学習データを必要とする。このデータ要件は、大規模なラベル付きデータセットが利用できない特殊なドメインで高密度検索を適用する際の大きな課題となる。
ドメインシフトに対する感度:*** 密集検索モデルは、ドメインシフトに対して非常に敏感である。学習したドメインと異なるドメインに適用すると、その性能は低下する。
レキシカルギャップ:** 密検索に代わる伝統的なレキシカル手法は、レキシカルギャップに悩まされる。同義語を認識したり、曖昧な単語を区別したりすることができない。
ゼロショット性能:** 密集検索モデルは、ゼロショット設定で適用された場合、与えられたコーパスでは性能が低いことが多い。
GPLのご紹介:ドメイン適応のための高速で堅牢なソリューション
GPLは教師なしドメイン適応手法であり、新しいドメインに適用する際に、高密度検索モデルの性能を向上させるように設計されている。この手法は、以下のようないくつかの重要なステップから構成されている:
クエリー生成
ネガティブマイニング
疑似ラベリング
密集レトリバーのトレーニング
T5によるクエリー生成
GPLのプロセスはqueryの生成から始まる。ここでは、ターゲットドメイン内の各パッセージに対して合成クエリが作成される。これは事前に訓練されたT5エンコーダデコーダモデルを使って行われる。
T5モデルはMS MARCO (Microsoft Machine Reading Comprehension)のような大規模なデータセットでトレーニングされている。各パッセージの内容に関連するクエリを生成し、基本的に合成質問と回答のペアを作成する。
各パッセージごとに生成されるクエリの数はコーパスのサイズに基づいて調整され、生成されるクエリの総数は一定に保たれる。この合成データの作成は、特定のターゲットドメインに対する高密度なリトリーバの後続のトレーニングのためのデータを提供するため、重要である。
密な検索によるネガティブマイニング
GPLメソッドは、生成された各クエリに対して事前にトレーニングされた密な検索モデルを使用し、ターゲットコーパス内で最も類似した段落を見つける。これらの類似した段落は、クエリとは無関係であることを意味する否定的な文章として扱われます。
このステップは "困難な否定 "を識別するために設計されている。これらの困難な例は、類似しているが無関係な文章をモデルが区別するのに役立つ。MS MARCOで訓練された2つの密な検索エンジン、msmarco-distilbert-base-v3
とmsmarco-MiniLM-L-6-v3
は、否定例の多様なセットを確保するために使用される。
最後に、各トレーニング例に対して、検索された文章から1つの肯定的な文章と1つの否定的な文章が選択される。
クロスエンコーダによる擬似ラベリング
次のステップでは、クロスエンコーダを使って(クエリ、パッセージ)のペアをスコアリングします。クエリとパッセージを独立に共有ベクトル空間にマッピングするバイエンコーダとは異なる。クロスエンコーダはクエリとパッセージを連結し、クロスアテンションを用いて関連性スコアを予測します。
このステップでは、各(クエリ、肯定的なパッセージ)ペアと各(クエリ、否定的なパッセージ)ペアに連続的で細かい関連性スコアを割り当てる。これらのスコアは擬似ラベルである。擬似ラベルに使用されるクロスエンコーダーモデルはms-marco-MiniLM-L-6-v2
である。連続的なスコアは他の手法で用いられるバイナリラベルよりも詳細な情報を提供する。
MarginMSE損失によるDense Retrieverの学習
最後に、密な検索(student dense retriever)モデルは、生成された(クエリ、正、負)タプルと対応するクロスエンコーダのスコアをMarginMSE損失で学習します。目標は、クロスエンコーダの正と負のクエリ-パッセージペアの間のスコアマージンを模倣するように密な検索を教えることである。MarginMSE損失関数は以下のように定義される:
LMarginMSE()= -1Mi=0M-1|i-i|2
ここで
M はバッチサイズ。
i は,学生密集レトリバーの対応するスコアマージンである.
i= f(Qi)T f(Pi)- f(Qi)f(P_)
- ここで、fは密な検索、Qiはクエリ、Piは肯定的なパッセージ、P_は否定的なパッセージである。
- iはクロスエンコーダからのスコアマージンである:
= CE(Q, P+)-CE(Q, P_)
この損失関数はモデルがベクトル空間を学習するのを助ける。この空間では、クエリは、クロスエンコーダからの擬似ラベルによって定義されるように、関連する文章に近く、無関係な文章から遠くなる。QGenはMultiple Negatives Ranking (MNRL)損失を用いているが、これはクエリとパッセージ間の粗い関係のみを考慮する。
ドメイン適応型高密度検索の実験デザイン
GPLを評価するための設定は、密検索モデルを特定のタスクに適応させる際の有効性を評価することを目的としている。以下は、セットアップの主要なコンポーネントの内訳である:
データセット
ソース・ドメイン用とターゲット・ドメイン用の2つのデータセットを使用する。
- ソースドメインデータ:** MS MARCO パッセージランキングデータセットがソースドメインデータとして使用される。このデータセットは880万パッセージと532.8Kのクエリとパッセージのペアで構成され、関連性があるとラベル付けされている。モデルはMS MARCOで学習された後、GPLメソッドを使用してターゲットドメインに適応される。
- BeIR](https://openreview.net/forum?id=wCu6T5xFjeJ)ベンチマークの6つのドメイン固有のテキスト検索データセットが、GPLのドメイン適応能力を評価するために使われる。これらのデータセットは、様々な専門ドメインを代表するものであり、以下のものを含む:
FiQA(金融ドメイン)
SciFact(科学論文)
BioASQ(バイオメディカルQ&A)
TREC-COVID(COVID-19に関する科学論文)
CQADupStack(12のStackExchangeサブフォーラム)
Robust04(ニュース記事)
これらのデータセットの違いは
サイズ**:コーパスのサイズの違い。
クエリとパッセージの長さ**:各データセットには明確な特徴がある。
関連性ラベル:クエリごとに関連するパッセージの数は異なる。
いくつかのデータセットは効率的な学習と評価のために修正されている。例えば
- BioASQ**:コーパスのサイズを小さくするため、無関係な文章を削除した。
ベースライン
比較のためにいくつかのベースラインモデルを用意した:
ゼロショットモデル:**これらのモデルはMS MARCOまたはPAQデータセットで学習され、ドメイン適応なしにターゲットデータセットで評価される。BM25語彙検索システムもベースラインとして含まれている。
先行するドメイン適応手法:** UDALMとMoDIRは、ドメイン適応に対する先行アプローチを表すベースラインとして含まれている。
事前訓練に基づくドメイン適応手法:**これらの手法には、ターゲットコーパス上で密な検索器を事前訓練し、次にMS MARCOデータセット上でモデルを訓練することが含まれる。CD、SimCSE、CT、MLM、ICT、TSDAEなどの様々な事前学習方法が使用された。
世代ベースのドメイン適応:** QGenモデルは、バッチ内否定とハード否定で訓練される。さらに、QGenと組み合わせたTSDAEの事前学習も含まれる。
トレーニング
DistilBERTモデルは、平均プーリングとドット積類似度を使用し、最大配列長350ですべての実験に使用されています。
QGenモデルは、バッチサイズ75で1エポック学習される。
GPLモデルはバッチサイズ32で140kステップ学習。
TSDAEやMLMモデルなどの事前学習法は、バッチサイズ8で100Kステップ学習。
評価指標
モデルの性能は nDCG@10 (normalized Discounted Cumulative Gain at rank 10) を用いて評価する。これは検索されたアイテムの関連性を考慮することで、ランキングの質を評価するものである。ランク付けされたリストの上位に表示される関連性の高い文書により多くの重みを与える。
ドメイン適応におけるGPLの有効性と性能
GPL手法はいくつかのベースラインに対して評価され、その性能は異なる条件下で分析された。評価はnDCG@10を用いて行われ、これはランク付けされたリストのトップ10の結果の関連性を測定するものである。
GPLの総合性能
GPLは、テストしたほぼすべてのデータセットにおいて、他のドメイン適応手法を大幅に上回りました。具体的には、GPLはBioASQデータセットにおいて、以前の最先端手法であるQGenよりも最大4.5nDCG@10ポイント改善しました。また、すべてのデータセットで平均2.7nDCG@10ポイントの改善を示している。
TSDAE(Transformer-based Sequential Denoising Auto-Encoder)の事前学習とGPL(TSDAE + GPL)を組み合わせることで、卓越した結果が得られます。このアプローチは、平均52.9 nDCG@10ポイントという最先端の性能を設定した。特筆すべきは、ベースラインのMS MARCOモデルと比較して平均7.7ポイントの改善です。
図:nDCG@10による評価結果](https://assets.zilliz.com/Figure_Evaluation_results_using_n_DCG_10_66b64ac55a.png)
図:nDCG@10による評価結果|出典
ベースラインとの比較
GPLの強力なパフォーマンスの背景を理解するために、様々なベースラインアプローチや代替のドメイン適応手法と比較してみましょう。
ゼロショットモデル
MS MARCOで訓練されたゼロショット・モデルは、単純なBM25字句検索に比べ、ドメイン固有のデータセットではパフォーマンスが低い。例えば、最新の密検索モデルはMS MARCOデータセットで33.2ポイントのMRR@10(Mean Reciprocal Rank at 10)を達成する。しかし、選択された6つのドメイン固有検索データセットでは不十分である。
MS MARCOに対するTSDAEの事前学習と、それに続くMS MARCOに対する教師あり学習は、ゼロショットのMS MARCOモデルよりも若干性能が劣る。
これまでのドメイン適応手法
UDALMはMLM(Masked Language Modeling)事前学習と比較し、平均12.2 nDCG@10ポイント低下し、性能を大きく損なう。これは直接MLM訓練が教師付き訓練と衝突するためである。
MoDIRはあるデータセットではゼロショットMS MARCOモデルと同程度の性能を示すが、他のデータセットではかなり劣る。
事前訓練に基づくドメイン適応**。
TSDAE、MLM、ICT(Inverse Cloze Task)を用いてターゲットコーパスの事前学習を行うことで、MS MARCOモデルのゼロショットに比べてパフォーマンスを向上させることができる。TSDAEは最も効果的な方法で、ゼロショットのベースラインを平均4.0 nDCG@10ポイント上回る。CD、CT、SimCSEはドメインに適応できず、ゼロショットモデルよりもパフォーマンスが低下する。
世代ベースのドメイン適応**。
GPLはQGenを(BioASQで)最大4.5ポイント、平均で2.7ポイント上回る。 TSDAE-based domain-adaptive pre-training combined with GPL (TSDAE + GPL)はすべてのデータセットでさらに性能を向上させる。52.9nDCG@10ポイントという新たな最先端の結果を達成した。
クロスエンコーダによる再ランキング
クロスエンコーダはゼロショット設定では良好な性能を発揮し、密な検索アプローチを大幅に上回るが、推論時に大きな計算コストがかかる。TSDAEとGPLはクロスエンコーダとの性能差を縮めることはできるが、完全に縮めることはできない。TSDAE+GPLモデルは、推論時の計算コストがはるかに低いため、本番環境では望ましい。
学習ステップの影響
GPLの性能は約100K学習ステップで飽和し始める。TSDAEの事前訓練は訓練段階を通して一貫して性能を向上させる。
図:訓練ステップ数の性能への影響](https://assets.zilliz.com/Figure_Influence_of_the_number_of_training_steps_on_performance_cf1cd5fd6f.png)
図:訓練ステップ数がパフォーマンスに与える影響|出典
コーパスサイズの影響
GPLは10Kパッセージを超えるとゼロショットベースラインを上回り、50Kパッセージを超えると性能は飽和する。しかし、QGenは各コーパスサイズにおいてゼロショット・ベースラインに劣る。
図:コーパスサイズが性能に与える影響](https://assets.zilliz.com/Figure_Influence_of_corpus_size_on_performance_d59ef6d3a8.png)
図:コーパスサイズが性能に与える影響|出典
クエリ生成に対する頑健性
SciFactやFiQAのような小さなコーパスは、Robust04のような大きなコーパスに比べて、最適なパフォーマンスを達成するために、一節あたりの生成クエリ数を多く必要とする。さらに、GPLはQGenよりも低品質なクエリに対して頑健であり、生成されたクエリがパッセージとほとんど関係がない場合でも、GPLは良好な性能を発揮する。
図:生成されたQPPの数が性能に与える影響](https://assets.zilliz.com/Figure_Influence_of_the_number_of_generated_QP_Ps_on_the_performance_5e48fe0d84.png)
図:生成されたQPPの数が性能に与える影響|出典
初期化に対する感度
GPLは初期化チェックポイントの選択に対する感度が低い。MS MARCOトレーニングがGPLの性能に与える影響は比較的小さく、その差は平均0.3ポイントです。一方、QGen は初期化チェックポイントの選択に大きく依存し、1.9 ポイントの差があります。
図:初期化チェックポイントの性能への影響](https://assets.zilliz.com/Figure_Influence_of_initialization_checkpoint_on_performance_43173c60e4.png)
図:初期化チェックポイントが性能に与える影響|出典
フルBeIRでのパフォーマンス
全18BeIRデータセットにおいて、GPLはゼロショットモデルより一貫して性能が向上している。平均ランク5.2を達成。TSDAE + GPLは平均ランク4.2を達成。強力なゼロショットモデルTAS-Bの上にGPLを構築すると、最大21.5 nDCG@10ポイント(TREC-COVIDにおいて)、平均4.6 nDCG@10ポイントという大幅な性能向上が得られます。このTAS-B + GPLモデルは、平均ランク3.2を達成し、全体として最高のパフォーマンスを発揮します。
図:全18BeIRデータセットでの性能 ](https://assets.zilliz.com/Figure_Performance_on_all_the_original_18_Be_IR_datasets_165f502d79.png)
図:オリジナルの18のBeIRデータセットすべてにおける性能|出典
生成擬似ラベリングへの示唆
GPL法は、情報検索においていくつかの重要な意味を持つ。これらには以下が含まれる:
より良いドメイン特化型検索:** GPLは金融や科学のような特化した分野での検索結果を改善する。新しいドメインに効果的に適応することで、これまでの手法を凌駕する。
ラベル付きデータの必要性が少ない:** GPLは、ターゲットドメインからのラベル付きデータを必要とせず、代わりにラベルなしのパッセージを使用してモデルを適応させます。これにより、検索システムの開発に必要なコストと時間が削減される。
劣悪なクエリに対応:** クロスエンコーダが無関係な(クエリとパッセージの)ペアに低いスコアを割り当てるため、この手法は劣悪に生成されたクエリに効果的である。これにより、dense retrieverは悪いクエリから学習することがない。
ハードネガをうまく使う:** GPLはクロスエンコーダを使ってきめ細かい関連性スコアを生成するため、ハードネガを使った学習に効果的です。これはよりロバストな学習につながります。
効率的で実用的:** GPLはTSDAEのような他の手法と組み合わせることで、より良い結果を得ることができます。クロスエンコーダのような計算量の多い手法よりも効率的です。
GPLは18のデータセットで一貫した改善を示し、その一般的な適用性を強調しています。また、TAS-Bのような強力なモデルと組み合わせることで、この手法は性能を向上させます。
ベクターデータベースにおける意味検索の強化のためのGPL
Generative Pseudo Labeling (GPL)は、密な検索モデルの有効性を改善することにより、Milvusのようなベクトルデータベースの性能を直接的に向上させることができる手法である。これらのデータベースは意味検索のために密なベクトル表現に依存している。GPLは、ラベル付きデータを必要とすることなく、これらのモデルを新しいドメインに適応させ、ドメインシフトによる性能低下に対処するのに役立つ。
GPLは、ラベル付けされていないデータに対する合成クエリを生成するために、事前に訓練されたモデルを使用し、類似の文章を検索する、(クエリ、文章)のペアをスコアリングするためにクロスエンコーダを採用する。最終的に、ターゲットドメインに適した高密度な検索モデルを学習する。
この方法は、データを密なベクトルとして格納するベクトルデータベースにおいて、意味検索を改善する方法を提供するので、特に価値がある。GPLのネガティブマイニングプロセスは、類似しているが無関係な文章を特定することで学習をさらに洗練させ、より良い意味検索の区別をもたらす。
Milvusは、近似最近傍(ANN)検索、フィルタリング検索、範囲検索、ハイブリッド検索、全文検索など、さまざまなタイプの検索をサポートしている。GPLのように、基礎となるベクトル表現を改善する技術は、その性能を高めることができる。
結論と今後の研究の方向性
GPLは、クロスエンコーダによって生成された擬似ラベルを用いた、密検索モデルの教師なしドメイン適応のための新しい手法である。特にTSDAEの事前学習と組み合わせることで、クエリの品質変化に対する頑健性を示しながら、既存のドメイン適応手法を大幅に上回る。
クロスエンコーダによるきめ細かな擬似ラベルはGPLの主要な利点であり、他の手法で用いられる粗い粒度のラベルよりも効果的な学習を可能にする。TSDAEの事前学習と組み合わせることで、GPLは計算量の多いクロスエンコーダよりも精度と計算効率のバランスに優れている。
今後の研究の方向性
ドメイン適応技術の改善を目的とした、さらなる研究のための重要な道がいくつかある。以下はその一例である:
トレーニングパイプラインの簡素化:*** GPL は比較的複雑なトレーニング設定を必要とする。今後の研究では、このパイプラインを単純化し、実用的なアプリケーションに使いやすくすることに焦点を当てることができる。
GPLとTSDAE以外の他の事前訓練法を組み合わせることで、さらなる性能向上が達成できるかどうかを調べることができます。
Domain-Specific Tuning:*** 特定の領域で性能を向上させるために、個々のドメイン用にGPLモデルを微調整する方法を探る。例えば、異なるデータセットでは、一節あたりに生成されるクエリの量が異なることがわかった。
クロスエンコーダに代わるものの調査:*** クロスエンコーダはGPLの重要な構成要素であるが、計算集約的である。同様に効果的な擬似ラベルを作成する他の方法を探ることで、さらにコストを削減できる可能性がある。
GPLの低リソース言語への適応:** GPLのドメイン適応における成功は、ラベル付き学習データが限られている低リソース言語にこの方法を適用することが有益である可能性を示唆している。
GPLを他の適応手法と組み合わせる:** GPLを他のドメイン適応手法と組み合わせることで、性能がさらに向上するかどうかを調査することは興味深い。これには、敵対的訓練やマルチタスク学習などの方法が含まれる。
その他のリソース
NLPにおける教師なし学習の役割とは](https://zilliz.com/ai-faq/what-is-the-role-of-unsupervised-learning-in-nlp)
金魚のように、記憶するな!生成LLMにおける暗記を軽減する](https://zilliz.com/learn/mitigate-memorization-in-generative-LLMs)
LLMにおける多ショットインコンテキスト学習のパワーを引き出す](https://zilliz.com/learn/unlock-power-of-many-shot-in-context-learning-in-llms)
LLM-Eval: A Streamlined Approach to Evalating LLM Conversations](https://zilliz.com/learn/streamlined-approach-to-evaluating-llm-conversations)
ベクターデータベースとは何か、どのように機能するのか](https://zilliz.com/learn/what-is-vector-database)
AIにおける高密度ベクトル:機械学習におけるデータの可能性の最大化](https://zilliz.com/learn/dense-vector-in-ai-maximize-data-potential-in-machine-learning)
読み続けて

Balancing Precision and Performance: How Zilliz Cloud's New Parameters Help You Optimize Vector Search
Optimize vector search with Zilliz Cloud’s level and recall features to tune accuracy, balance performance, and power AI applications.

Cosmos World Foundation Model Platform for Physical AI
NVIDIA’s Cosmos platform pioneers GenAI for physical applications by enabling safe digital twin training to overcome data and safety challenges in physical AI modeling.

Building RAG Applications with Milvus, Qwen, and vLLM
In this blog, we will explore Qwen and vLLM and how combining both with the Milvus vector database can be used to build a robust RAG system.