XLNetの説明 言語理解向上のための一般化自己回帰事前学習
XLNetは、順列ベース学習と呼ばれる新しいアプローチを導入することで、BERTの限界を克服した変換器ベースの言語モデルである。
シリーズ全体を読む
事前学習は、NLP(自然言語処理)における重要なステップであり、モデルは、特定のタスクのために微調整される前に、一般的な言語パターンを学習するために大規模なデータセットで学習される。GPTのような自己回帰(AR)モデルは、過去の単語に基づいて次の単語を予測し、BERTのような自動符号化(AE)モデルは、ランダムなトークンをマスクし、周囲の文脈を使って予測する。BERTのマスキング言語モデリング(MLM)は、豊富な文脈学習を可能にする一方で、事前学習タスクは必ずしも下流のタスクと完全に一致するわけではなく、微調整中に潜在的な矛盾を引き起こす。
論文XLNet: Generalized Autoregressive Pretraining for Language Understandingで紹介されたXLNetは、これらの限界に対処するために開発された。順列ベースの言語モデリングを使用することで、XLNetはマスキングを必要とせずに双方向コンテキストをキャプチャし、プリトレーニングとファインチューンのミスマッチを低減する。BERTとは異なり、XLNetは予測されたトークン間の依存関係もモデル化できるため、さまざまな自然言語処理タスクでより優れた性能を発揮する。さらにXLNetはTransformer-XLを組み込み、長期的な文脈を保持することで長いシーケンスを効果的に処理する。
その結果、XLNetはSQuAD、GLUE、RACEを含むいくつかのベンチマークでBERTを上回っています。このブログポストでは、XLNetの主要な革新的技術、XLNetが以前のモデルをどのように改良したのか、そしてこれらの進歩が現代の自然言語処理タスクにとってどのような意味を持つのかについて説明します。
自然言語処理におけるプリトレーニングの課題
これまで見てきたように、事前学習によってモデルは一般的な言語表現を学習し、それを感情分析、質問応答、文書要約といった様々な下流のタスクに移行することができる。しかし、2つの主要なアプローチ、自己回帰(AR)と自動符号化(AE)には、包括的な言語理解を捉える能力を制限する限界がある。XLNetが既存の手法をどのように改善するかを理解するために、まず自己回帰モデルから始めて、自然言語処理における事前学習のための現在のアプローチを見てみましょう。
自己回帰モデル
GPT のような自己回帰モデルは、直前のトークンのみに基づいて各トークンを予測することで、トークンを順次生成します。つまり、このモデルは左から右、または右から左という一方向の文脈しか学習できないため、トークン間のより複雑な双方向の関係を捉える能力が制限されます。例えば、文の途中にある単語を予測する場合、ARモデルはターゲットとなる単語の前の単語のみに依存することになり、将来の情報を活用する能力が制限される。
The cat is sleeping on the __のような文を想像してほしい。この不完全な文が与えられた場合、ARモデルはその前の単語だけに基づいて次の単語(たとえばmat**)を予測します。このため、センチメント分析や質問応答タスクのように双方向の理解が必要な場合には、ARモデルはあまり効果的ではありません。
自己回帰言語モデリングの目的関数を見てみよう。
図1-自己回帰言語モデリング目的関数.png](https://assets.zilliz.com/Figure_1_Autoregressive_language_modeling_objective_function_328528d386.png)
図1: 自己回帰的言語モデリング目的関数_ 図1-自己回帰的言語モデリング目的関数.png
上記の関数において、は、目的トークンに先行する全てのトークンから得られる文脈を表す。このコンテキストは、RNNsやTransformersのようなニューラルモデルを使って構築される。このニューラルモデルは、前のトークンのシーケンスを処理して、現在の位置に対する隠れた状態、つまりコンテキスト表現を生成する。そして、このコンテキストを利用して、コンテキストベクトルを、ドット積のような類似度測定を用いて、すべての可能な次のトークンの埋め込みと比較することで、次のトークンを予測する。その結果、すべての可能性のあるトークンに対する確率分布が得られ、最も確率の高いトークンが予測として選択されます。基本的に、これはモデルが前の単語だけを見て次の単語を予測することを意味し、文の完全な意味を理解するために重要である可能性がある将来のトークンからの情報を組み込む能力を制限します。