学習
自然言語処理（NLP）上級ガイド

BERT（Bidirectional Encoder Representations from Transformers）とは？

Aug 30, 20242 分で読めます

BERT（Bidirectional Encoder Representations from Transformers）は、2018年にグーグルによってデビューして以来、自然言語処理（NLP）の状況を劇的に変えてきた。

シリーズ全体を読む

#はじめに

BERT（Bidirectional Encoder Representations from Transformers）は、2018年にGoogleによってデビューして以来、自然言語処理(NLP)の状況を劇的に変えてきた。BERTのリリースは、リカレントニューラルネットワーク(RNNや畳み込みニューラルネットワーク(CNN)など、当時使用されていたモデルを凌駕し、複数の意味を持つ単語の曖昧性解消を含む、実質的にあらゆるNLPタスクにおいて最先端の結果を達成するという画期的なものであったため、コミュニティに大きな興奮を引き起こした。

BERT は、3 つの主な方法で他のモデルから乖離することにより、この目標を達成した：

双方向性：** BERT は、テキストを単一方向（左から右、または右から左）に順次処理する従来のモデルとは異なり、全文中の単語の前後を同時に考慮する。
BERT は、文脈を捕捉し、長いシーケンスを理解するために、自己注意メカニズムを備えた変圧器アーキテクチャを使用します。
BERT は、インターネット上の数十億または数兆のラベルなしデータで一般的な教師なし事前訓練を受け、少量のラベル付きタスク固有（要約、Q&A など）またはドメイン固有（法律、学術など）のデータセットを使用した訓練で補完することができます。

従来のモデルと比較して BERT で達成された性能と精度は驚くべきものであり、BERT を利用したアプリケーションの広大な地平への扉と心を開くものであった。

そのリリースから10年近くが経過し、より新しい大規模言語モデル(LLMs)が出現したにもかかわらず、BERTは依然としてNLPのリファレンスであり続けています。

BERTを理解することは、AIの世界を構築することに関心のある人々にとって不可欠である。しかし、BERTの能力を真に理解するには、詳細を探る必要がある。さあ、飛び込もう。

自然言語処理（NLP）の背景

自然言語処理 (NLP)は、人間のコミュニケーションとコンピュータの理解のギャップを埋めるもので、翻訳サービスから音声認識、仮想アシスタントまで、あらゆるものを包含しています。BERT 以前は、特定のタスクごとに個別の NLP モデルが作成されていた。しかし、Word2Vec や GPT のような、単語埋め込み生成や文脈予測の基礎を築いたモデルでさえ、その一方向的な訓練データと限界のために、人間の言語の複雑で微妙な性質と格闘していました。

BERT は、実質的にすべての一般的な自然言語処理タスクにおいて、既存のすべてのモデルを凌駕することで、タスク固有のパラダイムを完全に変えました。

BERTとは何か、どのように機能するのか？

BERT、またはBidirectional Encoder Representations from Transformersは、自然言語処理（NLP）タスクのための高度な深層学習モデルです。 GPT-3やLLMAなど、多くの一般的なLLMの基盤となっています。

BERTは膨大なコーパスを双方向に事前学習しているため、より効果的かつ正確に文脈を把握することができる。BERTは、単語トークン間の複雑な意味的関係や文の連続的な依存関係を理解するためのアテンション機構を備えた変換エンコーダのみのアーキテクチャを使用している。

BERTは、自然言語推論、感情分析、質問応答、言い換え検出、言語的受容性など、一般的な言語理解のタスクにおいて、最先端技術を上回った。

BERT は双方向コンテキストを使用する。

BERT は、コンテキストを理解するために双方向アプローチを使用します。テキストを順次処理し、多くの場合単一方向で処理する従来の NLP モデルとは異なり、BERT は、文中の単語の左右両方のコンテキストを同時に見ます。この双方向の意味情報処理により、BERT は、周囲のコンテキストをより徹底的に考慮することで、同じ単語の複数の意味を区別することができます。

例えば、"cool "という単語の例をいくつか考えてみよう。ここは涼しい場所だ」と「朝は涼しい風が吹いている」という文では、従来のモデルでは、この単語が持つ異なる意味（何か興味深いもの、あるいは温度への言及）を区別できないかもしれない。しかし、BERT は全文を同時に処理し、「涼しい」がこれら 2 つの文脈で同じ意味を共有していないことを理解する。

以下は、BERT がテキストを処理する方法である：

1.トークン化： BERT は、文をトークンと呼ばれる単語片にトークン化する。

2.特別なトークン：生成されたトークンのシーケンスの最初に特別なトークン[CLS]を追加し、文を分離して終わりを示すためにトークン[SEP]を最後に追加します。

3.ベクトルへの変換: 各トークンは埋め込み行列とエンコーダの多層を介したベクトルに変換されます。これらの層は、シーケンス内の他のすべてのトークンによって提供される文脈情報に基づいて、各トークンの表現を洗練します。

4.**すべてのベクトルは、BERT が言語の理解と予測に使用する、統一された密な表現に結合される。

たとえば、"Milvus](https://docs.zilliz.com/docs/search-query-get) is a vector database built for scalable similarity search" のようなユーザー[クエリ]は、クエリの完全な意味を捕捉するために、トークンに分解され、エンコードされ、処理される。

例：ユーザークエリ: Milvusはスケーラブルな類似検索のために構築されたベクトルデータベースです。

単語からトークンへ](https://assets.zilliz.com/From_words_to_tokens_b5cb468f68.png)

トークンからBERT密埋め込みへ](https://assets.zilliz.com/From_tokens_to_BERT_dense_embeddings_123f5e5ebe.png)

BERT は変換器アーキテクチャを使用する

BERT は、人間の言語入力シーケンスを理解する機械学習アルゴリズムに焦点を当てた、トランスフォーマーエンコーダのみのアーキテクチャを採用しています。エンコーダは、埋め込みと呼ばれるベクトル化された入力を取り込む。エンベッディングは、トークン（単語などのテキスト要素）、セグメント（文など）、および入力内のトークンの位置に対して作成される。トークン化されたシーケンスは、変換ニューラル・ネットワークによって処理される。

トランスフォーマーのアーキテクチャは並列処理を可能にし、非常に効率的である。さらに、トランスフォーマーはアテンションメカニズム（元々は2017年の人気論文「Attention Is All You Need」で提案された）を使って単語間の関係を観察する。

BERTの注意メカニズム

BERTの変換器双方向深層学習は、意味を解釈し、文脈と予測にとってシーケンスのどの部分が重要であるかを識別することを可能にする要素（例えば、テキスト内の単語）間の関係を捉える注意メカニズムに依存している。人間が重要性の低い細部を無視したりすぐに忘れたりする傾向があるように、BERT は、文中の各単語の重要性を示す差分重みを通じて学習する。最も重要な単語は、複数のニューラル層を通過する際に変換器によって処理される。

**BERTは、「自己注意メカニズム」を使用している。自己注意により、モデルは、シーケンス内の様々な単語の相対的な重要性を動的に決定することができ、長距離依存関係を捕捉する能力が向上する。キー、値、およびクエリの入力は、前のエンコーダー層の出力から得られる。

自然言語処理モデル、特に変換エンコーダモデルは、自己注意を使用する。エンコーダーの各ポジションは、前のエンコーダーレイヤーの各ポジションからアテンションスコアを受け取ることができる。これによって、モデルは文中の異なる単語の重要度を量ることができる。

その方法は以下の通りだ：

シーケンスの各単語は、自己アテンションに関連する3つのベクトルを持つ：クエリー（Q）、キー（K）、バリュー（V）。ある単語のクエリー（Query）と別の単語のキー（Key）の内積をとり、その結果をキーベクトルの次元の平方根で割ることで、2つの単語の間のアテンションスコアを計算することができる。重み付けされた合計が自己注目メカニズムの出力であり、スコアはValueの重み付けに使われる。

BERT は、2 段階の訓練を使用する：事前訓練と微調整

BERT は、その顕著な性能を達成するために、事前訓練と微調整の両方を使用する。

**事前訓練

BERTは、文中のランダムにマスクされた単語を予測する大規模なラベルなしデータセットから学習し、タスク固有の入力なしに言語パターンとコンテキストを理解するのに役立ちます。

具体的には、BERTはWikipedia(⊖2.5億語)とGoogleのBooksCorpus(⊖8億語)を含む膨大なコーパスで、64個のTPU(Tensor Processing Units)を使用して高速化された新しいTransformerアーキテクチャを使用して4日間学習されました。

このような計算需要を認識し、BERTの性能を95%以上維持しながら60%高速に動作するDistilBERTのような、より小型のBERTモデルがリリースされました。

**ファインチューニング

事前学習の後、BERTは、より小さなタスク固有のデータセットで学習することにより、特定の自然言語処理タスク用に調整される。このプロセスは、感情分析や質問応答などの特定のアプリケーションの精度を高めます。この複合的なアプローチにより、BERT は最小限の修正で様々な下流の自然言語生成タスクに適応して使用することができ、自然言語理解と処理における汎用的で非常に効果的なツールとなります。

BERT は 2 つの学習方法を使用します：MLM と NSP

BERT は、主に次の 2 つの深層学習および機械学習手法を採用している：**マスク言語モデル（MLM）と次文予測（NSP）である。

マスク言語モデル（MLM）は

BERTはトークン化された単語の15％をトークンのマスクでランダムに置き換え、正しいトークンを予測しようとする。たとえば、「She asked for the user [Mask] and password」という文では、BERT の双方向処理により、マスクされた単語を正しく推測できる可能性が高くなります。このマスキング技法は、モデルが両方向に目を向け、文の完全な文脈を使用して、マスキングされた単語を予測することを必要とする。

次の文の予測（NSP）。

訓練中、BERTは入力された文のペアを取り込み、2番目の文が本当に原文の次の文であるかどうかを予測するよう学習する。一度に 2 つの文が処理され、ペアの 2 番目の文の 50% が本当に次に来る文であり、残りの 50% はベクトル化されたデータセットからのランダムな文である。BERTは、2番目の文がランダムかどうかを予測するために必要である。

BERTはMLM（50％）とNSP（50％）で同時に学習され、文の内部構造と文と文の間のsemantic関係の両方を理解することができる。

BERTの応用例

BERT は、以下のような様々な NLP タスクを得意としています：

テキスト分類：** BERT は、テキストが肯定的な感情か否定的な感情かを分類する精度を向上させます。BERT の事前訓練された言語表現は、スパム検出、センチメント分析、文書分類など、特定のテキスト分類タスクのパフォーマンスを向上させるために微調整することができます。
BERT は、自然言語の質問を理解し、利用可能なテキストに基づいて正確な回答を提供することができます。BERT のアーキテクチャーは、質問応答の分野を大きく前進させ、SQuAD（Stanford Question Answering Dataset）などのベンチマークデータセットにおいて、モデルが最先端の結果を達成することを可能にしています。
要約：** BERT は、契約のような長い文書を迅速に分析し、正確な要約を作成することができます。双方向から文脈を捉える BERT の能力は、文書の本質を理解することを可能にし、簡潔で首尾一貫した要約を生成するための効果的なツールとなっています。
BERT は、双方向のコンテキストに基づいて、複数の意味を持つ単語を区別します。この機能は、多義語（多くの意味を持つ単語）が曖昧さにつながる可能性のあるタスクで有用です。BERT の文脈理解は、以前のモデルよりも効果的にこれらの単語を曖昧性解消するのに役立ちます。
テキストから名前、組織、場所などのエンティティを抽出します。これは、データ抽出および組織化タスクで使用されます。BERT の NER 機能は、自動文書処理、情報検索、およびエンティティベースの検索アプリケーションで広く使用されています。

BERT は、さまざまな言語処理タスクで使用されており、Google 検索、翻訳サービス、チャットボット、音声アシスタント、または音声操作アプリを使用しているときに、ほとんどの場合、BERT を毎日体験しています。例えば、BERTがGoogleの検索エンジンに統合されたことで、特に複雑なクエリに対する検索結果の関連性と精度が大幅に向上しました。

BERT の利点と限界

BERTは自然言語処理において目覚ましい進歩をもたらすが、課題もある。

利点：

BERT は、様々な自然言語処理ベンチマークにおいて著しく性能を向上させる。その双方向の性質と変換器アーキテクチャにより、文脈をより効果的に捉えることができ、テキスト分類から機械翻訳に至るまで、自然言語処理タスクにおいてより高い精度につながります。
BERT は、タスク固有のアーキテクチャを変更することなく、複数の NLP タスクに適用することができます。BERT の適応性により、センチメント分析、エンティティ認識、テキスト生成など、AI ベースのアプリケーションに広く採用されています。この汎用性は、事前に訓練された言語表現に起因しており、異なる下流タスクに合わせて微調整することができます。

制限事項

BERT は、高い計算能力とメモリを必要とするため、リアルタイム・アプリケーションや、強力なコンピューティング・インフラストラクチャへのアクセスがない場合には、障壁となる可能性があります。BERT をゼロからトレーニングするには、複数の GPU または TPU を含む多大な計算リソースが必要であるため、小規模な組織や個人研究者には利用しにくい。
解釈可能性：** BERT の複雑さは、より単純なモデルよりも解釈可能性を低くし、モデルのデバッグと修正に課題を提起する。ディープラーニングアーキテクチャは、強力ではあるが、しばしば「ブラックボックス」として機能し、モデルによる特定の予測や決定の背後にある理由を理解することを困難にしている。
BERT の有効性は広範な事前学習に大きく依存しており、これには相当なリソースと時間が必要です。事前訓練済みモデルは利用可能であるが、特定のタスクのために BERT を微調整するには、依然として相当な量のデータと計算能力が必要であり、これはすべての使用事例にとって実行可能でない可能性がある。

このような制限にもかかわらず、BERT の利点はしばしば課題を上回り、自然言語処理アプリケーションにおける一般的な選択肢となっている。現在進行中のBERTの亜種と拡張の開発は、これらの課題のいくつかに対処し、モデルをより広範な使用のためによりアクセスしやすく、効率的にすることも目的としている。

BERTの亜種と拡張

BERT の限界に対処し、その能力を拡張するために、BERT のいくつかの亜種と拡張が開発されている：

RoBERTa](https://zilliz.com/blog/roberta-optimized-method-for-pretraining-self-supervised-nlp-systems) (Robustly Optimized BERT Pretraining Approach):** BERT の最適化バージョンで、主要なハイパーパラメータを調整し、次文予測メカニズムを削除することで、さまざまな NLP タスクでの性能を向上させている。RoBERTaは、より多くのデータで学習し、より長いシーケンスを使用することで、BERTのロバスト性を高め、コンテキストをより効果的に捉える。
DistilBERT：**リソースが限られた環境に適した、より小さく、より高速で、より効率的なバージョンの BERT。DistilBERTはBERTとほぼ同じ性能を達成しながら、60%高速で、40%少ないパラメーターを使用するため、スピードと効率が重要なアプリケーションに最適です。
ALBERT** (A Lite BERT): 有効性に大きな影響を与えることなくモデルサイズを縮小し、BERT のリソース需要に対応する BERT のライトバージョンです。ALBERT は、レイヤー間でパラメータを共有し、埋め込み行列を因数分解することで、この削減を達成し、高精度を維持しながら、よりリソース効率の高い代替手段となっています。
ColBERT (Contextualized Late Interaction over BERT):大規模なテキストコレクションにおける効率的な検索に焦点を当てた、BERTの洗練された拡張。ColBERTは文書検索とランキングタスク用に設計されている。深い文脈理解の必要性と計算効率のバランスが取られている。
BGE-M3 (BERT-based Generative Encoder Multilingual Model): 特に多言語タスクにおいて、BERT の能力を拡張する高度な機械学習モデル。BGE-M3は、BERT のアーキテクチャーを活用して異なる言語間のパフォーマンスを向上させ、グローバルなアプリケーションにとって価値あるツールとなっています。
Splade](https://zilliz.com/learn/bge-m3-and-splade-two-machine-learning-models-for-generating-sparse-embeddings)(疎な語彙と密な検索):**学習された疎な埋め込みを生成する際の進化で、埋め込みの疎密を改良する独自の方法論で、基礎となる BERT アーキテクチャを構築しています。Spladeは、sparse and dense検索手法の長所を組み合わせ、情報検索タスクにより効率的で効果的なアプローチを提供する。

これらの変形と拡張は、統計的自然言語処理の進化する分野における BERT の適応性と継続的な妥当性を示すものである。これらは、オリジナルのBERTモデルによってもたらされた課題を克服し、より広範なアプリケーションに対して、よりアクセスしやすく、効率的で、効果的なものにする努力を表している。

結論

BERT は、人工知能を使用し、人間の言語のより微妙で効果的な機械理解を可能にすることで、自然言語処理技術における重要なブレークスルーを示している。音声操作アプリケーションやチャットボットから、音声テキストキャプションや翻訳アプリのようなサービスに至るまで、BERTの影響は現代社会のさまざまな市場セグメントや部門にわたって明白である。

BERTの主な強みの1つは、オープンソースであることです。GPT-3のような他の大規模言語モデルとは異なり、BERTのコードはGitHubで自由に利用可能であり、開発者や研究者が独自のタスクに合わせてカスタマイズできるようになっています。このオープン性により、貢献者の活気あるコミュニティが育成され、特定の課題に対処し、モデルの機能を強化する数多くの BERT 変種と拡張の開発につながりました。

さらに、事前に訓練された BERT モデルは、特定の使用事例に対して利用可能であり、ユーザーは大規模な計算リソースを必要とせずに BERT の高度な機能を活用することができます。このアクセシビリティにより、BERT は、(https://zilliz.com/learn/top-10-natural-language-processing-tools-and-platforms)自然言語処理における基礎的な[ツール]となっており、この分野の発展とともに拡大し続けるアプリケーションを備えている。

BERT は単なるツールではなく、機械が人間の言語を理解する方法におけるパラダイムシフトである。BERT が確立した基礎の上に新しいモデルや技術が構築されるにつれて、その影響力は今後も続くだろう。

もっと学びたい、あるいはコンピュータビジョンプロジェクトを始めたいという方は、私たちの Discord チャンネルにご参加ください。私たちは、豊富なリソースと協力的なコミュニティを提供し、あなたが始めるのを支援します。