学習
大規模言語モデル（LLM）101

GPT-4.0と大規模言語モデルの秘密を解き明かす

Apr 26, 20241 分で読めます

シリーズ全体を読む

#はじめに

2022年11月にChatGPTが発表されて以来、ChatGPTは技術界のみならず一般の人々の想像力をも虜にしてきた。人工知能システムが人間のようなテキストを生成できることは驚きであり、注目に値する。機械学習の研究者たちは、かなり以前から言語モデリングの分野で着実な進歩を遂げていましたが、現在進行中のAI革命に一般の人々の注目を集めたのはChatGPTでした。本稿では、LLMsとその周辺について述べる。

人工知能は過去10年間で劇的な変貌を遂げ、画像認識、コンピュータビジョン、自然言語処理などの分野に多大な影響を与えた。強力なGPUの登場により、理論上のみ存在していた複雑なモデルの学習が可能になった。初期のルールベースのシステムは、手作業でコード化されたロジックに依存しており、自然言語の複雑さに苦戦していた。この状況は、2010年代初頭にword2vecやGloVeのようなニューラルネットワークベースのエンベッディングが、単語を質の高い数値表現に変換することで言語理解を強化したことで一変した。ルールベースの先行技術とは異なり、リカレントニューラルネットワーク(RNN)は、未見のテキストでもうまく汎化できるため、一歩前進した。しかし、RNNベースの手法は、長期的な依存関係、つまり、より長いコヒーレントシーケンスを生成することができなかった。その後、2017年にTransformerアーキテクチャが登場した。Transformerは並列処理機能を備え、これらの依存関係をより効果的に扱うことができる。Transformerを搭載したGPT2のようなシーケンス間学習モデルは、AIが言語を理解し、人間品質のテキストを生成することを可能にした。

一方、ULMFiTによって導入された転移学習技術は、ユーザーが特定のタスクで微調整することによって、（膨大なデータセットで訓練された）事前に訓練されたモデルを活用することを可能にした。モデルの事前学習は高価なステップであるため、これは特に重要なブレークスルーであり、微調整によって事前学習済みモデルを再利用することは、テキスト分類、要約、感情分析、質問応答などの多様なNLP問題を解決するための実行可能な選択肢となった。大規模な言語モデルは、ほとんどの自然言語処理問題の解決策となった。

LLMを頂点とするこれらの進歩は、2022年後半のChatGPTの瞬間につながった。

##ChatGPT：瓶の中の稲妻を捕まえる⚡。

2023年11月30日、OpenAIはChatGPTを発表した。LLMを搭載したChatGPTは、ユーザーが「会話形式でモデルと対話できる」初めてのアプリケーションでした。対話形式により、ChatGPTはフォローアップの質問に答えたり、間違いを認めたり、間違った前提に異議を唱えたり、不適切な要求を拒否したりすることができます。2023年1月までに、1億人以上のユーザーを獲得し、最も急成長した消費者向けソフトウェア・アプリケーションとなった。

ChatGPTは現在、GPT 4.0を搭載しています。これは大規模なマルチモーダルモデル（画像とテキストの入力を受け付け、テキスト出力を出す）で、多くの実世界のシナリオでは人間より能力が劣るものの、さまざまな専門的・学術的ベンチマークで人間レベルの性能を示しています。

ここでは、さまざまなドメインでどのように役立っているかを紹介する：

1.ソフトウェア開発：あなたは開発者ですか？ChatGPTはその高度な言語理解で、特定のタスクのコードスニペットを生成することで、時間と労力を節約し、あなたを支援することができます。コードを分析し、包括的なドキュメントや良いテストケースを書くこともできます。

2.コンテンツ作成とマーケティング：ChatGPTは、あなたがコンテンツ作成やマーケティングに取り組んでいる場合、入力データや指示に基づいて視覚的に魅力的なインフォグラフィックスを生成することができます。さらに、文法の訂正や言い換えをサポートし、コンテンツ作成プロセスを簡単にします。

3.教育：ChatGPTはあなたの勉強仲間になり、本のチャプターに基づいたレッスンプランや練習問題の作成をサポートします。まるで、指先のティーチングアシスタントのようです。

4.ヘルスケア：ChatGPTは賢いだけでなく、画像診断にも精通しています。X線、MRI、CTスキャンなどの医療画像を正確に解析し、放射線科医をサポートします。

5.カスタマーサービス：ChatGPTを搭載したバーチャルアシスタントは、カスタマーサービスに革命をもたらしている。彼らは、第一レベルの顧客からの問い合わせをより正確に理解し、共感的に対応することができ、24時間体制でパーソナライズされた支援を提供します。

LLMとは？- 簡単に説明

つまり、"I ate an ice cream "のようなもっともらしい単語列には、"I ate an umbrella "や "Umbrella ate an ice cream "よりも高い確率が割り当てられる。言語モデルの初期バージョンは、与えられたコーパス中の単語（n-grams）の共起を数えることに基づいた統計モデルであった。近年の計算資源（GPU）の利用可能性の向上により、統計モデルを凌駕する再帰モデル（RNN）が復活した。しかし、RNNには、再帰的な性質のために学習に時間がかかり、大規模なシーケンスではうまく機能しないという欠点があった。Transformerアーキテクチャの導入により、大規模なモデルをより効率的に学習できるようになった。

LLMが "ラージ "と呼ばれる理由は2つある。第1に、通常インターネットスケールの膨大なデータで学習されること、第2に、ニューロン間の接続数が多く、モデルの重み／パラメータによって特徴づけられる巨大なニューラルネットワークで構成されていることだ。これら2つの要素により、LLMはテキストに隠されたニュアンスを理解し、単語間の統計的関係を学習することができ、その結果、信憑性が高く首尾一貫したテキストを生成することができる。

LLMの本質は次単語予測であり、その仕事はこれまでに見たシーケンスに基づいて次の単語を予測することである。現在の単語配列が与えられると、LLMは語彙内のすべての単語に確率を割り当てる。そして、その確率分布から単語をサンプリングし、現在のシーケンスに追加する。同じプロセスが何度も繰り返され、テキストが1つずつ生成される。

では、LLMはどのようにして次の単語を予測するのだろうか？その詳細に入ろう：

**人間は自然言語を理解するが、機械は数字を理解する。したがって、自然言語のシーケンス／単語を数字に変換する必要がある。

エンベッディングを使うことでこれを行う。LLMの最初の仕事は、単語を連続ベクトル空間の点にマッピングすることです。このプロセスは埋め込みと呼ばれ、単語表現はベクトル埋め込みと呼ばれる。

なぜ数字の代わりに単語をそのまま扱わないのか？

地球上のすべての場所は、緯度と経度の座標で表すことができる。この座標を見ることで、2つの場所の空間的な関係を理解することができます。

しかし、言語はもっと複雑でニュアンスに富んでおり、2点だけでは意味を理解することができない。そのため、他の言葉との関係を捉えながらそれらを表すには、もっと浮動小数点数が必要になる。単語を表現するのに使われる数値の量をベクトルの次元と呼ぶ。2013年にグーグルが発表したWord2vecモデルは300次元で、GPT -1、GPT-2、GPT-3はそれぞれ768次元、1600次元、12,288次元だった。次元数が多ければ多いほど、表現が細かくなり、それらのベクトルを使用するために必要な計算量も増える。

Context:今、我々は単語の有用な数値表現を持っていますが、我々はまだ同音異義語のようなものを扱う必要があります。つまり、同じ単語が全く異なる意味を持つことがあります。単語の意味は文脈に左右される。この2つの文章を見てみよう：

1.私は堤防の近くで釣りをしていた。

2.私は銀行にお金を預けた。

これらの文における "bank "という単語の意味は、"川の銀行 "と "金融銀行 "というように異なる。このことは、アテンション・メカニズム（詳しくは後述する）を通して生成される文脈化された埋め込みの必要性につながる。

トランスフォーマー・ブロック：*。

トランスフォーマーブロックはGPT-4のような大規模言語モデル（LLM）の基本的な構成要素です。いくつかのサブコンポーネントから構成されています：

1.多頭注意ステップ: 「周りを見渡す」という言葉を使い、お互いについてメモを交換する。これは、より文脈に沿った埋め込みにつながる。このステップは、モデルがシーケンスのさまざまな部分に注意を払うことで、これまで見てきたシーケンスの意味を理解する場だと考えてください。例えば

ある文章があるとする：

ジョンとメアリーはカフェに行き、ジョンはコーヒーを勧めた。

このとき、注意メカニズムは

1.「彼」とはジョンのこと

2.どの単語が無視されるべきか、禁止されるべきか（この場合、ジョンは自分自身に何かを提供することはできないので）。

3.次の単語を予測する上で、どの単語がより発言力を持つべきか（この場合はマリア）。

注意メカニズムは注意ヘッドと呼ばれる並列ブロックに実装されている。各ヘッドは単語間の異なる種類の関係を学習する。例えば

あるヘッドは名詞の代名詞のマッチングを担当する、

別の頭は、DonaldとDuckのような名詞句の構成要素間の等価性の学習を担当する。

2.フィード・フォワード・ネットワーク・ステップ：フィード・フォワード・ネットワークは、前のステップでアテンション・ヘッドが処理した情報に基づいて、次の単語を予測する。FFNは各単語を個別に調べ、次の単語を予測しようとする。FFNはシーケンスを全体として見るのではなく、アテンション・メカニズムを介して単語に含まれるコンテキスト情報にアクセスする。FFNはその接続数によって力を得る。GPT-3では、FFNは12億個の重みパラメータを持ち、大量のテキストデータに見られる情報をパターンに符号化し、それらのパターンを使って次の単語を予測することができる。

例えば

プロンプトがあるとしよう：

パリはフランスの首都です。

このとき、アテンション層はモデルの注意を「パリ」、「フランス」、「ドイツ」に向け、FFNはパターンを認識し、高い確率で「ベルリン」を予測する。

3.階層アーキテクチャ：トランスフォーマーブロックがアテンションレイヤーとフィードフォワードネットワークで構成されていることは理解できたと思うが、1つ問題がある。このようなブロックは1つではなく、複数のブロックを積み重ね、1つのブロックからの出力が次のブロックへの入力となるようにする。各ブロックは、その前のブロックよりも洗練された単語の表現につながる。そして最後のブロックが最終的に次の単語を出力する。GPT-3には96層のトランス・ブロックがあった。各層が最終的なタスクにどのような貢献をしているかを特定することは、活発な研究分野である。しかし、最近の研究によると、最初の数層は文の構文を理解することに集中する。後のレイヤーはパッセージのハイレベルな理解に取り組む。

トレーニングはどのように行われるか？

GPT4のようなモデルは、複数のステップを経てトレーニングを行います。典型的なステップは以下の通りです：

事前トレーニング：モデルはインターネット上の膨大な生コーパスで学習される。このステップでは、モデルは主に言語モデリング、つまり次の単語予測を学習する。このプロセスには、数千のGPUで数ヶ月のトレーニングが必要です。

教師付き微調整（SFT）：このステップでは、モデルは手動で書かれた高品質のデータで学習され、アシスタントのような応答を生成します。このステップは通常、あまりリソースを消費しません。LLMが次の単語を予測するシステムから、より会話的なシステムへと卒業するステップと考えてください。

報酬モデリングSFTで微調整を行った後、モデルは首尾一貫したテキストを生成することができますが、それは必ずしも私たちの好み、例えば役に立つ、正確である、安全であるとは限りません。この問題に対処するために、報酬モデルが開発される。人間の評価者は、与えられた入力の品質、関連性、正確さに基づいて、様々なモデル出力を評価する。これらの評価は、異なる出力に対する評価または「報酬」を予測するモデルを訓練するために利用される。

強化学習：このステップでは、報酬モデルを使用してモデル出力を強化します。モデルは、報酬モデルによって予測される期待報酬を最大化するテキストを生成するように学習します。報酬モデルからフィードバックを受け取ることで、モデルはパラメータを調整してパフォーマンスを向上させます。

LLMは実際に読んだ内容を理解しているのか？

LLMは、言語を翻訳したり、さまざまな種類の創造的なコンテンツを書いたり、有益な方法で質問に答えたりするなど、さまざまな日常業務で役に立つことが証明されている。しかし、それは彼らが読んだり生成したりしたものを「理解している」ことを意味するのだろうか？これについては、コミュニティは多様な見解を持っている。

AIに携わっている主要な人々の中には、LLMは私たちを人工知能に近づけていると主張する人もいる。OpenAIのチーフ・サイエンティストであるIlya Sutskever氏はインタビューで、「大規模なニューラルネットワークを訓練して、インターネット上の様々なテキストから次の単語を正確に予測するとき、それは世界のモデルを学習していることになる」と述べた。「表面的には、テキストの統計的相関関係を学習しているように見えるかもしれませんが、テキストの統計的相関関係を学習するだけでは、ニューラルネットワークが学習するのは、テキストを生成したプロセスの何らかの表現であることがわかります。このテキストは世界の投影なのです"

しかしヤーン・レクンは、真の知性には世界を体現的に理解し、その理解を使って推論し計画を立てる能力が必要だと主張する。LLMにはこれらの能力が欠けている。

最近のtalkで、彼は次のように論じている-LLMは自動回帰的である。つまり、彼らは前の単語に基づいて一連の流れの中で次の単語を予測する。これは、人間が話したり書いたりする前に考えを練るのとは違う。さらに、LLMがトークンを処理するのに必要な計算量は、問題の複雑さに関係なく一定だという。これは、難しい問題の処理により多くの時間を費やす人間とは対照的である。

LLMが真に知的であるかどうかの懐疑論にかかわらず、LLMは一貫してその創発的能力で我々を驚かせてきた。創発的能力とは、小さなモデルには存在しないが、大きなモデルには存在する能力のことである。LLMをスケールアップすると、多くの場合、下流のさまざまなNLPタスクのパフォーマンスが向上する。しかし、LLMが小さなモデル（100Mから13B）では改善を示さないが、モデルが特定の規模に達すると性能が大幅に跳ね上がるタスクもある。この時点でLLMは、多段階算数、大学レベルの試験、単語の意図する意味を特定するといったタスクに習熟している。

創発的性質の研究は、次のような疑問を投げかけるので、NLPの重要なトピックである：

スケールによって解き放たれるのを待っている特性は他にもあるのだろうか？

スケーリングにはコストがかかるので、創発的性質を解き明かすもっと良い方法はないのか？

結論

GPT4.0のようなLLMは、比類のない生産性ブースターである。LLMは今後も存在し続けるだろう。AIに多額の投資が行われ、世界のトップクラスの頭脳がLLMをより効率的で実行可能なものにすることに注力しているため、LLMは改善される一方だろう。だから、LLMに対してオープンマインドでいること、そして、可能な限りLLMを自分のワークフローに活用し、応用することが必要なのだ。Github Copilot](https://github.com/features/copilot) Codeium のようなコーディングアシスタントは、開発者の生産性を何倍にも向上させた。同様に、人々は自分のドメインにおけるLLMの創造的な使用例を見つけてきた。

他の技術の進歩と同様に、GPT 4.0を含むLLMSにも欠点や懸念があります：

1.環境の危険性：大規模な言語モデルのトレーニングは、環境への影響に換算しても、リソースを大量に消費する。

2.バイアス：大量のデータに対する事前学習を可能にするため、研究者はしばしば、インターネット上で入手可能なものの中から最良のものから最悪のものまで、見つけうる限りのコンテンツをかき集める。その結果、LLMは性差別的、人種差別的、同性愛嫌悪的なコンテンツをいとも簡単に生成してしまう。

3.クローズド・ソースとオープン・ソースのモデル：LLMは訓練が難しく、リソースを大量に消費するため、モデルの重みを共有し、訓練済みのモデルを再利用することが最も重要である。Facebook(LLamaシリーズ)、MosaicML(MPT-7B)、MistralAI(Mixtralシリーズ)、Databricks(Dolly)、Google(Gemma)などの企業が、オープンソースのLLMをリリースしている。

4.著作権の問題：これはAIの世界では一般的なスタンスである。OpenAIや他の主要なプレイヤーは、チャットボットや画像ジェネレーターを動かすモデルを訓練するために、オンラインでスラスラ読める素材を使用しており、著作権侵害を主張する訴訟の波を引き起こしている。2023年、OPENAIは英国議会に対し、著作権で保護された素材を使用せずに主要なAIモデルを訓練することは「不可能」だと述べた。しかし、パブリックドメインのテキストからなる巨大なAIデータセットを使ったこの「倫理的に作成」された大規模な言語モデルは、そうではないことを示唆している。

もしあなたがLLMに興味があるなら、スピードアップに役立つかもしれないリソースをいくつか紹介しよう：

1.GPTの現状 - Andrej KarpathyはChatGPTの制作についての洞察に満ちた講演です。

2.OpenAI Playgroundでは、プロンプトをテストし、OpenAI APIの動作に慣れることができる。

3.チャットボット・アリーナでは、様々な大規模言語モデル(LLM)とチャットし、頭脳戦でより良いものに投票することができる。

4.Hugging Face NLP Courseは、トランスフォーマーベースのモデルを理解/訓練/微調整したいなら、良い出発点だ。

5.DLAI - Learning Platform by Andrew Ngには、ディープラーニングに関するショートコースの良いコレクションがある。

article.updateAt