MLアプリケーションを強化するNLPモデル・トップ20
2023年に旋風を巻き起こす人気のLLM10選と、もうひとつの基本的なNLPモデル10選をご紹介します。
シリーズ全体を読む
前回の記事では、自然言語処理(NLP)の魅力的な世界を掘り下げ、その無数の実世界への応用を探りました。今回は、BERTやXLNetのような最も基本的なNLPモデルと、GPTやPaLMのような2023年に世界を席巻した最先端の大規模言語モデルを詳しく見ていきましょう。
2023年に旋風を巻き起こす10の大規模言語モデル
大規模言語モデル](https://zilliz.com/glossary/large-language-models-(llms))、またはLLMは、様々な自然言語処理(NLP)タスクを実行できる機械学習モデルである。例えば、テキストを翻訳したり、会話形式で質問に答えたり、異なるデータセットから得た知識に基づいて単語を分類・生成したりすることができる。ここで言う「大規模」とは、そのアーキテクチャで使用されるパラメータの数を指し、最も一般的なLLMの中には数十億ものパラメータを持つものもある。以下に最も有名なLLMをいくつか挙げる。
OpenAIによるGPTシリーズ(Generative Pre-trained Transformer)
GPT-3
2021年にリリースされ、1750億という驚異的なパラメータを持つ。
言語翻訳、質問回答、エッセイ作成、コード生成まで可能。
デコーダのみのトランスフォーマーアーキテクチャを採用。
OpenAIがパラメータ数を公開した最後のGPTモデル。
2022年9月からマイクロソフトが独占使用。
GPT-3.5
2022年に導入された、パラメータを減らしたアップグレード版。
ChatGPTをパワーアップさせ、5日間で100万人、2ヶ月で1億人のユーザーを獲得し、絶大な人気を得た。
トレーニングデータは2021年9月まで。
Bing検索エンジンに統合されたが、その後GPT-4に置き換えられた。
GPT-4
2023年にリリースされたGPTシリーズの最新作。
文字と画像の両方に対応するマルチモーダルモデル。
Microsoft AzureのAIスーパーコンピューターで、創造性と協調性に焦点を当てて訓練された。
グーグルによるPaLM 2
機械学習と責任あるAIにおけるグーグルの遺産を基に、2023年に導入される。
多言語の並列テキストで事前学習され、前作よりも大規模なコーパスに対応。
高度な推論、翻訳、コード生成に優れている。
メタとマイクロソフトによるLLama2
3つのモデルサイズで2023年にリリース:パラメータは700億、1300億、700億。
LLama 2 Chatと呼ばれる、基礎的なモデルと対話用に微調整されたモデルの両方が含まれる。
クエリ解決や自然言語理解のようなタスクのために設計された、多用途で強力なモデルです。
教育アプリケーションに特化したMeta社のLLaMA-2は、EdTechプラットフォームにとって理想的なAIアシスタントです。
クロード2 by アンソロピック
2023年にAnthropic社からリリースされた、複雑な推論タスクを得意とするAI。
体質的なAIに焦点を当て、AIの出力が役に立ち、無害で、正確であるように導く。
自然言語で指示される様々なタスクのフレンドリーなアシスタントとして機能する。
Grok-1 by xAI
イーロン・マスクが2023年に発表したxAIは、どんな質問にもウィットに富んだ答えを返すように設計されている。
銀河ヒッチハイクガイドがモデル。
ᵔプラットフォームを通じて世界の知識をリアルタイムで提供。
技術革新研究所によるファルコン
2023年発表のオープンソースモデル。
1800億のパラメータを誇り、Hugging Face Open LLM LeaderboardでLlamaを上回る。
テキストとコードが混在し、様々な言語や方言をカバーする高品質なデータセットで学習。
CohereによるCohere
- カナダのスタートアップが2022年に発表したオープンソースの多言語モデル。
- 多様で包括的なデータセットで学習され、100以上の言語のテキストを理解するのに優れている。
- 言語生成、テキスト要約、センチメント分析などのタスクのためにオラクルやセールスフォース製品に組み込まれている。
10 基本的な自然言語処理モデル
BERT (トランスフォーマーからの双方向エンコーダ表現)
BERT(Bidirectional Encoder Representations from Transformers)は、2018年にJacob Devlinが論文BERT: Pre-training of Deep Bidirectional Transformers for Language Understandingで初めて提案した。
BERTモデルの主なブレークスルーは、トレーニング中にテキストを見る際に、左から右、または左から右と右から左を組み合わせたシーケンスではなく、双方向でテキストをスキャンすることである。
BERT には、BERT(ベース)と BERT(ラージ)の 2 つの一般的なタイプがある。違いは設定可能なパラメータにあり、ベースは1億1,000万パラメータ、ラージは3億4,500万パラメータである。
XLNet
XLNetは2019年に論文XLNet: Generalized Autoregressive Pretraining for Language Understandingで発表された。
XLNetは、自己回帰モデルと双方向文脈モデリングの両方の長所を活用しているため、20のベンチマークテストにおいてBERTを大きく上回っています。XLNetは "順列言語モデリング "と呼ばれる新しく提案されたモデリング手法を採用しています。
直前のトークンの文脈に基づいて文中の単語を予測する従来の言語モデルにおけるトークン化とは異なり、XLNetの順列言語モデリングはトークン間の相互依存性を考慮する。
XLNetは、BERTと比較して2~15%の性能テストの向上を達成している。
RoBERTa(ロバスト最適化BERTアプローチ)
RoBERTaは2019年の論文RoBERTa: A Robustly Optimized BERT Pretraining Approachで提案されました。
RoBERTaは、BERTのアーキテクチャとトレーニング手順に変更を加える。具体的には、RoBERTaは次文予測(NSP)目的を削除し、BERTよりもはるかに大きなデータセットを使用し、静的マスキングを動的マスキングに置き換えている。
RoBERTaは、BERTと比較して2~20%改善するという性能テスト結果を達成している。
ALBERT (A Lite BERT)
ALBERTモデルは、2019年の論文ALBERT: A Lite BERT for Self-supervised Learning of Language Representationsで提案されました。
ALBERTはBERTモデルに基づいて開発された。その主なブレークスルーは、BERTと比較して大幅なパラメータ削減をもたらすが、同レベルの性能を維持することである。
ALBERTでは、パラメータは12層のトランスフォーマー・エンコーダーで共有されるが、オリジナルのBERTでは、エンコーダーの各層は固有のパラメータ・セットを持つ。
StructBERT
StructBERTは、2019年の論文StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understandingで提案された。
StructBERTは、言語構造を学習手順に組み込むことで、BERTをさらに拡張する。
StructBERTはまた、単語構造目的語(WSO)を導入し、モデルが単語の順序を学習するのを助ける。
T5(テキスト間転送トランスフォーマー)
T5は2019年の論文Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformerで紹介された。T5は "Text-to-Text Transfer Transformer "の短縮形である。
T5では、クリーンで大規模なオープンソースのデータセットC4(Colossal Clean Crawled Corpus)が公開されている。
T5は、すべての自然言語処理タスクを「テキストからテキストへ」のタスクに分類する。
T5モデルには5種類のサイズがあり、それぞれパラメータ数が異なる:T5-small(6000万パラメータ)、T5-base(2億2000万パラメータ)、T5-large(7億7000万パラメータ)、T5-3B(30億パラメータ)、T5-11B(110億パラメータ)。
センテンストランスフォーマー
SentenceTransformersの初期作業は、2019年に発表された論文Sentence-BERT: Sentence Embeddings using Siamese BERT-Networksに記載されている。
SentenceTransformers](https://www.sbert.net/)は、文、テキスト、画像埋め込み用のPythonフレームワークです。
SentenceTransformersは100以上の言語の文/テキスト埋め込みを計算することができます。
このフレームワークはPyTorchとTransformersをベースにしており、様々なタスク向けにチューニングされた多くの学習済みモデルを提供しています。
ERNIE (知識統合による表現強化)
バイドゥが開発したERNIEは、バイドゥの研究者が2019年にACL(Association for Computational Linguistics)カンファレンスで発表したERNIE: Enhanced Language Representation with Informative Entitiesという研究論文で紹介された。
ERNIEは、事前に訓練された言語モデルに世界の知識を組み込み、人間の言語のニュアンスを理解し、さまざまなNLPタスクのパフォーマンスを向上させるように設計されている。
ERNIEにはさまざまなバージョンがあり、幅広いNLPタスクでより優れたパフォーマンスを達成するために、モデルは時間をかけて更新・改良されてきた。
CTRL(制御可能なテキスト生成)
CTRL は、Salesforce Research が 2019 年の NeurIPS (Conference on Neural Information Processing Systems) で発表した CTRL: A Conditional Transformer Language Model という論文で紹介した。
CTRLは自然言語処理(NLP)モデルで、生成されるテキストのスタイルや内容をユーザーが制御できる。
CTRLモデルは、多様かつ制御されたテキストを生成するように設計されている。生成されるテキストのスタイルやバイアスをユーザーが指定できるため、言語生成プロセスをよりコントロールできる。
ELECTRA
ELECTRAは2020年の論文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generatorsで提案された。
ELECTRAは、生成器と識別器を組み合わせた事前学習のための新しいフレームワークを提案している。
ELECTRAは、トークン検出に代わるマスク言語モデルの学習方法を変更する。
ELECTRAは小規模なモデルでより良い性能を発揮する。