ゼロ・ショット・ラーニングのすべて
ゼロショット学習の方法論、類似性検索との関係、人気のゼロショット分類モデルなどを網羅した、ゼロショット学習の包括的ガイド。
シリーズ全体を読む
最近の機械学習のアップグレードの波で最もクールなもののひとつが、ゼロショット学習(ZSL)である。ZSLは、数ショット学習パラダイムの頂点である。数ショット学習では、少量のデータからモデルを学習させる。ゼロショット学習は、これをさらに一歩進めたもので、モデルに見たことのないデータを認識させることを含む。
見たことのないものをモデルに認識させるというのは、かなりトリッキーに聞こえるが、人間はそれをうまくやる。例えば、見たことのない種類の動物はたくさんいる。しかし、魚を見たことがなくても、その魚は魚だとわかるだろう。なぜ魚だとわかるのか?
水の中に住み、泳ぎ、エラがあり、一般的に魚であるべきだと感じるからだと言うかもしれない。しかし、あなたと違って機械学習モデルには、少なくとも私たちが考えるような「感覚」はない。では、機械学習モデルはどうやってそれを見分けるのだろうか?意味類似性](https://zilliz.com/learn/vector-similarity-search)を適用することによって。
意味的類似性とは何か?
意味的類似度とは、2つの物事の意味がどれだけ似ているかを測るものです。ベクトル埋込みの類似度を測るには、様々な方法があります。先日の記事では、【5種類の類似度メトリクス】(https://zilliz.com/blog/similarity-metrics-for-vector-search)を取り上げました。その記事では、ベクトル埋め込みモデルによって一般的に生成されるベクトルである「密な」ベクトルに対する3種類の類似度メトリクスと、バイナリベクトルに対する2種類の類似度メトリクスも取り上げています。
ゼロショット学習の文脈では、密なベクトルを通して測定される意味的類似性を考えることができる。密なベクトルとは、その中に0がほとんどないことからそのように名付けられた。密なベクトルのエントリは通常実数である。密な埋め込みベクトルの例は、(0.1, 0.2, -0.1, 0.112, 0.34, -0.98)です。
ほとんどの場合、これらの数値も0から1の間です。これらの数値は、ディープ・ニューラル・ネットワークの最後から2番目の層の出力だからです。私たちがこの出力を使うのは、予測を行う前にニューラルネットが入力データについて持っている意味情報をすべて含んでいるからであり、それが私たちが欲しいもの、つまり意味表現だからである。
ゼロショット学習はどのように機能するのか?
意味的類似性について少し理解できたので、ゼロショット学習について掘り下げることができる。ほとんどのゼロショット学習アルゴリズムの主な考え方は、データに関する間接的な情報を関連付ける方法を見つけることである。上記の魚の例では、水であること、形であること、そしておそらく鱗があることなどの外的要因である。
この情報はすべて、ベクトル埋め込みによって数値にエンコードすることができる。ZSLが可能なモデルは、これらの数値化された表現を用いて、新しいデータを学習済みのデータと比較対照することができる。これは、データポイントがどのクラスターに最も近いかに基づいてラベルを割り当てる、と考えることができる。
ゼロショット学習は視覚と言語の両方に応用できる。ゼロショット学習に関する最初の論文は、2008年の同じ会議で発表された。言語の論文のタイトルは "Dataless Classification "で、視覚の論文のタイトルは "Zero-data Learning "だった。ゼロショット学習という言葉が初めて登場したのは2009年のことである。
なぜゼロショット学習が重要なのか?
では、なぜゼロショット学習が重要なのか?基本的な答えは、機械学習モデルを適用する能力を全く新しいレベルに引き上げるからである。
機械学習の主な課題の1つは、通常、学習にはかなりの量のデータが必要だということだ。データの量はそれ自体がすでに大きな課題ですが、データの質はモデル学習におけるもう一つの課題です。ZSLはこの2つの問題を解決するのに役立ちます。
ベクトル埋め込み](https://zilliz.com/learn/sparse-and-dense-embeddings)を介した意味的類似性の力を使えば、膨大な量の高品質データを必要とせずに、ゼロショット学習を使ってデータを分類することができる。CLIPのようなZSL技術で構築されたモデルは、画像を分類したり、テキストにラベルを付けたりすることができる。
多くの先験的な知識を必要とせずに新しいデータを分類することで、データコストを削減し、事前に訓練されたモデルを通じて機械学習へのアクセスを増やすことができる。これにより、人々や企業が機械学習やAIの分野に参入する障壁が取り除かれる。
ゼロショット分類モデルの例とは?
ゼロショット分類は2008年以来、長い道のりを歩んできた。最近発表された最も人気のあるZSLモデルの1つは、OpenAIによるCLIP - Contrastive Language Image Pretraining -です。この分野で人気のある他のモデルには以下のものがあります:
Chenら(浙江大学)によるDUET
SPOT (VAEGAN) by Shreyank N Gowda (オックスフォード大学)
ZSL-KG by Nihal V. Nayak, Stephen H. Bach (ブラウン大学)
ResNet-50:ラドフォードほか(OpenAI)
ゼロショット学習のまとめ
この記事では、ゼロショット学習についての知見を得た。ゼロショット学習は、企業や個人のAI/MLへの参入障壁を低くする革新的な技術である。この分野の研究者と彼らが生み出したモデルは、まさにAIの民主化に貢献している。ゼロショット学習は、モデルが見たことのない画像を分類したり、テキストにラベルを付けたりするユニークな能力を提供する。
ゼロショット学習は、ベクトル埋め込みによる意味的類似性を利用することで機能する。ZSLを行うモデルは基本的に、意味的にどれだけ似ているかに基づいてクラスを予測する。魚の例のように、私たちの脳の働きと同じように、補助情報を使って入力データを分類できるかどうかを示すのだ。
2008年に視覚と言語の分野で始まったゼロショット学習は、長い道のりを歩んできた。現在では、ResNet 50のような画像分類や、CLIPのようなマルチモーダル分類にも利用できる。ゼロ・ショット学習技術の実装はたくさんあり、大規模言語モデルの台頭とともに、より良い、より効率的な技術が将来出てくることを期待している。
読み続けて

自然言語処理入門
自然言語処理の複雑さと、Zilliz Cloudのようなベクトル・データベースが、効率的な埋め込み保存と検索によってどのようにNLPを変革するかを学びます。

NLPエッセンシャルズAIにおけるトランスフォーマーを理解する
この記事では、自然言語処理(NLP)の分野と、画期的なアーキテクチャであるトランスフォーマーを紹介する。

テキストを変換する:NLPにおけるセンテンス・トランスフォーマーの台頭
Transformersモデルのアーキテクチャ、実装、限界を探る。センテンス・トランスフォーマー・モデルは、AI領域における重要なブレークスルーであり、トークン・レベルの埋め込みに比べ、より広い適用範囲を提供するセンテンス・レベルの埋め込みを生成することを可能にします。