学習
AIと機械学習

交差エントロピー損失：機械学習におけるその役割を解明する

Mar 22, 20241 分で読めます

クロスエントロピー損失は分類モデルの学習に使われる。これは、正確な損失計算のために数値でエンコードされたラベルを必要とする、実装が簡単な損失関数である。

シリーズ全体を読む

エントロピー損失とは？

損失関数とは、実際の値と予測値、真の値の差を定量化することで、機械学習モデルの精度を測定する数学的手法である。その差が小さいほど、機械学習モデルは優れていることになる。したがって、損失関数はモデルの性能を評価し、改善を導くための指標として機能する。

クロスエントロピー損失（log loss）は、分類モデルの学習によく使われる。これは実装が簡単で最適化された損失関数であり、正確な損失計算のために数値でエンコードされたラベルを必要とする。この記事では、クロスエントロピー損失の機能と実装、その応用、課題、パフォーマンスを向上させるためのヒントについて説明します。

クロスエントロピー損失を理解する

クロスエントロピー損失は、予測値と実際の値の確率分布を比較します。ペナルティはクロスエントロピー損失関数の本質的な側面であり、機械学習モデルにおける損失を最小化する核となる。

つの主な分類問題

バイナリ分類**：出力変数に2つのラベルのみを持つ分類課題。
多クラス分類**：2つ以上のラベルを持つ分類タスク。

バイナリ分類では、クラス・ラベルは0か1に変換されると仮定する。マルチクラスのシナリオでは、ラベルは1ホットにエンコードされると仮定する。例えば、3つのクラスがある分類問題では、データ点が最初のクラスに属する場合、そのラベルは[1, 0, 0]として表現されます。同様に、2番目のクラスに属する場合、ラベルは[0, 1, 0]となります。

2値分類のクロス・エントロピーの式は次のようになる：

どこで

y = 実際のラベル

p = 正クラスの予測確率

多クラス分類のクロス・エントロピーの式は次のようになる：

ここで

Σ = N個のクラスの総和

y_i = クラスiの真のラベル

p_i = クラスiの予測確率

クロス・エントロピーは、ペナルティを計算するために対数を使用します。この関数は、予測値が実際の値から大きく乖離している場合により重いペナルティを課します。偏差が小さいときは、ペナルティも小さくなります。

例えば、候補者の性別を予測するモデルを考えてみよう。実際の値が1であるときに0.9の確率を男性に割り当てた場合、この予測に対するペナルティは-ln (0.9) = 0.105で計算されるように0.105となります。逆に、モデルが男性に0.1の確率を割り当てた場合、ペナルティは2.30に増加する。

クロスエントロピー損失の計算

クロスエントロピー損失関数を計算するステップは、通常以下の通りです：

1.推論時間：学習後、モデルは各クラスの確率の形で予測を行う。

2.データ・ポイントごとの損失：クロスエントロピー損失関数は、予測された確率と真のラベルを比較する。損失値は、モデルの推測がその特定のデータ・ポイントに対してどの程度「外れた」かを示す。

3.総合的な損失：しかし、我々は1つのデータポイントだけを気にしているわけではない！モデルのパフォーマンスを理解するために、通常、検証データセットまたはテストデータセットに含まれるすべてのデータポイントの平均Cross-Entropy損失を計算します。これがモデル全体の損失です。損失の最小化最適化アルゴリズムは、ペナルティに基づいてモデルのパラメータを調整することにより、全体の損失を最小化するために使用されます。

Pythonでのクロスエントロピー損失 ### Pythonでのクロスエントロピー損失

以下のコードスニペットをPython環境で実行し、Cross-Entropy lossを計算する。y_trueは数値でエンコードされた実際のクラスラベル、y_predは予測値である：

# pip install scikit-learn
# import log_loss from sklearn
from sklearn.metrics import log_loss

log_loss 関数に実際の値と予測値を与えて # 損失を計算する
loss = log_loss(y_true, y_pred)

機械学習への応用

クロスエントロピー損失関数は、以下のような様々な分類モデルで使用されている：

ロジスティック回帰

ロジスティック回帰は、バイナリ分類問題によく使われます。これは，0と1の間の各クラスの確率を予測し，モデルの性能を測定するために，予測された確率にクロス・エントロピーが適用される．

例えば、以下のスニペットでは、numPy を使用してダミーの y_true と y_pred を作成し、それに対して Cross-Entropy を計算している：

from sklearn.metrics import log_loss
import numpy as np

# サンプルデータ
y_true = np.array([0, 1]) # 真のクラスラベル
y_pred = np.array([[0.9, 0.1], # データポイント0の予測確率
                   [0.5, 0.5],])# データ点1の予測確率
loss = log_loss(y_true, y_pred)
print(f "Cross Entropy Loss (using log_loss)：{loss}")

ディープ・ニューラル・ネットワーク

手書きの数字（0～9）を認識するためにディープ・ニューラル・ネットワーク（DNN）を学習しているとしよう。クロスエントロピー損失がバックプロパゲーションでどのように働くかを説明する：

1.1.予測時間：学習後、DNNは数字の画像を取り、それが各数字である確率を予測する（10個の確率、各桁に1個ずつ）。先ほど説明した単純な分類モデルとは異なり、ここでは確率は滑らかに与えられます。スペクトルのようなものだと考えてください。ある桁の確率が高ければ高いほど、モデルはその画像がその数字を表していると確信します。

2.画像ごとの損失：クロスエントロピー損失関数は、これらの予測された確率と実際の数字ラベルを比較します（例えば、9の確率は0.9、それ以外は0.1）。これにより、その画像に対するモデルの推測がどの程度「間違っていた」かがわかります。

3.バックプロパゲーション:1枚の画像ですべてがわかるわけではありません。バックプロパゲーションはこの連続損失を利用し、微分可能性と呼ばれる特別な性質を利用して、DNN内のそれぞれの小さな調整（重みとバイアス）がその誤差にどれだけ貢献したかを計算します。

4.間違いから学ぶ：これらの寄与を理解することで、最適化アルゴリズムはDNN内の個々の重みを調整し、すべてのトレーニング画像にわたる全体的な損失を最小化することができます。

このアプローチは、信頼できる予測を生成するために、割り当てられたペナルティに基づいて重みを変更するようにディープニューラルネットワークに教えます。

課題とヒント

損失関数としてクロスエントロピー損失を使用する場合、いくつかのデメリットを考慮する必要がある。以下に述べるような安全策を講じることで、効果的な損失計算を行うことができます。

1.外れ値に敏感

Cross-Entropy損失は外れ値の影響を大きく受け、モデルのオーバーフィッティングを引き起こす可能性があります。クロスエントロピー損失は確率を比較するので、極端な値は計算を歪める可能性があります。このため、モデルは基礎となるデータを無視し、外れ値のフィッティングを優先してしまいます。

外れ値感度を扱うヒント

データクリーニングにおけるデータの前処理段階で外れ値を除去することは、オーバーフィッティングを避けるのに役立つ。しかし、正当なデータポイントを削除しないように注意してください。Huber損失のような外れ値にあまり敏感でないロバストな損失関数を、オーバーフィッティングを防ぐために代わりに使うことができる。

2.クラスの不均衡

クラスの不均衡は、一方のクラスが他方のクラスよりも有意に多くのデータポイントを持つ場合に発生する。クロスエントロピー損失は、多数クラスがはるかに多くのデータポイントを持っているため、少数クラスを学習することが困難であることを発見します。多数クラスを正しく予測することは、全体の損失を最小化する最も簡単な（怠惰な）方法です。

クラスの不均衡を扱うヒント

少数クラスをオーバーサンプリングするか、多数クラスをアンダーサンプリングすることで、バランスの取れたデータセットを作成する。L1正則化やL2正則化のような正則化テクニックは、モデルがオーバーフィットするのを防ぐのに役立つかもしれない。さらに、学習率やクラスの重みのようなモデルのハイパーパラメータを調整することで、モデルが特定のクラスにもっと注意を払うように導くかもしれない。

クロスエントロピー損失用語集

バックプロパゲーションは、人工ニューラルネットワークの学習に使用されるアルゴリズムです。バックプロパゲーションは、ネットワークを後方へ反復することにより、各重みに関する損失関数の勾配を計算する。その後、最適化アルゴリズムがこの情報を使って重みを調整し、損失関数を最小化してモデルのパフォーマンスを向上させる。バックプロパゲーションは、ニューラルネットワークの各重みが全体の誤差にどのように寄与するかを効率的に計算するために非常に重要である。

ワンホットエンコーディングは、カテゴリ変数をバイナリベクトルとして表現するために使用される技法です。この表現では、各カテゴリは長さ n（nはカテゴリの数）の2値ベクトルにマップされ、カテゴリに対応する位置には1が、それ以外の位置には0が入ります。たとえば，3クラス問題では，カテゴリは [1,0,0]，[0,1,0]，[0,0,1]として表現される．

正則化は、損失関数にペナルティ項を追加することで、オーバーフィッティングを防ぐために使われる手法である。このペナルティは、モデルが過度に複雑なパターンを学習し、新しいデータに一般化できないことを防ぐ。一般的な正則化にはL1（Lasso）正則化とL2（Ridge）正則化があり、それぞれモデルパラメータの絶対値または2乗値に基づく項を追加します。正則化は、学習データだけでなく、未知のデータに対しても優れた性能を発揮するモデルを作成するのに役立ちます。

結論

クロスエントロピー損失は、分類モデルに不可欠でありながら使いやすい損失関数である。最適化アルゴリズムがモデルの重みを調整し、より良いパフォーマンスを達成するための指針となる。バイナリクロスエントロピーとマルチクラスクロスエントロピーの2種類があります。どちらも対数を用いて、誤ったモデル予測にペナルティを与えます。

クロス・エントロピーは、多くのハイテク企業が様々なアプリケーションで使用している強力なツールである。どんなスキルも習得する鍵は練習にある。TensorFlow Playgroundのようなツールを使って、ニューラルネットワークへの影響を視覚化しよう。クロスエントロピー損失をより深く理解するために、さらなるリソースと実践的な実験を探求してください。

article.updateAt

Haziqa Sajid
Digital Storytelling for Data, AI, B2B & SaaS

次へ: バッチとレイヤーの正規化 - ニューラルネットワークの効率性を引き出す

コンテンツ

無料で始めて、簡単にスケール

あなたのGenAIアプリケーションのために構築されたフルマネージドのベクトルデータベースを試してみてください。

Zilliz Cloudを無料で試す

この記事を共有

読み続けて

ラングチェーンツール先進のツールセットでAI開発に革命を起こす

LangChainツールは、AIで実現可能なことの境界を再定義する。

ローカル感度ハッシング (L.S.H.)：包括的ガイド

ローカルセンシティビティハッシング（LSH）は、大規模で高次元のデータセットの複雑さに対処し、類似検索とデータ検索のプロセスを合理化するための極めて重要な技術である。

物体検出とは？総合ガイド

物体検出は、ニューラルネットワークを使用して、画像やビデオ内の人間、建物、車などの物体を分類し、位置を特定するコンピュータビジョン技術である。