Glossary
Gradient Descent

Was ist Gradientenabstieg? Der wesentliche Leitfaden für Entwickler

Was ist Gradient Descent?

Der Gradientenabstieg ist in der Tat einer der am häufigsten verwendeten Optimierungsalgorithmen beim Training von Deep Learning- und Machine Learning-Modellen. Durch iterative Anpassungen der Modellparameter zielt der Gradientenabstieg darauf ab, die Kostenfunktion zu minimieren und den optimalen Wert zu erreichen. Dieser iterative Prozess ermöglicht es dem Modell, sich schrittweise zu verbessern, da es aus jeder Parameteraktualisierung lernt. Der Algorithmus passt die Parameter so lange an, bis die Funktion zu einem Punkt mit minimalem Fehler konvergiert, was die Verfeinerung der Leistung des Modells erleichtert.

Arten des Gradientenabstiegs

Es gibt drei Arten des Gradientenabstiegs, die beim Training neuronaler Netze verwendet werden: Batch, stochastisch und Mini-Batch.

Batch-Gradientenabstieg

Der [Batch Gradient Descent] (https://zilliz.com/glossary/batch-gradient-descent) muss zunächst alle Trainingsmuster auswerten und die kumulativen Fehler berechnen, bevor er das Modell modifiziert.

Aufgrund des präzisen Prozessablaufs ist dies eine effektive Methode zum Trainieren von Modellen. Allerdings kann es bei größeren Datensätzen zu einer längeren Rechenzeit führen. Nehmen wir an, wir haben eine Million Stichproben auszuwerten; der Batch-Gradientenabstieg wird eine Million Epochen laufen lassen, um den Fehler in jeder Stichprobe zu finden, danach wird er sie aufsummieren und dann die Ableitung verwenden, um das Modell anzupassen. Dies wird sehr viel Zeit in Anspruch nehmen.

Stochastischer Gradientenabstieg

Im Gegensatz zum Batch-Gradientenabstieg wertet der stochastische Gradientenabstieg jedes Trainingsmuster einzeln aus und passt das Modell sofort an, anstatt zu warten, bis der Gesamtfehler summiert ist.

Der stochastische Gradientenabstieg benötigt weniger Speicherplatz als der Batch-Gradientenabstieg, da er nur jeweils eine Probe im Speicher halten muss. Aufgrund der vielen Aktualisierungen gelingt es ihm besser, lokale Minima zu überwinden. Der Batch-Gradientenabstieg ist jedoch besser beim Lernen, da er alle Daten auf einmal aufnimmt.

Mini-Batch Gradientenabstieg

Der Mini-Batch-Gradientenabstieg schafft ein Gleichgewicht zwischen dem Batch-Gradientenabstieg und dem stochastischen Gradientenabstieg, indem er beide Konzepte kombiniert. Dabei wird der Trainingsdatensatz in kleinere Stapel aufgeteilt, so dass Aktualisierungen für jeden Stapel gleichzeitig durchgeführt werden können. Mit der Berechnungseffizienz des Batch-Gradientenabstiegs und der Geschwindigkeit des stochastischen Gradientenabstiegs können Sie das Beste aus Ihren Trainingsproben herausholen.

Die Rolle des Gradientenabstiegs beim maschinellen Lernen

Der Gradientenabstieg spielt eine wichtige Rolle beim maschinellen Lernen (ML), insbesondere beim Training von ML-Modellen, um die optimalen Werte für deren Verlustfunktionen zu ermitteln. Es handelt sich dabei um einen Algorithmus, der durch iterative Anpassung eines gegebenen Satzes von Parametern (Verzerrungen/Gewichte) arbeitet, die optimiert werden müssen. Diese Technik zielt darauf ab, diese Parameter kontinuierlich zu verfeinern, um den besten oder optimalen Wert innerhalb der Funktion zu finden.

Durch die Verwendung des Gradientenabstiegs verbessern ML-Modelle ihre Vorhersagegenauigkeit mit jeder Iteration der Parameteranpassungen. Dieser iterative Prozess zielt folglich darauf ab, die Diskrepanz zwischen den vorhergesagten und den tatsächlichen Ergebnissen zu minimieren, was dazu führt, dass das Modell neue Muster assimiliert.

Wie funktioniert der Gradientenabstiegsalgorithmus?

Technisch gesehen ist der Gradientenabstieg eine Optimierungstechnik, die das lokale oder globale Minimum einer [Kostenfunktion] (https://www.simplilearn.com/tutorials/machine-learning-tutorial/cost-function-in-machine-learning) findet. Die mathematische Logik hinter dem Gradientenabstieg besteht darin, den Parameter in einer Richtung zu verändern, die den Wert der Funktion auf der Grundlage des Anfangsparameters und der Steigung verringert.

Der Gradientenabstieg ist ein sehr leistungsfähiger Trainingsalgorithmus, der auf Deep Learning und verschiedene Logiken des maschinellen Lernens, wie neuronale Netze, lineare Regression und logistische Regression, angewendet werden kann. Durch die Optimierung von Datensätzen mithilfe eines ertragreichen Rahmens liefert der Gradientenabstieg die niedrigsten Kosten einer Funktion.

Nun stellt sich die Frage, woher der Gradientenabstieg weiß, in welche Richtung er gehen soll (Steigung), wie groß der Schritt bei jeder Iteration sein soll (Lernrate) und wann er aufhört zu lernen (lokales oder globales Minimum).

Schritt-für-Schritt-Erläuterung

Anfangsparameter: Nehmen wir an, Sie sind auf der Suche nach einem Haus und möchten wissen, wie viel alle Häuser, die Sie interessieren, kosten werden. Um eine Preisspanne zu ermitteln, berücksichtigen Sie u. a. die Gegend, in der sich die Häuser befinden, die Größe der Häuser und so weiter. Durch die Analyse all dieser Parameter sollten Sie zu einer Preisschätzung kommen, die Sie in Richtung der tatsächlichen Preise führt. Nach der Vorhersage einer Preisspanne wird der vorhergesagte Preis durch Gradientenabstieg optimiert, um den tatsächlichen Preis zu ermitteln. Bei Modellen des maschinellen Lernens werden anstelle des Preises als Parameter Gewichte oder Verzerrungen verwendet.

Kostenfunktion: Nachdem wir nun einen Anfangsparameter in Form des vorhergesagten Preises haben, müssen wir eine Kostenfunktion definieren, mit der wir dann den Fehler zwischen unserem Anfangswert und dem tatsächlichen oder erwarteten Wert messen können. Das Ziel der Kostenfunktion ist es, zu quantifizieren, wie gut oder schlecht eine Vorhersage im Verhältnis zu ihrem endgültigen Wert ist, so dass das Modell seinen Parameter kontinuierlich optimieren kann, bis es den niedrigsten Fehlerpunkt erreicht.

Steigung: Die Steigung oder der Gradient gibt den Weg und die Größe der Abweichung der Kostenfunktion von der aktuellen Position an. Sie zeigt in die Richtung, in der die Kostenfunktion am stärksten ansteigt.

NP = OP - SS

SS = Lernrate x Steigung

Die Formel für die Optimierung beim Gradientenabstieg

Mathematisch gesehen lautet die Formel für den Gradientenabstieg NP = OP - SS. NP ist der neue Parameter, OP ist der alte Parameter, und SS ist die Schrittgröße oder Lernrate x Steigung. Die Lernrate ist die Größe des Schritts, den der Gradientenabstieg benötigt, um sich in Richtung des lokalen Minimums zu bewegen. Wenn Sie zum Beispiel von zu Hause aus zur Arbeit gehen und sich verspäten, werden Sie größere Schritte machen, weil Sie versuchen, rechtzeitig zur Arbeit zu kommen, aber sobald Sie sich dem Büro nähern, wird Ihre Schrittgröße kleiner, weil Sie fast am Ziel sind (lokales Minimum). Diese Schritte werden durch die Lernrate dargestellt.

Herausforderungen des Gradientenabstiegs

Obwohl der Gradientenabstieg einer der leistungsfähigsten Optimierungsalgorithmen ist, gibt es einige Herausforderungen, die seine Leistung beeinträchtigen können. Einige davon sind die folgenden:

Lokales Minimum: Der Gradientenabstieg neigt dazu, das lokale Minimum mit dem globalen Minimum zu verwechseln, insbesondere dann, wenn es mehr als einen Spitzen- oder Sattelpunkt gibt. Normalerweise hört der Gradientenabstieg auf zu lernen, wenn die Kostenfunktion ihr Minimum oder den Nullpunkt erreicht hat. Wenn es sich jedoch um eine Steigung mit einem kontinuierlichen Sattelpunkt handelt, muss der Gradientenabstieg am [globalen Minimum und nicht am lokalen Minimum] konvergieren (https://vitalflux.com/local-global-maxima-minima-explained-examples/).
Verschwindender Gradient: Ein verschwindender Gradient entsteht, wenn der Gradient zu klein ist. Wenn sich der Gradient rückwärts ausbreitet, wird er kleiner, was zu einem langsameren Lernprozess für den Gradienten führt. Wenn dies weiterhin geschieht, werden die Gewichtungsparameter aktualisiert und werden allmählich unbedeutend, was schließlich dazu führt, dass der Gradientenabstieg aufhört zu lernen, was als verschwindender Gradient bezeichnet wird.
Explodierender Gradient: Ein explodierender Gradient liegt hingegen vor, wenn der Gradient zu groß ist, was dazu führt, dass das Modell instabil wird. Im Falle eines explodierenden Gradienten können Sie eine Technik zur Dimensionalitätsreduzierung einsetzen, die dazu beiträgt, die Komplexität des Modells zu minimieren.

Häufig gestellte Fragen

Was bedeutet Gradientenabstieg in der KI?

Einfach ausgedrückt ist der Gradientenabstieg ein Algorithmus, der eine Kostenfunktion durch Optimierung ihrer Parameter minimiert. Er wird verwendet, um [maschinelles Lernen] (https://www.ibm.com/topics/machine-learning) Modelle und neuronale Netze zu trainieren, um die Fehlerrate in ihrem Datensatz zu reduzieren, indem ihre Parameter kontinuierlich iteriert werden, bis der Konvergenzpunkt erreicht ist.

Jedes Training beginnt mit einer zufälligen Schätzung, nach der der Gradientenabstieg diese Schätzung nimmt und sie durch kontinuierliche Änderung ihrer Parameter in Bezug auf die Ableitungen optimiert, bis sie den niedrigsten Fehlerpunkt oder eine reduzierte Kostenfunktion erreicht.

Ist der Gradientenabstieg nützlich?

Trotz einiger Herausforderungen ist der Gradientenabstieg nach wie vor einer der effektivsten Optimierungsalgorithmen für Deep Learning und Modelltraining. Obwohl der Gradientenabstieg als Optimierungsalgorithmus mehrere vorteilhafte Eigenschaften besitzt, kann seine Eignung je nach Kontext und Problemstellung variieren. Einige der Vorteile, die der Gradientenabstieg bietet, sind:

Effizienz
Akzeptanz
Vielseitigkeit
Parallelisierung
Verlässlichkeit
Einfaches Rechnen

Inhalte

Kostenlos starten, einfach skalieren

Testen Sie die vollständig verwaltete Vektordatenbank, die für Ihre GenAI-Anwendungen entwickelt wurde.

Zilliz Cloud kostenlos ausprobieren