Cos'è il Gradient Descent?

La discesa del gradiente è uno degli algoritmi di ottimizzazione più utilizzati nell'addestramento di modelli di deep learning e machine learning. Attraverso regolazioni iterative dei parametri del modello, la discesa dei gradienti mira a minimizzare la funzione di costo, raggiungendo il valore ottimale. Questo processo iterativo permette al modello di migliorare progressivamente, man mano che apprende da ogni aggiornamento dei parametri. L'algoritmo continua a regolare i parametri finché la funzione non converge verso un punto di errore minimo, facilitando il perfezionamento delle prestazioni del modello.

Tipi di discesa del gradiente

Esistono tre tipi di discesa del gradiente utilizzati nell'addestramento delle reti neurali: batch, stocastico e mini-batch.

Discesa del gradiente batch

Il [Batch gradient descent] (https://zilliz.com/glossary/batch-gradient-descent) deve innanzitutto valutare tutti i campioni di addestramento e calcolare gli errori cumulativi prima di modificare il modello.

È un metodo efficace per addestrare i modelli, grazie al flusso preciso del processo. Tuttavia, può comportare tempi di calcolo più lunghi per insiemi di dati più grandi. Supponiamo di avere un milione di campioni da valutare; la discesa del gradiente batch eseguirà un milione di epoche per trovare l'errore in ogni campione, dopodiché li somma e poi usa la derivata per regolare il modello. Il completamento di questa operazione richiede molto tempo.

Discesa del gradiente stocastica

A differenza della discesa del gradiente batch, la discesa del gradiente stocastica valuta ogni campione di addestramento uno alla volta e regola immediatamente il modello, anziché aspettare di sommare l'intero errore.

La discesa stocastica del gradiente richiede meno memoria rispetto alla discesa batch del gradiente, poiché deve tenere in memoria solo un campione alla volta. È più efficace nell'uscire dai minimi locali grazie ai numerosi aggiornamenti. Tuttavia, la discesa del gradiente batch è migliore per l'apprendimento, in quanto prende in considerazione tutti i dati in una volta sola.

Mini-Batch Gradient Descent

Il gradient descent mini-batch crea un equilibrio tra il gradient descent batch e il gradient descent stocastico, combinando entrambi i concetti. Divide il dataset di addestramento in batch più piccoli, consentendo di eseguire gli aggiornamenti su ciascun batch in una sola volta. Grazie all'efficienza di calcolo della discesa del gradiente batch e alla velocità della discesa del gradiente stocastico, è possibile ottenere il meglio dai campioni di addestramento.

Ruolo della discesa del gradiente nell'apprendimento automatico

La discesa del gradiente svolge un ruolo importante nell'apprendimento automatico (ML), in particolare nell'addestramento dei modelli ML per determinare i valori ottimali delle loro funzioni di perdita. Si tratta di un algoritmo che opera regolando iterativamente un determinato insieme di parametri (biases/pesi) che richiedono un'ottimizzazione. Questa tecnica mira a perfezionare continuamente questi parametri per trovare il valore migliore o ottimale all'interno della funzione.

Utilizzando la discesa del gradiente, i modelli ML migliorano l'accuratezza della previsione a ogni iterazione di regolazione dei parametri. Di conseguenza, questo processo iterativo mira a minimizzare la disparità tra i risultati previsti e quelli effettivi, portando all'assimilazione di nuovi modelli da parte del modello.

Come funziona l'algoritmo di discesa del gradiente?

In termini tecnici, la discesa del gradiente è una tecnica di ottimizzazione che trova il minimo locale o globale in una [funzione di costo] (https://www.simplilearn.com/tutorials/machine-learning-tutorial/cost-function-in-machine-learning). La logica matematica alla base della discesa del gradiente consiste nel modificare il parametro in una direzione che riduce il valore della funzione in base al parametro iniziale e alla pendenza.

La discesa del gradiente è un algoritmo di addestramento molto potente che può essere applicato al deep learning e a varie logiche di apprendimento automatico, come le reti neurali, la regressione lineare e la regressione logistica. Ottimizzando i set di dati utilizzando un framework ad alto rendimento, la discesa del gradiente restituisce il costo più basso di una funzione.

Ora, la domanda è: come fa la discesa del gradiente a sapere in che direzione andare (pendenza), quanto grande dovrebbe essere il passo per ogni iterazione (tasso di apprendimento) e quando smetterà di imparare (minimo locale o globale)?

Spiegazione passo per passo

**Supponiamo, per esempio, che stiate cercando una casa e vogliate sapere quanto costeranno tutte le case che vi interessano. Tra gli elementi da considerare per ottenere una fascia di prezzo vi sono la zona in cui si trovano le case, le dimensioni delle case e così via. Analizzando tutti questi parametri, si dovrebbe arrivare a una stima dei prezzi che possa guidare l'utente verso i prezzi reali. Dopo aver previsto un intervallo di prezzi, la discesa del gradiente passa a ottimizzare il prezzo previsto per ottenere il prezzo effettivo. Nei modelli di apprendimento automatico, invece del prezzo come parametro, si utilizzano pesi o bias.

**Ora che abbiamo un parametro iniziale come il prezzo previsto, dobbiamo definire una funzione di costo che possiamo utilizzare per misurare l'errore tra il nostro valore iniziale e il valore effettivo o previsto. Lo scopo della funzione di costo è quello di quantificare la bontà o meno di una previsione rispetto al suo valore definito, consentendo al modello di modificare continuamente il suo parametro fino a raggiungere il punto di errore più basso.

**La pendenza indica il percorso e l'entità della direzione che la funzione di costo prenderà rispetto alla posizione attuale. Indica la direzione con l'aumento più significativo della funzione di costo.

NP = OP - SS

SS = tasso di apprendimento x pendenza

La formula per l'ottimizzazione nella discesa dei gradienti

Matematicamente, la formula per ottenere la discesa del gradiente è NP = OP - SS. NP è il parametro nuovo, OP è il parametro vecchio e SS è la dimensione del passo o tasso di apprendimento x pendenza. Il tasso di apprendimento è la dimensione del passo necessario affinché la discesa del gradiente si muova nella direzione del minimo locale. Ad esempio, se si sta andando al lavoro a piedi da casa e si è in ritardo, si faranno passi più grandi perché si sta cercando di arrivare al lavoro in tempo, ma non appena si inizia ad avvicinarsi all'ufficio, la dimensione del passo si riduce perché si è quasi arrivati a destinazione (minimo locale). Questi passi rappresentano il tasso di apprendimento.

Sfide della discesa del gradiente

Nonostante sia uno degli algoritmi di ottimizzazione più potenti, la discesa del gradiente presenta alcune sfide che possono ostacolare le sue prestazioni. Di seguito ne riportiamo alcune:

Minimo locale:** La discesa del gradiente tende a confondere il minimo locale con il minimo globale, soprattutto nel caso in cui si abbia più di un picco o punto di sella. Normalmente, la discesa del gradiente interrompe l'apprendimento quando la funzione di costo raggiunge il minimo o lo zero. Tuttavia, quando si tratta di un pendio con un punto di sella continuo, la discesa del gradiente deve convergere al [minimo globale piuttosto che al minimo locale] (https://vitalflux.com/local-global-maxima-minima-explained-examples/).
Un gradiente che svanisce si verifica perché il gradiente è troppo piccolo. Man mano che il gradiente si retropropaga, diventa più piccolo e quindi il processo di apprendimento del gradiente è più lento. Quando ciò continua a verificarsi, i parametri di peso si aggiornano e diventano gradualmente insignificanti, causando alla fine l'interruzione dell'apprendimento del gradiente, che viene definito gradiente che svanisce.
Gradiente esplosivo:** Un gradiente esplosivo, invece, si verifica quando il gradiente è troppo grande e il modello diventa instabile. Nel caso di un gradiente esplosivo, si può ricorrere a una tecnica di riduzione della dimensionalità, che aiuta a minimizzare la complessità del modello.

Domande frequenti

Cosa significa discesa del gradiente nell'IA?

In termini semplici, la discesa del gradiente è un algoritmo che minimizza una funzione di costo ottimizzando i suoi parametri. Viene utilizzato per addestrare modelli di machine learning e reti neurali per ridurre il tasso di errore nel loro set di dati, iterando continuamente i loro parametri fino a raggiungere il punto di convergenza.

Ogni addestramento inizia con un'ipotesi casuale, dopodiché la discesa del gradiente prende quell'ipotesi e la ottimizza modificando continuamente i suoi parametri in relazione alle derivate, fino a raggiungere il punto di errore più basso o una funzione di costo ridotta.

La discesa del gradiente è utile?

Nonostante alcune sfide, la discesa del gradiente rimane uno degli algoritmi di ottimizzazione più efficaci per l'apprendimento profondo e l'addestramento dei modelli. Sebbene la discesa del gradiente possieda diverse qualità favorevoli come algoritmo di ottimizzazione, la sua idoneità può variare a seconda del contesto e del problema in questione. Alcuni dei vantaggi che si ottengono con la discesa del gradiente sono:

Efficienza
Accettabilità
Versatilità
Parallelizzazione
Affidabilità
Facilità di calcolo

Contenuto

Inizia gratis, scala facilmente

Prova il database vettoriale completamente gestito progettato per le tue applicazioni GenAI.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Risorse correlate

Che cos'è un database vettoriale?

Un database vettoriale è una soluzione completamente gestita e priva di fronzoli per l'archiviazione, l'indicizzazione e la ricerca in un insieme massiccio di dati non strutturati che sfrutta la potenza delle incorporazioni dei modelli di apprendimento automatico.

Valutazione delle prestazioni di Milvus 2023

In questa esercitazione imparerete a conoscere i dati non strutturati basati sul testo.

Database vettoriali open source

Leggete questi concetti e guide relativi ai database vettoriali.