Che cos'è la ricerca approssimativa dei vicini (ANN)?

Che cos'è la ricerca approssimativa dei vicini (ANN)?

La ricerca per prossimità approssimata è una tecnica potente nell'apprendimento automatico (ML) e nelle pipeline di scienza dei dati che consente di effettuare ricerche efficienti di similarità semantica in grandi insiemi di dati spesso presenti in database vettoriali come Zilliz. ANNS è un metodo per trovare il vicino più prossimo di un dato punto interrogato in un grande insieme di punti utilizzando vari algoritmi di prossimità approssimata. ANNS mira a trovare un vicino approssimato con alta probabilità, minimizzando il costo computazionale. ANNS naviga intelligentemente nello spazio di ricerca per individuare in modo efficiente le corrispondenze approssimate, migliorando significativamente le prestazioni rispetto alle ricerche esaustive.

L'algoritmo standard di ricerca del vicino più vicino (ricerca NN) è una ricerca esaustiva che verifica la distanza tra il punto interrogato e ogni altro punto del set di dati. Tuttavia, questo può essere computazionalmente costoso e non fattibile per grandi insiemi di dati. ANNS è una soluzione a questo problema che utilizza una struttura di dati o un algoritmo per ridurre i calcoli di distanza richiesti.

Introduzione a ANNS

Approximate Nearest Neighbor Search (ANNS) è una tecnica utilizzata nelle pipeline di machine learning e data science per la ricerca efficiente di similarità semantiche in grandi insiemi di dati. ANNS opera all'interno di uno spazio vettoriale, che è una rappresentazione matematica di dati ad alta dimensionalità utilizzata per eseguire ricerche di similarità efficienti. ANNS mira a trovare un vicino approssimativo con alta probabilità, minimizzando il costo computazionale. Questo approccio è particolarmente utile quando si ha a che fare con dati ad alta dimensione, dove la ricerca esatta del vicino può diventare computazionalmente costosa e poco pratica. Sfruttando ANNS, possiamo raggiungere un equilibrio tra accuratezza ed efficienza, rendendolo uno strumento prezioso per le applicazioni che richiedono una ricerca di similarità rapida e affidabile.

Evoluzione degli algoritmi di ricerca

L'evoluzione degli algoritmi di ricerca è stata un processo continuo, con l'emergere di varie tecniche per affrontare le sfide della gestione di insiemi di dati grandi e complessi. I metodi di ricerca tradizionali, come la ricerca esatta del vicino, sono stati inizialmente utilizzati per trovare i punti di dati più vicini a un determinato punto di interrogazione. Tuttavia, questi metodi erano computazionalmente costosi e poco pratici per i dati ad alta dimensionalità. Lo sviluppo degli algoritmi di ricerca approssimata per prossimità (ANN) ha segnato una tappa significativa nell'evoluzione degli algoritmi di ricerca. Gli algoritmi ANN, come locality-sensitive hashing (LSH) e KD-trees, sono stati progettati per cercare in modo efficiente i vicini approssimativi in spazi ad alta dimensione. Questi algoritmi sono stati ampiamente adottati in varie applicazioni, tra cui il riconoscimento delle immagini, l'elaborazione del linguaggio naturale e i sistemi di raccomandazione.

Differenze tra NN, ANN e KNN

Di seguito verranno chiarite le differenze tra Nearest Neighbor (NN), Approximate Nearest Neighbor (ANN) e K-Nearest Neighbors (KNN):

Vicini di casa (NN):

NN è un algoritmo di base utilizzato per compiti di classificazione e regressione.
Funziona trovando il singolo punto di dati più vicino (vicino) a un dato punto di interrogazione in base a una metrica di distanza (ad esempio, la distanza euclidea).
La classe o il valore del punto interrogato è determinato dalla classe o dal valore del suo vicino più prossimo.
NN è un algoritmo semplice e intuitivo, ma può essere computazionalmente costoso per grandi insiemi di dati.

Approximate Nearest Neighbor (ANN):

ANN è una variante dell'algoritmo nearest neighbor che mira a trovare vicini approssimativi anziché esatti.
Viene utilizzato quando il set di dati è molto grande e trovare i vicini esatti è computazionalmente costoso o non fattibile.
Gli algoritmi di RNA barattano una certa accuratezza con una maggiore velocità ed efficienza.
Usano tecniche come l'hashing sensibile alla località (LSH) o strutture ad albero per trovare rapidamente i vicini approssimativi.
Gli algoritmi ANN cercano partizioni multiple basate sul vettore di interrogazione per ridurre la perdita di accuratezza.
ANN è utile in scenari in cui un risultato approssimativo è sufficiente e il set di dati è troppo grande per una ricerca esatta dei vicini.

K-Nearest Neighbors (KNN):

KNN è un'estensione dell'algoritmo di nearest neighbor che considera i K vicini più prossimi invece di uno solo.
Funziona identificando i K punti di dati più simili nello spazio delle caratteristiche, dove la somiglianza è misurata utilizzando una funzione di distanza scelta.
La classe o il valore del punto interrogato è determinato dalla classe maggioritaria o dal valore medio dei suoi K vicini più prossimi.
KNN è un algoritmo non parametrico e può essere utilizzato sia per compiti di classificazione che di regressione.
La scelta di K è importante e può influire sulle prestazioni e sulla generalizzazione dell'algoritmo.

Le principali differenze tra questi algoritmi sono:

NN considera solo il singolo vicino, mentre KNN considera K vicini.
ANN si concentra sulla ricerca di vicini approssimativi in modo efficiente, sacrificando un po' di precisione per la velocità.
KNN è un algoritmo più generale che può essere utilizzato sia per la classificazione che per la regressione, mentre NN e ANN sono utilizzati principalmente per la ricerca dei vicini più prossimi.

Fondamentalmente, NN trova il singolo vicino, ANN trova in modo efficiente i vicini approssimati e KNN considera K vicini per compiti di classificazione o regressione.

Motivazione dei vicini più vicini

Il concetto di vicino più prossimo è un concetto fondamentale nell'apprendimento automatico e nella scienza dei dati, utilizzato in varie applicazioni come il riconoscimento delle immagini, l'elaborazione del linguaggio naturale e i sistemi di raccomandazione. Questi algoritmi utilizzano vettori di query per rappresentare le richieste di ricerca, che vengono poi confrontate con i punti di dati del dataset per trovare quelli più simili. La motivazione alla base degli algoritmi Nearest Neighbor è quella di trovare i punti di dati più simili a un determinato punto di interrogazione, che possono essere utilizzati per la classificazione, la regressione e altri compiti. Tuttavia, con l'aumentare delle dimensioni e del numero di dati, la ricerca esatta dei vicini più prossimi diventa sempre più impegnativa. Il costo computazionale della verifica di ogni punto di un grande insieme di dati può essere proibitivo, rendendo ANNS una valida soluzione. ANNS fornisce un modo per trovare in modo efficiente punti di dati simili senza la necessità di una ricerca esaustiva, consentendo così applicazioni di apprendimento automatico scalabili e performanti.

Meccanica dei vicini approssimativi

Gli algoritmi di ricerca approssimativa dei vicini (ANN) funzionano mappando i punti di dati in uno spazio ad alta dimensionalità e identificando rapidamente i punti più vicini a un punto di interrogazione. La chiave dell'efficienza di ANN risiede nell'uso di algoritmi come il locality-sensitive hashing (LSH), che colloca elementi simili nello stesso bucket, riducendo così in modo significativo il tempo di ricerca. A differenza dei metodi di ricerca esaustivi che valutano ogni altro punto del set di dati, ANN impiega un approccio più efficiente. Questo approccio spesso coinvolge metodi basati su grafi, dove i punti di dati sono nodi di un grafo e la ricerca dei vicini più prossimi diventa un problema di ricerca di percorsi all'interno di questo grafo. La meccanica della ricerca di RNA coinvolge diversi componenti chiave, tra cui la preelaborazione dei dati, la costruzione dell'indice e l'esecuzione della query.

Quando usare la ricerca approssimata dei vicini?

Le tecniche di ricerca approssimata dei vicini trovano applicazione in diversi campi, tra cui i sistemi di raccomandazione, il riconoscimento di immagini e audio, l'elaborazione del linguaggio naturale (NLP) e la Retrieval Augmented Generation (RAG). Le ricerche vettoriali sono fondamentali in queste applicazioni, in quanto consentono di recuperare in modo efficiente elementi simili sulla base delle loro rappresentazioni vettoriali. I metodi ANNS possono fornire soluzioni approssimate che sono ancora sufficientemente accurate per molte applicazioni, anche quando si tratta di grandi insiemi di dati.

Algoritmi ANNS comuni

Gli algoritmi ANNS utilizzano una varietà di strutture dati e algoritmi di nearest neighbor approssimativi, progettati per ottimizzare il processo di ricerca. Alcuni popolari algoritmi ANNS includono i KD-trees, locality-sensitive hashing (LSH) e product quantization. I KD-trees sono comunemente utilizzati negli spazi a bassa dimensione, mentre LSH è preferito per gli spazi ad alta dimensione. La quantizzazione del prodotto è una tecnica che divide lo spazio delle caratteristiche in sottospazi e comprime ogni sottospazio in un piccolo codebook.

Il set di dati viene suddiviso in una struttura ad albero in KD-trees, dove ogni nodo rappresenta una regione di punti. L'algoritmo attraversa l'albero durante il processo di ricerca, controllando le aree più vicine al punto interrogato. Al contrario, LSH raggruppa punti simili nello stesso bucket, consentendo un rapido recupero dei vicini approssimativi. La quantizzazione del prodotto controlla i codici di ogni sottospazio per trovare il vicino approssimativo.

L'efficienza con cui gli algoritmi ANNS possono trovare il vicino approssimativo li rende popolari in diverse applicazioni. Nei sistemi di raccomandazione, gli algoritmi ANNS possono essere utilizzati per trovare in modo efficiente oggetti o utenti simili. Gli algoritmi ANNS possono aiutare a trovare immagini e suoni corrispondenti nel riconoscimento di immagini e audio. Nell'elaborazione del linguaggio naturale, gli algoritmi ANNS possono trovare documenti o frasi simili.

Scegliere il giusto algoritmo ANNS

La scelta del giusto algoritmo di nearest neighbor approssimativo dipende da diversi fattori, tra cui la dimensione del set di dati, il livello di accuratezza desiderato e le risorse computazionali disponibili. Tra gli algoritmi ANNS più diffusi vi sono i KD-trees, il Locality-Sensitive Hashing (LSH) e il Product Quantization. I KD-trees sono adatti per i dati a bassa dimensione e per le interrogazioni basate sulla distanza euclidea, mentre LSH è preferibile per i dati ad alta dimensione e per le interrogazioni basate sulla [similarità del coseno] (https://zilliz.com/blog/similarity-metrics-for-vector-search). La quantizzazione del prodotto è una tecnica che divide lo spazio delle caratteristiche in sottospazi e comprime ogni sottospazio in un piccolo codebook. Ognuno di questi algoritmi ha i suoi punti di forza e i suoi compromessi, quindi la scelta di quello appropriato richiede un'attenta considerazione dei requisiti specifici dell'applicazione.

Implementazione dell'ANNS nella vostra applicazione

L'implementazione di ANNS nell'applicazione comporta diverse fasi, tra cui la preelaborazione dei dati, la costruzione dell'indice e l'esecuzione della query. La preelaborazione dei dati comporta la trasformazione dei dati in un formato adatto a ANNS, come la normalizzazione dei vettori o la [riduzione della dimensionalità] (https://zilliz.com/glossary/dimensionality-reduction). La costruzione dell'indice comporta la creazione di una struttura di dati che consenta una ricerca efficiente, come un albero KD o una tabella hash. L'esecuzione della query comporta la ricerca nell'indice dei vicini approssimativi a un determinato punto di interrogazione, utilizzando i vettori di interrogazione. Diverse librerie e framework, come FAISS e Annoy, forniscono implementazioni efficienti degli algoritmi ANNS che possono essere facilmente integrate nelle applicazioni. Seguendo questi passaggi, è possibile sfruttare la potenza di ANNS per costruire sistemi di ricerca per similarità scalabili ed efficienti.

Quando usare la ricerca per prossimità approssimata?

Quando si ha a che fare con dati ad alta densità, la ricerca del vicino esatto può diventare computazionalmente costosa e non necessaria. Nella ricerca vettoriale, i dati sono rappresentati in uno spazio vettoriale, che consente di effettuare ricerche di similarità efficienti in insiemi di dati ad alta dimensione. In questi casi, la ricerca approssimata del vicino riduce significativamente il tempo di ricerca, fornendo al contempo un risultato ragionevolmente accurato. La ricerca per prossimità approssimata è comunemente utilizzata in applicazioni come il riconoscimento di immagini e parole, i sistemi di raccomandazione e l'elaborazione del linguaggio naturale.

Importanza dell'ANNS nella ricerca vettoriale

La ricerca vettoriale è una componente critica di molte applicazioni di apprendimento automatico, in cui i dati sono rappresentati come [vettori densi] (https://zilliz.com/learn/dense-vector-in-ai-maximize-data-potential-in-machine-learning) in spazi ad alta densità. La ricerca vettoriale è parte integrante di queste applicazioni, in quanto consente di recuperare in modo rapido e accurato elementi simili in base alle loro rappresentazioni vettoriali. ANNS svolge un ruolo cruciale nella ricerca vettoriale, consentendo un recupero rapido ed efficiente di vettori simili in insiemi di dati enormi. Utilizzando ANNS, gli sviluppatori possono costruire sistemi di ricerca vettoriale scalabili e performanti, in grado di gestire grandi volumi di dati e di fornire risultati accurati in tempo reale. Questa capacità è essenziale per applicazioni come i sistemi di raccomandazione, il riconoscimento di immagini e audio e l'elaborazione del linguaggio naturale, dove la ricerca di similarità rapida e affidabile è fondamentale.

Ricerca approssimata dei vicini di casa nelle applicazioni del mondo reale

La ricerca approssimativa dei vicini (ANN) ha numerose applicazioni nel mondo reale. Nel riconoscimento delle immagini, ANN può identificare rapidamente immagini con caratteristiche simili da un vasto insieme di dati. Nei servizi di streaming musicale, ANN può essere utilizzato per raccomandare canzoni che corrispondono alle preferenze dell'utente, anche se non sono esattamente uguali. Nel settore sanitario, la RNA aiuta a identificare rapidamente immagini diagnostiche simili a una query, migliorando la velocità e l'accuratezza delle diagnosi dei pazienti. La RNA viene utilizzata anche nell'elaborazione del linguaggio naturale, nei sistemi di raccomandazione e nella Retrieval Augmented Generation (RAG). L'efficacia della ricerca RNA in queste applicazioni è dimostrata dalla sua gestione di strutture di dati complesse e dalla sua adattabilità a dati di dimensioni crescenti.

Migliori pratiche per l'implementazione della ricerca approssimata per prossimità

L'implementazione della ricerca approssimata per vicini (ANN) richiede un'attenta considerazione di diversi fattori. In primo luogo, è essenziale scegliere l'algoritmo ANN giusto per il caso d'uso specifico. I diversi algoritmi, come LSH e KD-trees, hanno i loro punti di forza e i loro compromessi, e la scelta di quello appropriato richiede un'attenta considerazione dei requisiti specifici dell'applicazione. In secondo luogo, la pre-elaborazione dei dati è fondamentale per la ricerca di RNA. Si tratta di trasformare i dati in un formato adatto alle RNA, come la normalizzazione dei vettori o la riduzione della dimensionalità. In terzo luogo, la costruzione dell'indice è una fase critica della ricerca con le RNA. Si tratta di creare una struttura di dati che consenta una ricerca efficiente, come un albero KD o una tabella hash. Infine, l'esecuzione della query comporta la ricerca nell'indice per trovare i vicini approssimativi di un determinato punto di interrogazione.

Il futuro della ricerca per prossimità approssimata

Il futuro della ricerca approssimativa dei vicini (ANN) è promettente, con ricerche e sviluppi in corso nel campo. Un'area di ricerca è lo sviluppo di algoritmi ANN più efficienti, in grado di gestire insiemi di dati sempre più grandi e complessi. Un'altra area di ricerca è l'applicazione della ricerca ANN in campi emergenti, come i veicoli autonomi e la robotica. Inoltre, si prevede che l'uso crescente della ricerca vettoriale in varie applicazioni spingerà la domanda di algoritmi ANN più efficienti e scalabili. Con la continua evoluzione del settore, possiamo aspettarci di vedere applicazioni sempre più innovative della ricerca ANN in vari settori e ambiti.

Riepilogo della ricerca approssimata dei vicini di casa

In conclusione, gli algoritmi di ricerca per prossimità approssimata sono strumenti preziosi nella scienza dei dati e nelle pipeline di apprendimento automatico. Utilizzando strutture di dati e algoritmi intelligenti, gli ANNS possono fornire soluzioni computazionalmente fattibili e sufficientemente accurate per molte applicazioni. Inoltre, le tecniche ANNS sono ampiamente applicabili e consentono di effettuare ricerche efficienti di nearest-neighbor in grandi insiemi di dati.

Contenuto

Inizia gratis, scala facilmente

Prova il database vettoriale completamente gestito progettato per le tue applicazioni GenAI.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Risorse correlate

DiskANN: una soluzione ANNS basata su disco

con un alto richiamo e un alto QPS su un dataset di miliardi di dollari.

Ricerca approssimativa dei vicini basata sul grafico di prossimità

Come funziona l'ANNS basato sulla PG?

Zilliz ha trionfato nella sfida di ricerca di RNA su scala miliardaria del NeurIPS 2021

Il team di ricerca Zilliz si è aggiudicato il primo posto.