Glossary
Vector Distance

Che cos’è la distanza vettoriale? Tutto ciò che devi sapere

Che cos’è la distanza vettoriale? Tutto ciò che devi sapere

Le distanze vettoriali sono fondamentali in vari campi, come matematica, fisica, ingegneria e informatica. Misurano quantità fisiche, analizzano dati, identificano somiglianze e determinano relazioni tra vettori.

Questo post fornirà una panoramica delle distanze vettoriali e delle loro applicazioni nella data science.

Che cos’è la distanza vettoriale?

La distanza vettoriale, una metrica di distanza o misura di somiglianza, è una funzione matematica che quantifica la somiglianza o la dissomiglianza tra due vettori.

Questi vettori possono rappresentare vari insiemi di dati. D’altra parte, la distanza vettoriale aiuta a fornire una comprensione di quanto i vettori siano vicini o lontani nello spazio delle caratteristiche.

Tenendo presente questo, le distanze vettoriali sono cruciali in vari algoritmi di machine learning, consentendo a questi algoritmi di prendere decisioni basate sulle relazioni tra vettori.

Quali sono le applicazioni della distanza vettoriale nel machine learning?

Non sottovalutare mai il potere delle distanze vettoriali, soprattutto nel machine learning in vari domini. Di seguito sono riportate alcune delle applicazioni delle distanze vettoriali nel machine learning:

Clustering—Le distanze vettoriali sono utili quando si raggruppano vettori simili in cluster. Algoritmi come k-means, clustering gerarchico e DBSCAN si basano sulla distanza vettoriale per determinare quali vettori appartengono allo stesso cluster.
Classification—In algoritmi come la classificazione k-nearest neighbors (kNN), le distanze vettoriali determinano la classe di un nuovo vettore considerando i suoi k vicini più prossimi. Di conseguenza, la classe con il maggior numero di vicini viene assegnata a un nuovo vettore.
Natural language processing—Nel text mining e nell’NLP, le distanze vettoriali possono calcolare la similarità dei documenti, eseguire l’analisi del sentiment e raggruppare documenti di testo.
Data preprocessing—Le distanze vettoriali sono vitali nelle fasi di preprocessing dei dati—come la scalatura delle caratteristiche, la normalizzazione e la rimozione degli outlier—per preparare i dati agli algoritmi di machine learning.
Neural networks—Nell’addestramento delle reti neurali, le distanze vettoriali sono cruciali come funzioni di perdita o termini di regolarizzazione per incoraggiare determinate relazioni tra vettori di output e target.
Anomaly detection—Puoi rilevare anomalie o outlier misurando la distanza dei vettori da un cluster centrale o da altri vettori. I vettori lontani dalla maggioranza sono considerati anomalie.
Dimensionality reduction—Tecniche come UMAP (uniform manifold approximation and projection) e t-SNE (t-distributed stochastic neighbor embedding) utilizzano le distanze vettoriali per creare rappresentazioni a bassa dimensionalità di dati ad alta dimensionalità, preservando il più possibile le distanze a coppie.

In sintesi, le distanze vettoriali sono fondamentali in molti compiti e applicazioni di machine learning.

Pertanto, scegliere la distanza vettoriale appropriata è spesso cruciale per il successo dell’algoritmo e per la sua capacità di cogliere le relazioni tra dati vettoriali.

Quali sono le varie metriche di distanza vettoriale?

Nel campo del machine learning, è disponibile una varietà di metriche di distanza per valutare la dissomiglianza o la somiglianza tra due vettori. Tieni sempre presente che la metrica di distanza corretta dipende dal tipo di dati e dal problema specifico che stai cercando di risolvere. Di seguito sono riportate alcune metriche di distanza comuni.

Distanza euclidea—La distanza vettoriale è ampiamente utilizzata e misura la distanza in linea retta tra due vettori nello spazio euclideo. La sua formulazione prevede il calcolo della radice quadrata della somma delle varianze al quadrato tra gli elementi corrispondenti nei vettori.
Distanza di Manhattan (distanza city block)—Calcola la distanza tra due vettori sommando le disparità assolute dei loro componenti corrispondenti.
Similarità del coseno—Determina il coseno dell’angolo formato da due vettori, indicando così la loro somiglianza in termini di direzione. Frequentemente, misura la similarità tra documenti testuali, dove ogni documento è rappresentato come un vettore contenente le frequenze delle parole.
Coefficiente di correlazione di Pearson—Quantifica la correlazione lineare tra due vettori, indicando il grado in cui si conformano a una relazione lineare. È comunemente noto per calcolare la similarità tra dati a valori continui.
Distanza del trasportatore terrestre (EMD)—Misura il costo minimo per trasformare una distribuzione in un’altra. È comunemente applicata nell’elaborazione delle immagini e nella visione artificiale.
Similarità di Jaccard—Il suo calcolo prevede di prendere il rapporto tra la dimensione dell’intersezione di due insiemi e la dimensione della loro unione combinata.
Distanza di Hamming—In genere conta le posizioni in cui gli elementi corrispondenti differiscono.

In sintesi, metriche diverse enfatizzano aspetti diversi della similarità. Pertanto, una scelta appropriata può influire sulle prestazioni di un algoritmo di apprendimento automatico.

Librerie software popolari che sfruttano le distanze vettoriali

Ora, esaminiamo alcune delle librerie software popolari che offrono varie funzionalità e capacità per lavorare con le distanze vettoriali.

Questi database vettoriali e librerie gestiscono ricerca di similarità, clustering e altri compiti che coinvolgono dati ad alta dimensionalità.

Milvus

Milvus è una libreria software open-source di Zilliz che mira a fornire un database vettoriale ad alte prestazioni per la ricerca di similarità e applicazioni basate sull’IA. Offre archiviazione, indicizzazione e interrogazione efficienti di vettori ad alta dimensionalità.

Milvus funziona bene con la ricerca di immagini, i sistemi di raccomandazione e i compiti di elaborazione del linguaggio naturale. Fornisce metriche di distanza L2 (euclidea), prodotto interno (IP) e coseno.

Per lavorare con Milvus, installa il database e inserisci i vettori. Quindi, crea un indice ed esegui query di ricerca di similarità utilizzando la sua API o SDK.

FAISS (Facebook AI Similarity Search)

FAISS è una libreria ad alte prestazioni sviluppata dal team AI Research (FAIR) di Facebook per ricerche di similarità efficienti e clustering di grandi set di dati. Gestisce vettori ad alta dimensionalità comuni in attività come il riconoscimento delle immagini, l’elaborazione del linguaggio naturale e altre applicazioni di apprendimento automatico. Di conseguenza, la maggior parte delle organizzazioni e delle società di ricerca sta gradualmente adottando FAISS per l’analisi dei dati su larga scala e i compiti di apprendimento automatico.

Annoy

Annoy è una libreria C++ con binding Python per una ricerca approssimata del vicino più prossimo. Utilizza vicini casuali per costruire in modo efficiente strutture di indice per una ricerca di similarità rapida in spazi ad alta dimensionalità.

ScaNN (Scalable Nearest Neighbors)

ScaNN è una libreria basata su TensorFlow per una ricerca approssimata del vicino più prossimo. Offre accelerazione GPU e supporta diversi metodi di indicizzazione. ScaNN è disponibile anche come opzione di indice in Milvus.

NMSLIB (Nonmetric Space Library)

NMSLIB è una raccolta di algoritmi efficienti e di alta qualità per la ricerca in spazi non metrici e metrici. Supporta vari metodi di indicizzazione e metriche di ricerca e distanza per una ricerca di similarità.

PQ-Tree

PQ-Tree è una libreria per una ricerca di similarità efficiente tramite quantizzazione del prodotto. Accelera i calcoli delle distanze in spazi ad alta dimensionalità.

PANNs (Product ANN Search)

PANNs è una libreria efficiente progettata per una ricerca approssimata dei vicini più prossimi, particolarmente adatta alle raccomandazioni di prodotti e alle applicazioni di e-commerce. In conclusione, le librerie software dispongono di molte funzionalità e capacità per lavorare con database vettoriali e ricerche simili. Scegli la libreria che soddisfa i tuoi requisiti in base alle tue esigenze specifiche, alle caratteristiche del dataset e alle risorse hardware.

Domande frequenti sulla distanza vettoriale

Qual è la formula della distanza per un vettore?

La formula della distanza per un vettore calcola la lunghezza di un vettore in uno spazio euclideo. Per un vettore V = (v₁, v₂, ..., vₙ), puoi calcolare la formula della distanza come mostrato di seguito: Distanza (V) = √(v₁² + v₂² + ... + vₙ²).

In altre parole, rappresenta la radice quadrata della somma dei quadrati di ciascun elemento all'interno del vettore.

Come si trova la distanza tra V e U?

Per calcolare la distanza tra due vettori V e U, puoi utilizzare la formula della distanza euclidea come mostrato di seguito:

Distanza (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

In questo contesto, (v₁, v₂, ..., vₙ) rappresentano i componenti del vettore V, mentre (u₁, u₂, ..., uₙ) indicano gli elementi del vettore U.

Qual è la distanza L2 tra due vettori?

La distanza L2 tra due vettori, nota anche come distanza euclidea o norma euclidea, misura la distanza in linea retta tra i due vettori nello spazio euclideo. Puoi calcolare la distanza L2 usando la seguente formula: Distanza L2 (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

Come si trova la distanza tra due vettori posizione?

Applica la stessa formula della distanza euclidea descritta in precedenza per trovare la distanza tra due vettori posizione P e Q. Se il vettore P = (x₁, y₁, z₁) e il vettore Q = (x₂, y₂, z₂), allora Distanza (P, Q) = √((x₁ - x₂)² + (y₁ - y₂)² + (z₁ - z₂)²). Questa formula fornisce la distanza tra i vettori rappresentati da P e Q in uno spazio 3D.

Contenuto

Inizia gratis, scala facilmente

Prova il database vettoriale completamente gestito progettato per le tue applicazioni GenAI.

Prova Zilliz Cloud gratuitamente

Condividi questo articolo

Risorse correlate

DiskANN: una soluzione ANNS basata su disco

con un alto richiamo e un alto QPS su un dataset di miliardi di dollari.

Ricerca approssimativa dei vicini basata sul grafico di prossimità

Come funziona l'ANNS basato sulla PG?

Ricerca di similarità vettoriale con Milvus

Imparare a costruire un motore di ricerca a similarità semantica