Glossary
Vector Distance

Qu’est-ce que la distance vectorielle ? Tout ce que vous devez savoir

Qu’est-ce que la distance vectorielle ? Tout ce que vous devez savoir

Les distances vectorielles sont fondamentales dans divers domaines, tels que les mathématiques, la physique, l’ingénierie et l’informatique. Elles permettent de mesurer des grandeurs physiques, d’analyser des données, d’identifier des similitudes et de déterminer des relations entre vecteurs.

Cet article fournira un aperçu des distances vectorielles et de leurs applications en science des données.

Qu’est-ce que la distance vectorielle ?

La distance vectorielle, métrique de distance ou mesure de similarité, est une fonction mathématique qui quantifie la similarité ou la dissimilarité entre deux vecteurs.

Ces vecteurs peuvent représenter divers ensembles de données. D’autre part, la distance vectorielle aide à comprendre à quel point les vecteurs sont proches ou éloignés dans l’espace des caractéristiques.

Dans cette optique, les distances vectorielles sont cruciales dans divers algorithmes d’apprentissage automatique, permettant à ces algorithmes de prendre des décisions sur la base des relations entre vecteurs.

Quelles sont les applications de la distance vectorielle dans l’apprentissage automatique ?

Ne sous-estimez jamais le pouvoir des distances vectorielles, en particulier dans l’apprentissage automatique dans divers domaines. Voici quelques applications des distances vectorielles dans l’apprentissage automatique :

Clustering—Les distances vectorielles sont utiles pour regrouper des vecteurs similaires en clusters. Des algorithmes tels que k-means, le clustering hiérarchique et DBSCAN s’appuient sur la distance vectorielle pour déterminer quels vecteurs appartiennent au même cluster.
Classification—Dans des algorithmes tels que la classification par k plus proches voisins (kNN), les distances vectorielles déterminent la classe d’un nouveau vecteur en tenant compte de ses k plus proches voisins. Par conséquent, la classe ayant le plus de voisins est attribuée à un nouveau vecteur.
Traitement du langage naturel—Dans la fouille de textes et le NLP, les distances vectorielles peuvent calculer la similarité entre documents, effectuer une analyse des sentiments et regrouper des documents textuels en clusters.
Prétraitement des données—Les distances vectorielles sont essentielles dans les étapes de prétraitement des données—telles que la mise à l’échelle des caractéristiques, la normalisation et la suppression des valeurs aberrantes—afin de préparer les données pour les algorithmes d’apprentissage automatique.
Réseaux de neurones—Dans l’entraînement des réseaux de neurones, les distances vectorielles sont cruciales en tant que fonctions de perte ou termes de régularisation pour encourager certaines relations entre les vecteurs de sortie et les vecteurs cibles.
Détection d’anomalies—Vous pouvez détecter des anomalies ou des valeurs aberrantes en mesurant la distance des vecteurs par rapport à un cluster central ou à d’autres vecteurs. Les vecteurs très éloignés de la majorité sont considérés comme des anomalies.
Réduction de dimensionnalité—Des techniques comme UMAP (uniform manifold approximation and projection) et t-SNE (t-distributed stochastic neighbor embedding) utilisent les distances vectorielles pour créer des représentations de faible dimension de données de grande dimension, en préservant autant que possible les distances par paires.

En résumé, les distances vectorielles sont fondamentales dans de nombreuses tâches et applications d’apprentissage automatique.

Par conséquent, le choix de la distance vectorielle appropriée est souvent crucial pour la réussite de l’algorithme et sa capacité à capturer les relations entre les données vectorielles.

Quelles sont les différentes métriques de distance vectorielle ?

Dans le domaine de l’apprentissage automatique, diverses métriques de distance sont disponibles pour évaluer la dissimilarité ou la similarité entre deux vecteurs. Gardez toujours à l’esprit que la métrique de distance appropriée dépend du type de données et du problème particulier que vous essayez de résoudre. Voici quelques métriques de distance courantes.

Distance euclidienne—La distance vectorielle est largement utilisée ; elle mesure la distance en ligne droite entre deux vecteurs dans l’espace euclidien. Sa formulation consiste à prendre la racine carrée de la somme des variances au carré entre les éléments correspondants des vecteurs.
Distance de Manhattan (distance en pâtés de maisons)—Elle calcule la distance entre deux vecteurs en additionnant les écarts absolus de leurs composantes correspondantes.
Similarité cosinus—Elle détermine le cosinus de l’angle formé par deux vecteurs, indiquant ainsi leur ressemblance en termes de direction. Elle évalue fréquemment la similarité entre des documents textuels, où chaque document est représenté comme un vecteur contenant des fréquences de mots.
Coefficient de corrélation de Pearson—Il quantifie la corrélation linéaire entre deux vecteurs, indiquant le degré auquel ils se conforment à une relation linéaire. Il est couramment utilisé pour calculer la similarité entre des données à valeurs continues.
Distance du terrassier (EMD)—Elle mesure le coût minimal de transformation d’une distribution en une autre. Elle est couramment appliquée au traitement d’images et à la vision par ordinateur.
Similarité de Jaccard—Son calcul consiste à prendre le rapport entre la taille de l’intersection de deux ensembles et la taille de leur union combinée.
Distance de Hamming—Elle compte généralement les positions auxquelles les éléments correspondants diffèrent.

En résumé, différentes métriques mettent l’accent sur différents aspects de la similarité. Par conséquent, un choix approprié peut avoir un impact sur les performances d’un algorithme d’apprentissage automatique.

Bibliothèques logicielles populaires qui exploitent les distances vectorielles

Ensuite, examinons certaines des bibliothèques logicielles populaires qui offrent diverses fonctionnalités et capacités pour travailler avec les distances vectorielles.

Ces bases de données vectorielles et bibliothèques traitent de la recherche de similarité, du clustering et d’autres tâches impliquant des données de grande dimension.

Milvus

Milvus est une bibliothèque logicielle open-source de Zilliz qui vise à fournir une base de données vectorielle hautes performances pour la recherche de similarité et les applications alimentées par l’IA. Elle offre un stockage, une indexation et une interrogation efficaces des vecteurs de grande dimension.

Milvus fonctionne bien avec la recherche d’images, les systèmes de recommandation et les tâches de traitement du langage naturel. Il fournit les métriques de distance L2 (euclidienne), Inner Product (IP) et cosinus.

Pour travailler avec Milvus, installez la base de données et insérez des vecteurs. Ensuite, créez un index et effectuez des requêtes de recherche de similarité à l’aide de son API ou SDK.

FAISS (Facebook AI Similarity Search)

FAISS est une bibliothèque plus performante conçue par l’équipe Facebook’s AI Research (FAIR) pour des recherches de similarité et un clustering efficaces de grands ensembles de données. Elle gère les vecteurs de grande dimension courants dans des tâches telles que la reconnaissance d’images, le traitement du langage naturel et d’autres applications d’apprentissage automatique. Par conséquent, la plupart des organisations et des entreprises de recherche adoptent progressivement FAISS pour l’analyse de données à grande échelle et les tâches d’apprentissage automatique.

Annoy

Annoy est une bibliothèque C++ avec des bindings Python pour une recherche approximative du plus proche voisin. Elle utilise des voisins aléatoires pour construire efficacement des structures d’index pour une recherche de similarité rapide dans des espaces de grande dimension.

ScaNN (Scalable Nearest Neighbors)

ScaNN est une bibliothèque basée sur TensorFlow pour une recherche approximative du plus proche voisin. Elle offre une accélération GPU et prend en charge différentes méthodes d’indexation. ScaNN est également disponible comme option d’index dans Milvus.

NMSLIB (Nonmetric Space Library)

NMSLIB est une collection d’algorithmes efficaces et de haute qualité pour la recherche dans des espaces métriques et non métriques. Elle prend en charge diverses méthodes d’indexation ainsi que des métriques de recherche et de distance pour une recherche de similarité.

PQ-Tree

PQ-Tree est une bibliothèque pour la recherche de similarité efficace utilisant la quantification par produit. Elle accélère les calculs de distance dans les espaces de grande dimension.

PANNs (Product ANN Search)

PANNs est une bibliothèque efficace conçue pour une recherche approximative des plus proches voisins, particulièrement adaptée aux recommandations de produits et aux applications d’e-commerce. En conclusion, les bibliothèques logicielles disposent de nombreuses fonctionnalités et capacités pour travailler avec des bases de données vectorielles et des recherches similaires. Choisissez la bibliothèque qui correspond à vos exigences en fonction de vos besoins spécifiques, des caractéristiques de votre jeu de données et de vos ressources matérielles.

Questions fréquentes sur la distance vectorielle

Quelle est la formule de distance pour un vecteur ?

La formule de distance pour un vecteur calcule la longueur d’un vecteur dans un espace euclidien. Pour un vecteur V = (v₁, v₂, ..., vₙ), vous pouvez calculer la formule de distance comme indiqué ci-dessous : Distance (V) = √(v₁² + v₂² + ... + vₙ²).

En d’autres termes, elle représente la racine carrée de la somme des carrés de chaque élément du vecteur.

Comment trouver la distance entre V et U ?

Pour calculer la distance entre deux vecteurs V et U, vous pouvez utiliser la formule de distance euclidienne comme indiqué ci-dessous :

Distance (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

Dans ce contexte, (v₁, v₂, ..., vₙ) représente les composantes du vecteur V, tandis que (u₁, u₂, ..., uₙ) désigne les éléments du vecteur U.

Quelle est la distance L2 entre deux vecteurs ?

La distance L2 entre deux vecteurs, également appelée distance euclidienne ou norme euclidienne, mesure la distance en ligne droite entre les deux vecteurs dans l’espace euclidien. Vous pouvez calculer la distance L2 à l’aide de la formule suivante : L2 Distance (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

Comment trouver la distance entre deux vecteurs position ?

Appliquez la même formule de distance euclidienne décrite précédemment pour trouver la distance entre deux vecteurs position P et Q. Si le vecteur P = (x₁, y₁, z₁) et le vecteur Q = (x₂, y₂, z₂), alors Distance (P, Q) = √((x₁ - x₂)² + (y₁ - y₂)² + (z₁ - z₂)²). Cette formule fournit la distance entre les vecteurs représentés par P et Q dans un espace 3D.

Contenu

Commencez gratuitement, évoluez facilement

Essayez la base de données vectorielle entièrement managée conçue pour vos applications GenAI.

Essayer Zilliz Cloud gratuitement

Partager cet article

Ressources connexes

DiskANN : une solution ANNS basée sur un disque

avec un rappel élevé et un QPS élevé sur un ensemble de données à l'échelle du milliard

Recherche approximative des plus proches voisins basée sur les graphes de proximité

Comment fonctionne l'ANNS basé sur le PG ?

Recherche de similarité vectorielle avec Milvus

Apprendre à construire un moteur de recherche par similarité sémantique