Glossary
Vector Distance

¿Qué es la distancia vectorial? Todo lo que necesitas saber

¿Qué es la distancia vectorial? Todo lo que necesitas saber

Las distancias vectoriales son fundamentales en diversos campos, como las matemáticas, la física, la ingeniería y la informática. Miden cantidades físicas, analizan datos, identifican similitudes y determinan relaciones entre vectores.

Esta publicación proporcionará una visión general de las distancias vectoriales y sus aplicaciones en la ciencia de datos.

¿Qué es la distancia vectorial?

La distancia vectorial, una métrica de distancia o medida de similitud, es una función matemática que cuantifica la similitud o disimilitud entre dos vectores.

Estos vectores pueden representar diversos conjuntos de datos. Por otro lado, la distancia vectorial ayuda a proporcionar una comprensión de cuán cerca o lejos están los vectores en el espacio de características.

Teniendo esto en cuenta, las distancias vectoriales son cruciales en varios algoritmos de aprendizaje automático, ya que permiten que estos algoritmos tomen decisiones basadas en las relaciones entre vectores.

¿Cuáles son las aplicaciones de la distancia vectorial en el aprendizaje automático?

Nunca subestimes el poder de las distancias vectoriales, especialmente en el aprendizaje automático en diversos dominios. Las siguientes son algunas de las aplicaciones de las distancias vectoriales en el aprendizaje automático:

Agrupamiento—Las distancias vectoriales son útiles al agrupar vectores similares en clústeres. Algoritmos como k-means, agrupamiento jerárquico y DBSCAN dependen de la distancia vectorial para determinar qué vectores pertenecen al mismo clúster.
Clasificación—En algoritmos como la clasificación k-nearest neighbors (kNN), las distancias vectoriales determinan la clase de un nuevo vector considerando sus k vecinos más cercanos. Como resultado, la clase con más vecinos se asigna a un nuevo vector.
Procesamiento del lenguaje natural—En minería de texto y NLP, las distancias vectoriales pueden calcular la similitud de documentos, realizar análisis de sentimiento y agrupar documentos de texto.
Preprocesamiento de datos—Las distancias vectoriales son vitales en los pasos de preprocesamiento de datos—como el escalado de características, la normalización y la eliminación de valores atípicos—para preparar los datos para los algoritmos de aprendizaje automático.
Redes neuronales—En el entrenamiento de redes neuronales, las distancias vectoriales son cruciales como funciones de pérdida o términos de regularización para fomentar ciertas relaciones entre los vectores de salida y objetivo.
Detección de anomalías—Puedes detectar anomalías o valores atípicos midiendo la distancia de los vectores desde un clúster central u otros vectores. Los vectores que están lejos de la mayoría se consideran anomalías.
Reducción de dimensionalidad—Técnicas como UMAP (uniform manifold approximation and projection) y t-SNE (t-distributed stochastic neighbor embedding) utilizan distancias vectoriales para crear representaciones de baja dimensionalidad de datos de alta dimensionalidad, preservando las distancias por pares tanto como sea posible.

En resumen, las distancias vectoriales son fundamentales en muchas tareas y aplicaciones de aprendizaje automático.

Por lo tanto, elegir la distancia vectorial adecuada a menudo es crucial para el éxito del algoritmo y su capacidad para capturar las relaciones entre datos vectoriales.

¿Cuáles son las diversas métricas de distancia vectorial?

En el campo del aprendizaje automático, hay una variedad de métricas de distancia disponibles para evaluar la disimilitud o similitud entre dos vectores. Ten siempre en cuenta que la métrica de distancia adecuada depende del tipo de datos y del problema particular que intentas resolver. Las siguientes son algunas métricas de distancia comunes.

Distancia euclidiana—La distancia vectorial se utiliza ampliamente, midiendo la distancia en línea recta entre dos vectores en el espacio euclidiano. Su formulación implica tomar la raíz cuadrada de la suma de las varianzas al cuadrado entre los elementos correspondientes de los vectores.
Distancia de Manhattan (distancia de manzana)—Calcula la distancia entre dos vectores sumando las disparidades absolutas de sus componentes correspondientes.
Similitud del coseno—Determina el coseno del ángulo formado por dos vectores, lo que indica su semejanza en términos de dirección. Con frecuencia, mide la similitud entre documentos textuales, donde cada documento se representa como un vector que contiene frecuencias de palabras.
Coeficiente de correlación de Pearson—Cuantifica la correlación lineal entre dos vectores, indicando el grado en que se ajustan a una relación lineal. Es ampliamente conocido para calcular la similitud entre datos de valores continuos.
Distancia del transportista (EMD)—Mide el costo mínimo de transformar una distribución en otra. Se aplica popularmente en el procesamiento de imágenes y la visión por computadora.
Similitud de Jaccard—Su cálculo implica tomar la razón entre el tamaño de la intersección de dos conjuntos y el tamaño de su unión combinada.
Distancia de Hamming—Normalmente cuenta las posiciones en las que difieren los elementos correspondientes.

En resumen, diferentes métricas enfatizan diferentes aspectos de la similitud. Por lo tanto, una elección adecuada puede afectar el rendimiento de un algoritmo de aprendizaje automático.

Bibliotecas de software populares que aprovechan las distancias vectoriales

A continuación, veamos algunas de las bibliotecas de software populares que ofrecen diversas funciones y capacidades para trabajar con distancias vectoriales.

Estas bases de datos vectoriales y bibliotecas se ocupan de la búsqueda por similitud, el agrupamiento y otras tareas que involucran datos de alta dimensionalidad.

Milvus

Milvus es una biblioteca de software de código abierto de Zilliz que tiene como objetivo proporcionar una base de datos vectorial de alto rendimiento para la búsqueda por similitud y aplicaciones impulsadas por IA. Ofrece almacenamiento, indexación y consulta eficientes de vectores de alta dimensionalidad.

Milvus funciona bien con la búsqueda de imágenes, los sistemas de recomendación y las tareas de procesamiento del lenguaje natural. Proporciona métricas de distancia L2 (euclidiana), producto interno (IP) y coseno.

Para trabajar con Milvus, instala la base de datos e inserta vectores. Luego, crea un índice y realiza consultas de búsqueda por similitud utilizando su API o SDK.

FAISS (Facebook AI Similarity Search)

FAISS es una biblioteca de mayor rendimiento creada por el equipo de Facebook’s AI Research (FAIR) para búsquedas por similitud y agrupamiento eficientes de grandes conjuntos de datos. Maneja vectores de alta dimensionalidad comunes en tareas como el reconocimiento de imágenes, el procesamiento del lenguaje natural y otras aplicaciones de aprendizaje automático. Como resultado, la mayoría de las organizaciones y empresas de investigación están adoptando gradualmente FAISS para el análisis de datos a gran escala y tareas de aprendizaje automático.

Annoy

Annoy es una biblioteca de C++ con enlace a Python para una búsqueda aproximada del vecino más cercano. Utiliza vecinos aleatorios para construir eficientemente estructuras de índice para una búsqueda rápida por similitud en espacios de alta dimensión.

ScaNN (Scalable Nearest Neighbors)

ScaNN es una biblioteca basada en TensorFlow para una búsqueda aproximada del vecino más cercano. Ofrece aceleración por GPU y admite diferentes métodos de indexación. ScaNN también está disponible como una opción de índice en Milvus.

NMSLIB (Nonmetric Space Library)

NMSLIB es una colección de algoritmos eficientes y de alta calidad para la búsqueda en espacios métricos y no métricos. Admite varios métodos de indexación, así como métricas de búsqueda y distancia para una búsqueda por similitud.

PQ-Tree

PQ-Tree es una biblioteca para la búsqueda eficiente por similitud mediante cuantización de producto. Acelera los cálculos de distancia en espacios de alta dimensionalidad.

PANNs (Product ANN Search)

PANNs es una biblioteca eficiente diseñada para la búsqueda aproximada de vecinos más cercanos, especialmente adecuada para recomendaciones de productos y aplicaciones de comercio electrónico. En conclusión, las bibliotecas de software tienen muchas funciones y capacidades para trabajar con bases de datos vectoriales y búsquedas similares. Elija la biblioteca que se ajuste a sus requisitos según sus necesidades específicas, las características del conjunto de datos y los recursos de hardware.

Preguntas frecuentes sobre la distancia vectorial

¿Cuál es la fórmula de la distancia para un vector?

La fórmula de la distancia para un vector calcula la longitud de un vector en un espacio euclidiano. Para un vector V = (v₁, v₂, ..., vₙ), puede calcular la fórmula de la distancia como se muestra a continuación: Distancia (V) = √(v₁² + v₂² + ... + vₙ²).

En otras palabras, representa la raíz cuadrada de la suma de los cuadrados de cada elemento dentro del vector.

¿Cómo se encuentra la distancia entre V y U?

Para calcular la distancia entre dos vectores V y U, puede usar la fórmula de la distancia euclidiana como se muestra a continuación:

Distancia (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

En este contexto, (v₁, v₂, ..., vₙ) representan los componentes del vector V, mientras que (u₁, u₂, ..., uₙ) denotan los elementos del vector U.

¿Cuál es la distancia L2 entre dos vectores?

La distancia L2 entre dos vectores, también conocida como distancia euclidiana o norma euclidiana, mide la distancia en línea recta entre los dos vectores en el espacio euclidiano. Puede calcular la distancia L2 utilizando la siguiente fórmula: Distancia L2 (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

¿Cómo se encuentra la distancia entre dos vectores de posición?

Aplique la misma fórmula de distancia euclidiana descrita anteriormente para encontrar la distancia entre dos vectores de posición P y Q. Si el vector P = (x₁, y₁, z₁) y el vector Q = (x₂, y₂, z₂), entonces Distancia (P, Q) = √((x₁ - x₂)² + (y₁ - y₂)² + (z₁ - z₂)²). Esta fórmula proporciona la distancia entre los vectores representados por P y Q en un espacio 3D.

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

DiskANN: una solución ANNS basada en disco

con alta recuperación y alto QPS en un conjunto de datos a escala de miles de millones.

Búsqueda aproximada de vecinos más próximos basada en grafos de proximidad

¿Cómo funciona la RNA basada en PG?

Búsqueda por similitud vectorial con Milvus

Aprenda a crear un motor de búsqueda de similitud semántica