¿Qué es la búsqueda por vecino más próximo aproximado (RNA)?

¿Qué es la búsqueda por vecino más próximo aproximado (RNA)?

La búsqueda del vecino más próximo aproximado es una potente técnica de aprendizaje automático (ML) y de canalización de la ciencia de datos que permite realizar búsquedas eficientes de similitud semántica en grandes conjuntos de datos que suelen encontrarse en bases de datos vectoriales como Zilliz. ANNS es un método para encontrar el vecino más cercano de un punto de consulta dado en un gran conjunto de datos de puntos utilizando varios algoritmos de vecino más cercano aproximado. El objetivo de ANNS es encontrar un vecino más cercano aproximado con una alta probabilidad, minimizando al mismo tiempo el coste computacional. ANNS navega de forma inteligente por el espacio de búsqueda para localizar coincidencias aproximadas de forma eficiente, mejorando significativamente el rendimiento en comparación con las búsquedas exhaustivas.

El algoritmo estándar de búsqueda del vecino más próximo (búsqueda NN) es una búsqueda exhaustiva que comprueba la distancia entre el punto de consulta y todos los demás puntos del conjunto de datos. Sin embargo, este método puede resultar caro desde el punto de vista informático e inviable para grandes conjuntos de datos. ANNS es una solución a este problema que utiliza una estructura de datos o un algoritmo para reducir los cálculos de distancia necesarios.

Introducción a ANNS

Approximate Nearest Neighbor Search (ANNS) es una técnica utilizada en el aprendizaje automático y la ciencia de datos para la búsqueda eficiente de similitud semántica en grandes conjuntos de datos. ANNS opera dentro de un espacio vectorial, que es una representación matemática de datos de alta dimensión utilizada para realizar búsquedas eficientes de similitud. El objetivo de ANNS es encontrar un vecino más cercano aproximado con una alta probabilidad, minimizando al mismo tiempo el coste computacional. Este enfoque resulta especialmente útil cuando se trabaja con datos de gran dimensión, en los que la búsqueda exacta del vecino más próximo puede resultar cara y poco práctica desde el punto de vista informático. Aprovechando ANNS, podemos lograr un equilibrio entre precisión y eficiencia, lo que la convierte en una herramienta valiosa para aplicaciones que requieren una búsqueda de similitudes rápida y fiable.

Evolución de los algoritmos de búsqueda

La evolución de los algoritmos de búsqueda ha sido un proceso continuo, en el que han surgido diversas técnicas para afrontar los retos que plantea el manejo de conjuntos de datos grandes y complejos. Los métodos de búsqueda tradicionales, como la búsqueda exacta del vecino más próximo, se utilizaban inicialmente para encontrar los puntos de datos más cercanos a un punto de consulta dado. Sin embargo, estos métodos eran costosos desde el punto de vista informático y poco prácticos para datos de gran dimensión. El desarrollo de los algoritmos de búsqueda aproximada por vecino más próximo (RNA) marcó un hito importante en la evolución de los algoritmos de búsqueda. Los algoritmos RNA, como locality-sensitive hashing (LSH) y KD-trees, se diseñaron para buscar eficientemente vecinos más cercanos aproximados en espacios de alta dimensión. Estos algoritmos han sido ampliamente adoptados en diversas aplicaciones, como el reconocimiento de imágenes, el procesamiento del lenguaje natural y los sistemas de recomendación.

Diferencias entre NN, ANN y KNN

A continuación se aclararán las diferencias entre Vecino más cercano (NN), Vecino más cercano aproximado (ANN) y K-Nearest Neighbors (KNN):

Vecino más próximo (NN):

NN es un algoritmo básico utilizado para tareas de clasificación y regresión.
Funciona encontrando el punto de datos (vecino) más cercano a un punto de consulta determinado en función de una métrica de distancia (por ejemplo, la distancia euclídea).
La clase o el valor del punto de consulta viene determinado por la clase o el valor de su vecino más cercano.
La NN es un algoritmo sencillo e intuitivo, pero puede resultar costoso desde el punto de vista informático para grandes conjuntos de datos.

Vecino más próximo aproximado (RNA):

La RNA es una variante del algoritmo del vecino más próximo cuyo objetivo es encontrar vecinos cercanos aproximados en lugar de vecinos exactos.
Se utiliza cuando el conjunto de datos es muy grande y la búsqueda de los vecinos más próximos exactos es costosa o inviable desde el punto de vista informático.
Los algoritmos RNA sacrifican precisión a cambio de velocidad y eficacia.
Utilizan técnicas como el hashing sensible a la localidad (LSH) o estructuras basadas en árboles para encontrar rápidamente los vecinos más próximos aproximados.
Los algoritmos RNA buscan múltiples particiones basadas en el vector de consulta para mitigar la pérdida de precisión.
Los algoritmos RNA son útiles en situaciones en las que un resultado aproximado es suficiente y el conjunto de datos es demasiado grande para la búsqueda exacta de vecinos más próximos.

K-Nearest Neighbors (KNN):

KNN es una extensión del algoritmo del vecino más cercano que considera los K vecinos más cercanos en lugar de sólo uno.
Funciona identificando los K puntos de datos más similares en el espacio de características, donde la similitud se mide utilizando una función de distancia elegida.
La clase o el valor del punto de consulta se determina por la clase mayoritaria o el valor medio de sus K vecinos más próximos.
KNN es un algoritmo no paramétrico y puede utilizarse tanto para tareas de clasificación como de regresión.
La elección de K es importante y puede influir en el rendimiento y la generalización del algoritmo.

Las principales diferencias entre estos algoritmos son:

NN considera sólo el vecino más cercano, mientras que KNN considera K vecinos más cercanos.
ANN se centra en encontrar vecinos más cercanos aproximados de forma eficiente, sacrificando algo de precisión en favor de la velocidad.
KNN es un algoritmo más general que puede utilizarse tanto para la clasificación como para la regresión, mientras que NN y ANN se utilizan principalmente para la búsqueda de vecinos más cercanos.

Básicamente, NN encuentra el único vecino más cercano, ANN encuentra vecinos más cercanos aproximados de forma eficiente, y KNN considera K vecinos más cercanos para tareas de clasificación o regresión.

Motivación de los vecinos más cercanos

El vecino más próximo es un concepto fundamental en el aprendizaje automático y la ciencia de datos, utilizado en diversas aplicaciones como el reconocimiento de imágenes, el procesamiento del lenguaje natural y los sistemas de recomendación. Estos algoritmos utilizan vectores de consulta para representar las peticiones de búsqueda, que luego se comparan con los puntos de datos del conjunto de datos para encontrar los más similares. La motivación de los algoritmos de Vecino más Cercano es encontrar los puntos de datos más similares a un punto de consulta dado, lo que puede utilizarse para clasificación, regresión y otras tareas. Sin embargo, a medida que los conjuntos de datos crecen en tamaño y dimensionalidad, la búsqueda exacta del vecino más próximo se convierte en un reto cada vez mayor. El coste computacional de comprobar cada punto de datos en un gran conjunto de datos puede ser prohibitivo, lo que convierte a ANNS en una valiosa solución. ANNS permite encontrar de forma eficiente puntos de datos similares sin necesidad de realizar una búsqueda exhaustiva, lo que posibilita aplicaciones de aprendizaje automático escalables y eficaces.

Mecánica de los vecinos más próximos aproximados

Los algoritmos de búsqueda de vecinos más próximos (RNA) funcionan mapeando puntos de datos en un espacio de alta dimensión e identificando rápidamente los puntos más cercanos a un punto de consulta. La clave de la eficacia de ANN reside en el uso de algoritmos como el hashing sensible a la localidad (LSH), que coloca elementos similares en el mismo cubo, reduciendo así el tiempo de búsqueda de forma significativa. A diferencia de los métodos de búsqueda exhaustiva, que evalúan cada dos puntos del conjunto de datos, la RNA emplea un enfoque más eficiente. Este enfoque suele implicar métodos basados en grafos, en los que los puntos de datos son nodos de un grafo, y la búsqueda de los vecinos más próximos se convierte en un problema de búsqueda de caminos dentro de este grafo. La mecánica de la búsqueda RNA implica varios componentes clave, como el preprocesamiento de datos, la creación de índices y la ejecución de consultas.

¿Cuándo utilizar la búsqueda aproximada del vecino más próximo?

Las técnicas de búsqueda aproximada del vecino más próximo encuentran aplicación en diversos campos, como los sistemas de recomendación, el reconocimiento de imágenes y audio, el procesamiento del lenguaje natural (NLP) y la generación aumentada de recuperación (RAG). Las búsquedas vectoriales son cruciales en estas aplicaciones, ya que permiten recuperar eficazmente elementos similares basándose en sus representaciones vectoriales. Los métodos ANNS pueden proporcionar soluciones aproximadas que siguen siendo lo suficientemente precisas para muchas aplicaciones, incluso cuando se trata de grandes conjuntos de datos.

Algoritmos comunes de ANNS

Los algoritmos ANNS utilizan diversas estructuras de datos y algoritmos de aproximación al vecino más cercano diseñados para optimizar el proceso de búsqueda. Algunos algoritmos ANNS populares son los árboles KD, locality-sensitive hashing (LSH) y product quantization. Los KD-trees se suelen utilizar en espacios de baja dimensión, mientras que los LSH se prefieren para espacios de alta dimensión. La cuantificación de productos es una técnica que divide el espacio de características en subespacios y comprime cada subespacio en un libro de códigos pequeño.

El conjunto de datos se divide en una estructura arborescente en árboles KD, donde cada nodo representa una región de puntos. El algoritmo recorre el árbol durante el proceso de búsqueda, comprobando las zonas más cercanas al punto de consulta. En cambio, LSH agrupa los puntos similares en el mismo cubo, lo que permite recuperar rápidamente los vecinos más próximos aproximados. La cuantificación del producto comprueba los códigos de cada subespacio para encontrar el vecino más próximo aproximado.

La eficacia con la que los algoritmos ANNS pueden encontrar al vecino más próximo aproximado los hace populares en diversas aplicaciones. En los sistemas de recomendación, los algoritmos ANNS pueden utilizarse para encontrar artículos o usuarios similares de forma eficiente. Los algoritmos ANNS pueden ayudar a encontrar imágenes y sonidos coincidentes en el reconocimiento de imágenes y audio. En el procesamiento del lenguaje natural, los algoritmos ANNS pueden encontrar documentos o frases similares.

Elegir el algoritmo ANNS adecuado

La elección de los algoritmos ANNS adecuados depende de varios factores, como el tamaño y la dimensionalidad del conjunto de datos, el nivel de precisión deseado y los recursos informáticos disponibles. Algunos de los algoritmos ANNS más conocidos son los árboles KD, el hashing sensible a la localidad (LSH) y la cuantificación de productos. Los KD-trees son adecuados para datos de baja dimensión y consultas basadas en la distancia euclidiana, mientras que los LSH son preferibles para datos de alta dimensión y consultas basadas en la similitud del coseno. La cuantificación de productos es una técnica que divide el espacio de características en subespacios y comprime cada subespacio en un libro de códigos pequeño. Cada uno de estos algoritmos tiene sus ventajas y desventajas, por lo que la selección del más adecuado requiere un examen minucioso de los requisitos específicos de la aplicación.

Implementación de ANNS en su aplicación

La implementación de ANNS en su aplicación implica varios pasos, incluyendo el preprocesamiento de datos, la creación de índices y la ejecución de consultas. El preprocesamiento de datos implica transformar los datos a un formato adecuado para ANNS, como normalizar los vectores o reducir la dimensionalidad. La creación de índices consiste en crear una estructura de datos que permita una búsqueda eficaz, como un árbol KD o una tabla hash. La ejecución de la consulta consiste en buscar en el índice los vecinos más próximos a un punto de consulta determinado mediante vectores de consulta. Varias bibliotecas y frameworks, como FAISS y Annoy, proporcionan implementaciones eficientes de algoritmos ANNS que pueden integrarse fácilmente en tu aplicación. Siguiendo estos pasos, puedes aprovechar la potencia de ANNS para construir sistemas de búsqueda de similitud escalables y eficientes.

¿Cuándo utilizar la búsqueda aproximada por vecino más cercano?

Cuando se trabaja con datos de gran dimensión, la búsqueda del vecino más próximo exacto puede resultar costosa desde el punto de vista computacional y no ser necesaria. En la búsqueda vectorial, los datos se representan en un espacio vectorial, lo que permite realizar búsquedas de similitud eficientes en conjuntos de datos de alta dimensión. En estos casos, la búsqueda aproximada del vecino más próximo reduce significativamente el tiempo de búsqueda al tiempo que proporciona un resultado razonablemente preciso. La búsqueda aproximada del vecino más próximo se utiliza habitualmente en aplicaciones como el reconocimiento de imágenes y del habla, los sistemas de recomendación y el procesamiento del lenguaje natural.

Importancia de la ANNS en la búsqueda vectorial

La búsqueda vectorial es un componente crítico de muchas aplicaciones de aprendizaje automático, en las que los datos se representan como vectores densos en espacios de alta dimensión. Las búsquedas vectoriales forman parte integral de estas aplicaciones, ya que permiten una recuperación rápida y precisa de elementos similares basándose en sus representaciones vectoriales. ANNS desempeña un papel crucial en la búsqueda vectorial al permitir la recuperación rápida y eficaz de vectores similares en conjuntos de datos masivos. Con ANNS, los desarrolladores pueden crear sistemas de búsqueda vectorial escalables y eficaces, capaces de manejar grandes volúmenes de datos y proporcionar resultados precisos en tiempo real. Esta capacidad es esencial para aplicaciones como los sistemas de recomendación, el reconocimiento de imágenes y audio, y el procesamiento del lenguaje natural, en los que la búsqueda de similitudes rápida y fiable es primordial.

Búsqueda aproximada por vecino más próximo en aplicaciones reales

La búsqueda aproximada del vecino más próximo (RNA) tiene numerosas aplicaciones en el mundo real. En el reconocimiento de imágenes, la RNA puede identificar rápidamente imágenes con características similares a partir de un amplio conjunto de datos. En los servicios de streaming de música, la RNA puede utilizarse para recomendar canciones que se ajusten a las preferencias del usuario, aunque no coincidan exactamente. En sanidad, las RNA ayudan a identificar rápidamente imágenes de diagnóstico similares a una consulta, lo que mejora la rapidez y precisión de los diagnósticos de los pacientes. La RNA también se utiliza en el procesamiento del lenguaje natural, los sistemas de recomendación y la Generación Aumentada de Recuperación (RAG). La eficacia de la búsqueda RNA en estas aplicaciones queda demostrada por su manejo de estructuras de datos complejas y su adaptabilidad a la evolución del tamaño de los datos.

Mejores prácticas para implementar la búsqueda por vecino más próximo aproximado

La implementación de la búsqueda aproximada por vecino más próximo (RNA) requiere una cuidadosa consideración de varios factores. En primer lugar, es esencial elegir el algoritmo RNA adecuado para el caso de uso específico. Los distintos algoritmos, como LSH y KD-trees, tienen sus ventajas y desventajas, y para seleccionar el adecuado hay que tener muy en cuenta los requisitos específicos de la aplicación. En segundo lugar, el preprocesamiento de datos es crucial para la búsqueda de RNA. Esto implica transformar los datos en un formato adecuado para la RNA, como normalizar los vectores o reducir la dimensionalidad. En tercer lugar, la creación de índices es un paso fundamental en la búsqueda de RNA. Se trata de crear una estructura de datos que permita una búsqueda eficiente, como un árbol KD o una tabla hash. Por último, la ejecución de la consulta consiste en buscar en el índice los vecinos más próximos a un punto de consulta determinado.

Futuro de la búsqueda de vecinos más próximos aproximados

El futuro de la búsqueda aproximada por vecino más próximo (RNA) es prometedor, con investigaciones y desarrollos en curso en este campo. Un área de investigación es el desarrollo de algoritmos RNA más eficientes que puedan manejar conjuntos de datos aún más grandes y complejos. Otra área de investigación es la aplicación de la búsqueda RNA en campos emergentes, como los vehículos autónomos y la robótica. Además, se espera que el creciente uso de la búsqueda vectorial en diversas aplicaciones impulse la demanda de algoritmos de RNA más eficientes y escalables. A medida que el campo siga evolucionando, es de esperar que veamos más aplicaciones innovadoras de la búsqueda de RNA en diversos sectores y ámbitos.

Resumen de la búsqueda por vecino más próximo aproximado

En conclusión, los algoritmos de vecindad más próxima aproximada son herramientas valiosas para la ciencia de datos y el aprendizaje automático. Utilizando estructuras de datos y algoritmos inteligentes, los ANNS pueden proporcionar soluciones computacionalmente viables que siguen siendo lo suficientemente precisas para muchas aplicaciones. Además, las técnicas ANNS son ampliamente aplicables y permiten una búsqueda eficiente del vecino más próximo en grandes conjuntos de datos.

Contenido

Comienza Gratis, Escala Fácilmente

Prueba la base de datos vectorial completamente gestionada construida para tus aplicaciones GenAI.

Prueba Zilliz Cloud Gratis

Comparte este artículo

Recursos relacionados

DiskANN: una solución ANNS basada en disco

con alta recuperación y alto QPS en un conjunto de datos a escala de miles de millones.

Búsqueda aproximada de vecinos más próximos basada en grafos de proximidad

¿Cómo funciona la RNA basada en PG?

Zilliz triunfa en el reto de búsqueda de RNA a escala de miles de millones de NeurIPS 2021

El equipo de investigación de Zilliz ha obtenido el primer puesto.