Glossary
Vector Distance

O que é distância vetorial? Tudo o que você precisa saber

O que é distância vetorial? Tudo o que você precisa saber

As distâncias vetoriais são fundamentais em vários campos, como matemática, física, engenharia e ciência da computação. Elas medem grandezas físicas, analisam dados, identificam semelhanças e determinam relações entre vetores.

Este post fornecerá uma visão geral das distâncias vetoriais e suas aplicações em ciência de dados.

O que é distância vetorial?

A distância vetorial, uma métrica de distância ou medida de similaridade, é uma função matemática que quantifica a similaridade ou dissimilaridade entre dois vetores.

Esses vetores podem representar vários conjuntos de dados. Por outro lado, a distância vetorial ajuda a fornecer uma compreensão de quão próximos ou distantes os vetores estão no espaço de características.

Com isso em mente, as distâncias vetoriais são cruciais em vários algoritmos de machine learning, permitindo que esses algoritmos tomem decisões com base nas relações entre vetores.

Quais são as aplicações da distância vetorial em machine learning?

Nunca subestime o poder das distâncias vetoriais, especialmente em machine learning em vários domínios. A seguir estão algumas das aplicações das distâncias vetoriais em machine learning:

Clusterização—As distâncias vetoriais são úteis ao agrupar vetores semelhantes em clusters. Algoritmos como k-means, clusterização hierárquica e DBSCAN dependem da distância vetorial para determinar quais vetores pertencem ao mesmo cluster.
Classificação—Em algoritmos como a classificação k-nearest neighbors (kNN), as distâncias vetoriais determinam a classe de um novo vetor considerando seus k vizinhos mais próximos. Como resultado, a classe com mais vizinhos é atribuída a um novo vetor.
Processamento de linguagem natural—Em mineração de texto e NLP, as distâncias vetoriais podem calcular a similaridade entre documentos, realizar análise de sentimentos e clusterizar documentos de texto.
Pré-processamento de dados—As distâncias vetoriais são vitais nas etapas de pré-processamento de dados—como escalonamento de características, normalização e remoção de outliers—para preparar os dados para algoritmos de machine learning.
Redes neurais—No treinamento de redes neurais, as distâncias vetoriais são cruciais como funções de perda ou termos de regularização para incentivar certas relações entre vetores de saída e de destino.
Detecção de anomalias—Você pode detectar anomalias ou outliers medindo a distância dos vetores em relação a um cluster central ou a outros vetores. Vetores que estão muito distantes da maioria são considerados anomalias.
Redução de dimensionalidade—Técnicas como UMAP (uniform manifold approximation and projection) e t-SNE (t-distributed stochastic neighbor embedding) usam distâncias vetoriais para criar representações de baixa dimensionalidade de dados de alta dimensionalidade, preservando as distâncias par a par tanto quanto possível.

Em resumo, as distâncias vetoriais são fundamentais em muitas tarefas e aplicações de machine learning.

Portanto, escolher a distância vetorial apropriada é frequentemente crucial para o sucesso do algoritmo e sua capacidade de capturar as relações entre dados vetoriais.

Quais são as várias métricas de distância vetorial?

No campo de machine learning, uma variedade de métricas de distância está disponível para avaliar a dissimilaridade ou similaridade entre dois vetores. Tenha sempre em mente que a métrica de distância adequada depende do tipo de dados e do problema específico que você está tentando resolver. A seguir estão algumas métricas de distância comuns.

Distância euclidiana—A distância vetorial é amplamente utilizada, medindo a distância em linha reta entre dois vetores no espaço euclidiano. Sua formulação envolve tirar a raiz quadrada da soma das variâncias ao quadrado entre elementos correspondentes nos vetores.
Distância de Manhattan (distância de quarteirão)—Ela calcula a distância entre dois vetores somando as disparidades absolutas de seus componentes correspondentes.
Similaridade de cosseno—Isso determina o cosseno do ângulo formado por dois vetores, significando assim sua semelhança em termos de direção. Frequentemente, ela mede a similaridade entre documentos textuais, em que cada documento é representado como um vetor contendo frequências de palavras.
Coeficiente de correlação de Pearson—Ele quantifica a correlação linear entre dois vetores, indicando o grau em que eles se ajustam a uma relação linear. É popularmente conhecido por calcular a similaridade entre dados de valores contínuos.
Distância do movedor de terra (EMD)—Ela mede o custo mínimo de transformar uma distribuição em outra. É popularmente aplicada em processamento de imagens e visão computacional.
Similaridade de Jaccard—Seu cálculo envolve obter a razão entre o tamanho da interseção de dois conjuntos e o tamanho de sua união combinada.
Distância de Hamming—Ela normalmente conta as posições nas quais os elementos correspondentes diferem.

Resumindo, diferentes métricas enfatizam diferentes aspectos da similaridade. Portanto, uma escolha adequada pode impactar o desempenho de um algoritmo de aprendizado de máquina.

Bibliotecas de software populares que aproveitam distâncias vetoriais

A seguir, vejamos algumas das bibliotecas de software populares que oferecem vários recursos e capacidades para trabalhar com distâncias vetoriais.

Esses bancos de dados vetoriais e bibliotecas lidam com busca por similaridade, agrupamento e outras tarefas que envolvem dados de alta dimensão.

Milvus

Milvus é uma biblioteca de software Zilliz de código aberto que visa fornecer um banco de dados vetorial de alto desempenho para busca por similaridade e aplicações impulsionadas por IA. Ela oferece armazenamento, indexação e consulta eficientes de vetores de alta dimensão.

Milvus funciona bem com busca de imagens, sistemas de recomendação e tarefas de processamento de linguagem natural. Ele fornece métricas de distância L2 (euclidiana), Produto Interno (IP) e cosseno.

Para trabalhar com Milvus, instale o banco de dados e insira vetores. Em seguida, crie um índice e realize consultas de busca por similaridade usando sua API ou SDK.

FAISS (Facebook AI Similarity Search)

FAISS é uma biblioteca de alto desempenho criada pela equipe de AI Research (FAIR) do Facebook para buscas por similaridade e agrupamento eficientes de grandes conjuntos de dados. Ela lida com vetores de alta dimensão comuns em tarefas como reconhecimento de imagens, processamento de linguagem natural e outras aplicações de aprendizado de máquina. Como resultado, a maioria das organizações e empresas de pesquisa está gradualmente adotando FAISS para análise de dados em larga escala e tarefas de aprendizado de máquina.

Annoy

Annoy é uma biblioteca C++ com binding Python para uma busca aproximada de vizinhos mais próximos. Ela usa vizinhos aleatórios para construir estruturas de índice de forma eficiente para uma busca rápida por similaridade em espaços de alta dimensão.

ScaNN (Scalable Nearest Neighbors)

ScaNN é uma biblioteca baseada em TensorFlow para uma busca aproximada de vizinhos mais próximos. Ela oferece aceleração por GPU e oferece suporte a diferentes métodos de indexação. ScaNN também está disponível como uma opção de índice no Milvus.

NMSLIB (Nonmetric Space Library)

NMSLIB é uma coleção de algoritmos eficientes e de alta qualidade para busca em espaços não métricos e métricos. Ele oferece suporte a vários métodos de indexação e métricas de busca e distância para uma busca por similaridade.

PQ-Tree

PQ-Tree é uma biblioteca para busca por similaridade eficiente usando quantização de produto. Ela acelera os cálculos de distância em espaços de alta dimensionalidade.

PANNs (Product ANN Search)

PANNs é uma biblioteca eficiente projetada para uma busca aproximada de vizinhos mais próximos, particularmente adequada para recomendações de produtos e aplicações de e-commerce. Em conclusão, as bibliotecas de software têm muitos recursos e capacidades para trabalhar com bancos de dados vetoriais e buscas semelhantes. Escolha a biblioteca que atenda aos seus requisitos dependendo de suas necessidades específicas, características do conjunto de dados e recursos de hardware.

Perguntas Frequentes sobre Distância Vetorial

Qual É a Fórmula da Distância para um Vetor?

A fórmula da distância para um vetor calcula o comprimento de um vetor em um espaço euclidiano. Para um vetor V = (v₁, v₂, ..., vₙ), você pode calcular a fórmula da distância conforme visto abaixo: Distância (V) = √(v₁² + v₂² + ... + vₙ²).

Em outras palavras, ela representa a raiz quadrada da soma dos quadrados de cada elemento dentro do vetor.

Como Você Encontra a Distância Entre V e U?

Para calcular a distância entre dois vetores V e U, você pode usar a fórmula da distância euclidiana conforme mostrado abaixo:

Distância (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

Neste contexto, (v₁, v₂, ..., vₙ) representam os constituintes do vetor V, enquanto (u₁, u₂, ..., uₙ) denotam os elementos do vetor U.

Qual É a Distância L2 Entre Dois Vetores?

A distância L2 entre dois vetores, também conhecida como distância euclidiana ou norma euclidiana, mede a distância em linha reta entre os dois vetores no espaço euclidiano. Você pode calcular a distância L2 usando a seguinte fórmula: Distância L2 (V, U) = √((v₁ - u₁)² + (v₂ - u₂)² + ... + (vₙ - uₙ)²).

Como Você Encontra a Distância Entre Dois Vetores de Posição?

Aplique a mesma fórmula da distância euclidiana descrita anteriormente para encontrar a distância entre dois vetores de posição P e Q. Se o vetor P = (x₁, y₁, z₁) e o vetor Q = (x₂, y₂, z₂), então Distância (P, Q) = √((x₁ - x₂)² + (y₁ - y₂)² + (z₁ - z₂)²). Esta fórmula fornece a distância entre os vetores representados por P e Q em um espaço 3D.

Conteúdo

Comece grátis, escale facilmente

Experimente o banco de dados totalmente gerenciado, construído para seus aplicativos GenAI.

Experimente o Zilliz Cloud grátis

Compartilhar este artigo

Recursos relacionados

DiskANN: Uma solução ANNS baseada em disco

com elevada recuperação e elevado QPS num conjunto de dados à escala de milhares de milhões

Pesquisa do vizinho mais próximo com base em gráficos de proximidade

Como funciona o ANNS baseado no PG?

Pesquisa de semelhanças vectoriais com Milvus

Saiba como criar um motor de pesquisa de semelhança semântica