FARGO: Ricerca rapida del prodotto interno massimo tramite multi-probing globale

01/01/2023

Comprendere la ricerca del massimo prodotto interno: dalla teoria alla pratica

Con il continuo progresso del machine learning e dell'intelligenza artificiale, la capacità di effettuare ricerche in modo efficiente all'interno di spazi vettoriali ad alta dimensionalità è diventata sempre più cruciale. Una sfida fondamentale in questo ambito è il problema della ricerca del massimo prodotto interno (Maximum Inner Product Search, MIPS), che consiste nel trovare vettori in un dataset che massimizzino il loro prodotto interno con un dato vettore di query. Questa operazione è centrale per numerose applicazioni, tra cui sistemi di raccomandazione, predizione di etichette multi-classe, recupero di elementi simili, structural SVM e deep learning.

Gli approcci tradizionali a MIPS basati su alberi di partizionamento dello spazio diventano esponenzialmente più lenti all'aumentare della dimensionalità, rendendoli impraticabili per le applicazioni moderne, che spesso gestiscono centinaia o migliaia di dimensioni. Sebbene il Locality-Sensitive Hashing (LSH) si sia dimostrato efficace per la ricerca approssimata del vicino più prossimo, non può essere applicato direttamente a MIPS a causa delle proprietà peculiari della similarità basata sul prodotto interno. La necessità di una soluzione efficiente e scalabile per MIPS non è mai stata così urgente, poiché le organizzazioni elaborano dataset ad alta dimensionalità e su scala sempre più ampia.

Questo articolo introduce FARGO, un nuovo framework che rivoluziona il modo in cui affrontiamo il problema MIPS. Presentiamo un'analisi completa delle attuali soluzioni MIPS, dei loro limiti e di come FARGO superi queste sfide attraverso tecniche innovative, tra cui il global multi-probing e la trasformazione random XBOX. Il nostro framework non solo raggiunge accuratezza ed efficienza superiori rispetto ai metodi esistenti, ma fornisce anche soluzioni pratiche per applicazioni reali che gestiscono dati ad alta dimensionalità su larga scala.

Ottieni il Whitepaper