HumanSignal offre un approvvigionamento e un'etichettatura dei dati più rapidi con Milvus e AWS

Latenza bassissima
nella ricerca semantica
Scalabilità migliorata
nell'archiviazione di dati vettoriali
Più veloce e più affidabile
nell'indicizzazione delle immagini
Migliore esperienza utente
con un processo operativo semplificato
Informazioni su HumanSignal
HumanSignal, ex Heartex, potenzia lo sviluppo del Machine Learning e dell'Intelligenza Artificiale attraverso la sua piattaforma di etichettatura dei dati open-source di punta, Label Studio. Sin dall'inizio, nel 2019, un team di data scientist e ingegneri ha affrontato la sfida critica dell'accuratezza dei modelli derivante da dati di addestramento insufficienti. Label Studio è stato creato per consentire agli esperti di dominio delle organizzazioni di annotare e gestire in modo efficiente i dati di formazione. La piattaforma enfatizza le interfacce di facile utilizzo, l'adattabilità e i processi collaborativi per rafforzare le capacità interne di etichettatura dei dati, migliorando così in modo significativo la precisione dei modelli. Come piattaforma di etichettatura dei dati più popolare su GitHub, Label Studio ha supportato oltre 200.000 utenti nell'etichettatura di oltre 250 milioni di dati, fungendo da strumento fondamentale nelle strategie di produzione ML/AI di aziende leader come Bombora, Geberit, Outreach, Trivago, Wyze e Zendesk, tra le altre.
Le sfide: Costruire un nuovo modo di navigare ed etichettare i laghi di dati
Una delle principali sfide dell'etichettatura dei dati riguarda la scelta dei dati corretti da etichettare. Molti progetti di intelligenza artificiale dispongono di enormi data lake pieni di dati non strutturati e può essere impegnativo selezionare i molti elementi all'interno del data lake per scegliere quelli più rilevanti e importanti da includere in un set di dati di addestramento o di verità. I metodi tradizionali, come l'euristica di base e le query SQL, sono lunghi e manuali e di solito non riescono a individuare gli elementi di maggiore impatto necessari per ottenere set di formazione di alta qualità.
Di conseguenza, molti team di data science ricorrono a campioni di dati più piccoli e meno rappresentativi, con conseguente peggioramento dell'accuratezza e dell'efficacia dei modelli ML/AI. Inoltre, tali vincoli rallentano il processo di sviluppo dei modelli, ostacolando i progressi e la capacità di portare soluzioni di IA avanzate in un ambiente tecnologico competitivo e in rapida evoluzione.
A causa di queste sfide, HumanSignal ha iniziato a lavorare su una nuova importante funzione di Label Studio Enterprise progettata per alleviare molti di questi problemi: Data Discovery.
Le soluzioni: Migliorare il Data Discovery con Milvus e AWS
Nel processo di costruzione di questa nuova funzione di Data Discovery, HumanSignal si è rivolta a Milvus, l'offerta open source di Zilliz, per la sua capacità unica di supportare un'ampia gamma di algoritmi di indicizzazione, una caratteristica non comunemente offerta da altri fornitori di database vettoriali. Questa flessibilità ha permesso a HumanSignal di migliorare in modo significativo la funzionalità di ricerca semantica all'interno del proprio strumento di Data Discovery, passando da vari algoritmi di indicizzazione: da Hierarchical Navigable Small World (HNSW) per l'efficienza iniziale a DiskANN per ottimizzare l'uso della memoria e infine a IVF_SQ8 per migliorare le prestazioni.
La distribuzione di Milvus su Amazon Web Services (AWS) utilizzando Elastic Kubernetes Service (EKS) ha ulteriormente amplificato l'efficacia di questa soluzione. Utilizzando l'helm chart di Milvus, HumanSignal ha integrato senza problemi questo robusto database vettoriale nella propria infrastruttura cloud, sfruttando la scalabilità e l'affidabilità di AWS per supportare le proprie esigenze di elaborazione dati su larga scala. Questa combinazione strategica ha semplificato il processo di distribuzione e ha garantito che lo strumento Data Discovery potesse gestire ed elaborare in modo efficiente grandi quantità di dati per gli utenti di Label Studio.
I risultati: Un'etichettatura dei dati semplificata e un migliore sviluppo dei modelli
L'integrazione di Milvus nella funzione Data Discovery di HumanSignal è stata fondamentale per ottenere una latenza bassissima nelle operazioni di ricerca semantica. Questo miglioramento ha permesso a HumanSignal di offrire agli utenti un nuovo processo semplificato per identificare sottoinsiemi di dati rilevanti da etichettare, rendendo il processo molto più veloce rispetto ai metodi di ricerca tradizionali. Inoltre, Milvus ha migliorato la velocità e l'affidabilità dell'indicizzazione delle immagini, un'area cruciale in precedenza piena di problemi. Questo progresso significa che gli utenti di Data Discovery possono ora usufruire di un'elaborazione delle immagini più rapida e affidabile, che ha incrementato in modo significativo la qualità e l'accuratezza dei loro set di addestramento, a diretto vantaggio delle prestazioni dei modelli ML/AI.
Lo stack Zilliz Milvus e AWS è stato fondamentale per HumanSignal, in quanto ha fornito una piattaforma scalabile e robusta per l'archiviazione dei dati vettoriali. Ha affrontato le sfide immediate che si sono presentate durante la creazione della funzione di Data Discovery e ha posizionato HumanSignal per una continua innovazione e crescita nell'AI e nel ML, sottolineando il potere trasformativo della combinazione di tecnologie all'avanguardia nell'AI e nel Cloud.