HumanSignal ofrece fuentes de datos y etiquetado más rápidos con Milvus y AWS

Latencia superbaja
en la búsqueda semántica
Escalabilidad mejorada
en el almacenamiento de datos vectoriales
Más rápido y fiable
en la indexación de imágenes
Mejor experiencia de usuario
con un proceso operativo racionalizado
Acerca de HumanSignal
HumanSignal, anteriormente Heartex, potencia el aprendizaje automático y el desarrollo de inteligencia artificial a través de su plataforma insignia de etiquetado de datos de código abierto, Label Studio. Desde su creación en 2019 por un equipo de científicos de datos e ingenieros, HumanSignal ha abordado el desafío crítico de la precisión del modelo que surge de datos de entrenamiento deficientes. Label Studio fue creado para permitir a los expertos en el dominio dentro de las organizaciones anotar y gestionar los datos de entrenamiento de manera eficiente. La plataforma hace hincapié en interfaces fáciles de usar, adaptabilidad y procesos de colaboración para reforzar las capacidades internas de etiquetado de datos, mejorando así significativamente la precisión de los modelos. Como la plataforma de etiquetado de datos más popular en GitHub, Label Studio ha apoyado a más de 200.000 usuarios en el etiquetado de más de 250 millones de elementos de datos, sirviendo como una herramienta fundamental en las estrategias de producción ML/AI de empresas líderes como Bombora, Geberit, Outreach, Trivago, Wyze y Zendesk, entre otras.
Los retos: Construir una nueva forma de navegar y etiquetar lagos de datos
Uno de los principales retos a la hora de etiquetar datos consiste en elegir los datos correctos que se van a etiquetar. Muchos proyectos de IA cuentan con enormes lagos de datos repletos de datos no estructurados, y puede resultar complicado clasificar los numerosos elementos del lago de datos para elegir los más relevantes e importantes para incluirlos en un conjunto de datos de entrenamiento o de verdad. Los métodos tradicionales, como la heurística básica y las consultas SQL, llevan mucho tiempo y son manuales, y normalmente no consiguen identificar los elementos de mayor impacto necesarios para los conjuntos de entrenamiento de alta calidad.
En consecuencia, muchos equipos de ciencia de datos recurren a muestras de datos más pequeñas y menos representativas, lo que degrada la precisión y eficacia de los modelos de ML/AI. Además, estas limitaciones ralentizan el proceso de desarrollo de modelos, impidiendo el progreso y la capacidad de aportar soluciones avanzadas de IA a un entorno tecnológico competitivo y en rápida evolución.
Debido a estos retos, HumanSignal comenzó a trabajar en una nueva e importante función de Label Studio Enterprise diseñada para aliviar muchos de estos problemas: Data Discovery.
Las soluciones: Mejora del descubrimiento de datos con Milvus y AWS
En el proceso de creación de esta nueva función de descubrimiento de datos, HumanSignal recurrió a Milvus, la oferta de código abierto de Zilliz, por su capacidad única para admitir una amplia gama de algoritmos de indexación, una característica que no suelen ofrecer otros proveedores de bases de datos vectoriales. Esta flexibilidad permitió a HumanSignal mejorar significativamente su funcionalidad de búsqueda semántica dentro de su herramienta de descubrimiento de datos, pasando por varios algoritmos de indexación: de Hierarchical Navigable Small World (HNSW) para una eficiencia inicial a DiskANN para un uso optimizado de la memoria y, finalmente, a IVF_SQ8 para mejorar el rendimiento.
El despliegue de Milvus en Amazon Web Services (AWS) utilizando el Elastic Kubernetes Service (EKS) amplió aún más la eficacia de esta solución. Utilizando el gráfico de timón de Milvus, HumanSignal integró sin problemas esta robusta base de datos vectorial en su infraestructura en la nube, aprovechando la escalabilidad y fiabilidad de AWS para dar soporte a sus necesidades de procesamiento de datos a gran escala. Esta combinación estratégica agilizó el proceso de implementación y garantizó que la herramienta Data Discovery pudiera administrar y procesar con eficacia grandes cantidades de datos para los usuarios de Label Studio.
Los resultados: Un etiquetado de datos agilizado y un desarrollo de modelos mejorado
La integración de Milvus en la función Data Discovery de HumanSignal ha sido fundamental para lograr una latencia superbaja en las operaciones de búsqueda semántica. Esta mejora ha permitido a HumanSignal ofrecer un nuevo proceso racionalizado para que los usuarios identifiquen subconjuntos de datos relevantes para el etiquetado, haciendo que el proceso sea mucho más rápido que los métodos de búsqueda tradicionales. Además, Milvus ha mejorado la velocidad y fiabilidad de la indexación de imágenes, un área crucial que anteriormente estaba plagada de dificultades. Este avance significa que los usuarios de Data Discovery ahora pueden disfrutar de un procesamiento de imágenes más rápido y fiable, lo que ha aumentado significativamente la calidad y precisión de sus conjuntos de entrenamiento, beneficiando directamente el rendimiento del modelo ML/AI.
La pila Zilliz Milvus y AWS ha sido crucial para HumanSignal al proporcionar una plataforma escalable y sólida para el almacenamiento de datos vectoriales. Abordó los desafíos inmediatos a los que se enfrentaban mientras creaban su función de descubrimiento de datos y ha posicionado a HumanSignal para la innovación y el crecimiento continuos en IA y ML, lo que subraya el poder transformador de combinar tecnologías de vanguardia en IA y la nube.