HumanSignal accélère le sourcing et l'étiquetage des données avec Milvus et AWS

Très faible latence
dans la recherche sémantique
Amélioration de l'évolutivité
dans le stockage des données vectorielles
Plus rapide et plus fiable
dans l'indexation des images
Une meilleure expérience pour l'utilisateur
avec un processus opérationnel rationalisé
A propos de HumanSignal
HumanSignal, anciennement Heartex, favorise le développement de l'apprentissage automatique et de l'intelligence artificielle grâce à sa plateforme phare d'étiquetage des données en open-source, Label Studio. Depuis sa création en 2019 par une équipe de scientifiques et d'ingénieurs des données, HumanSignal a relevé le défi critique de la précision des modèles découlant de données d'entraînement de qualité inférieure. Label Studio a été créé pour permettre aux experts du domaine au sein des organisations d'annoter et de gérer efficacement les données de formation. La plateforme met l'accent sur les interfaces conviviales, l'adaptabilité et les processus collaboratifs afin de renforcer les capacités internes d'étiquetage des données et d'améliorer ainsi de manière significative la précision des modèles. En tant que plateforme d'étiquetage de données la plus populaire sur GitHub, Label Studio a aidé plus de 200 000 utilisateurs à étiqueter plus de 250 millions d'éléments de données, servant d'outil pivot dans les stratégies de production ML/AI d'entreprises de premier plan telles que Bombora, Geberit, Outreach, Trivago, Wyze, et Zendesk, entre autres.
Les défis : Construire une nouvelle façon de naviguer et d'étiqueter les lacs de données
L'un des principaux défis de l'étiquetage des données consiste à choisir les bons éléments de données à étiqueter en premier lieu. De nombreux projets d'IA disposent de lacs de données massifs remplis de données non structurées, et il peut être difficile de trier les nombreux éléments du lac de données pour choisir ceux qui sont les plus pertinents et les plus importants à inclure dans un ensemble de données d'entraînement ou de vérité de terrain. Les méthodes traditionnelles, telles que l'heuristique de base et les requêtes SQL, sont longues et manuelles et ne parviennent généralement pas à identifier les éléments les plus significatifs nécessaires à l'élaboration d'ensembles de données de formation de haute qualité.
Par conséquent, de nombreuses équipes de science des données ont recours à des échantillons de données plus petits et moins représentatifs, ce qui nuit à la précision et à l'efficacité des modèles de ML/AI. En outre, ces contraintes ralentissent le processus de développement des modèles, entravant les progrès et la capacité à apporter des solutions d'IA avancées dans un environnement technologique compétitif et en évolution rapide.
En raison de ces défis, HumanSignal a commencé à travailler sur une nouvelle fonctionnalité majeure de Label Studio Enterprise conçue pour atténuer bon nombre de ces problèmes - Data Discovery.
Les solutions : Améliorer la découverte de données avec Milvus et AWS
Dans le cadre de l'élaboration de cette nouvelle fonctionnalité de découverte de données, HumanSignal s'est tourné vers Milvus, l'offre open source de Zilliz, en raison de sa capacité unique à prendre en charge un large éventail d'algorithmes d'indexation - une fonctionnalité qui n'est pas couramment proposée par d'autres fournisseurs de bases de données vectorielles. Cette flexibilité a permis à HumanSignal d'améliorer considérablement sa fonctionnalité de recherche sémantique dans son outil de découverte de données, en passant par divers algorithmes d'indexation - de Hierarchical Navigable Small World (HNSW) pour une efficacité initiale à DiskANN pour une utilisation optimisée de la mémoire, et enfin à IVF_SQ8 pour des performances améliorées.
Le déploiement de Milvus sur Amazon Web Services (AWS) à l'aide du service Elastic Kubernetes (EKS) a encore amplifié l'efficacité de cette solution. En utilisant le diagramme à barre de Milvus, HumanSignal a intégré en toute transparence cette base de données vectorielle robuste dans son infrastructure cloud, en tirant parti de l'évolutivité et de la fiabilité d'AWS pour prendre en charge ses besoins en matière de traitement de données à grande échelle. Cette combinaison stratégique a permis de rationaliser le processus de déploiement et de s'assurer que l'outil Data Discovery pouvait gérer et traiter efficacement de grandes quantités de données pour les utilisateurs de Label Studio.
Les résultats : Un étiquetage des données simplifié et un développement de modèles amélioré
L'intégration de Milvus dans la fonction de découverte de données de HumanSignal a été essentielle pour obtenir une latence très faible dans les opérations de recherche sémantique. Cette amélioration a permis à HumanSignal d'offrir aux utilisateurs un nouveau processus rationalisé d'identification des sous-ensembles de données pertinents pour l'étiquetage, ce qui rend le processus beaucoup plus rapide que les méthodes de recherche traditionnelles. En outre, Milvus a amélioré la vitesse et la fiabilité de l'indexation des images, un domaine crucial qui posait auparavant de nombreux problèmes. Cette avancée signifie que les utilisateurs de Data Discovery peuvent désormais bénéficier d'un traitement d'images plus rapide et plus fiable, ce qui a considérablement augmenté la qualité et la précision de leurs ensembles d'entraînement, bénéficiant directement aux performances des modèles de ML/AI.
La pile Zilliz Milvus et AWS a été cruciale pour HumanSignal en fournissant une plateforme évolutive et robuste pour le stockage des données vectorielles. Elle a permis de relever les défis immédiats auxquels HumanSignal a été confronté lors de la création de sa fonction de découverte de données et de se positionner en vue d'une innovation et d'une croissance continues en matière d'IA et de ML, soulignant le pouvoir de transformation de la combinaison de technologies de pointe en matière d'IA et de Cloud.