A HumanSignal oferece uma fonte de dados e rotulagem mais rápidas com Milvus e AWS

Latência super baixa
na pesquisa semântica
Escalabilidade melhorada
no armazenamento de dados vectoriais
Mais rápido e mais fiável
na indexação de imagens
Melhor experiência do utilizador
com um processo operacional simplificado
Sobre a HumanSignal
A HumanSignal, anteriormente Heartex, capacita o desenvolvimento de Aprendizado de Máquina e Inteligência Artificial por meio de sua principal plataforma de rotulagem de dados de código aberto, Label Studio. Desde a sua criação em 2019 por uma equipa de cientistas e engenheiros de dados, a HumanSignal tem abordado o desafio crítico da precisão do modelo decorrente de dados de treino abaixo do padrão. O Label Studio foi criado para permitir que especialistas de domínio dentro das organizações anotem e gerenciem dados de treinamento de forma eficiente. A plataforma enfatiza interfaces de fácil utilização, adaptabilidade e processos colaborativos para reforçar as capacidades internas de rotulagem de dados, melhorando assim significativamente a precisão do modelo. Como a plataforma de rotulagem de dados mais popular no GitHub, o Label Studio apoiou mais de 200.000 utilizadores na rotulagem de mais de 250 milhões de itens de dados, servindo como uma ferramenta fundamental nas estratégias de produção de ML/AI de empresas líderes como a Bombora, Geberit, Outreach, Trivago, Wyze e Zendesk, entre outras.
Os desafios: Construir uma nova maneira de navegar e rotular os lagos de dados
Um grande desafio na rotulagem de dados gira em torno da escolha das partes corretas de dados para rotular em primeiro lugar. Muitos projectos de IA têm enormes lagos de dados cheios de dados não estruturados, e pode ser um desafio classificar os muitos itens dentro do lago de dados para escolher aqueles que são mais relevantes e importantes para inclusão num conjunto de dados de formação ou de verdade. Os métodos tradicionais, como a heurística básica e as consultas SQL, são demorados e manuais e normalmente não conseguem identificar os itens mais impactantes necessários para conjuntos de formação de alta qualidade.
Consequentemente, muitas equipas de ciência de dados recorrem a amostras de dados mais pequenas e menos representativas, o que degrada a precisão e a eficácia dos modelos de ML/AI. Além disso, estas restrições abrandam o processo de desenvolvimento de modelos, impedindo o progresso e a capacidade de trazer soluções avançadas de IA para um ambiente tecnológico competitivo e em rápida evolução.
Devido a estes desafios, a HumanSignal começou a trabalhar numa nova e importante funcionalidade do Label Studio Enterprise, concebida para aliviar muitos destes problemas - a Descoberta de Dados.
As soluções: Melhorar a Descoberta de Dados com Milvus e AWS
No processo de criação desta nova funcionalidade de Descoberta de Dados, a HumanSignal recorreu à oferta de código aberto Milvus da Zilliz devido à sua capacidade única de suportar uma vasta gama de algoritmos de indexação - uma funcionalidade que não é habitualmente oferecida por outros fornecedores de bases de dados vectoriais. Essa flexibilidade permitiu que a HumanSignal aprimorasse significativamente a funcionalidade de pesquisa semântica na ferramenta de descoberta de dados, passando por vários algoritmos de indexação - de Hierarchical Navigable Small World (HNSW) para eficiência inicial a DiskANN para otimizar o uso da memória e, finalmente, a IVF_SQ8 para melhorar o desempenho.
A implantação do Milvus no Amazon Web Services (AWS) usando o Elastic Kubernetes Service (EKS) ampliou ainda mais a eficácia dessa solução. Utilizando o helm chart da Milvus, a HumanSignal integrou sem problemas esta robusta base de dados vetorial na sua infraestrutura de nuvem, tirando partido da escalabilidade e fiabilidade da AWS para suportar as suas necessidades de processamento de dados em grande escala. Essa combinação estratégica simplificou o processo de implantação e garantiu que a ferramenta Data Discovery pudesse gerenciar e processar com eficiência grandes quantidades de dados para os usuários do Label Studio.
Os resultados: Uma rotulagem de dados simplificada e um desenvolvimento de modelos melhorado
A integração do Milvus na funcionalidade de Descoberta de Dados da HumanSignal foi fundamental para alcançar uma latência super baixa nas operações de pesquisa semântica. Esta melhoria permitiu à HumanSignal oferecer um novo processo simplificado para os utilizadores identificarem subconjuntos de dados relevantes para rotulagem, tornando o processo muito mais rápido do que os métodos de pesquisa tradicionais. Além disso, o Milvus melhorou a velocidade e a fiabilidade da indexação de imagens, uma área crucial anteriormente repleta de desafios. Este avanço significa que os utilizadores da Descoberta de Dados podem agora desfrutar de um processamento de imagens mais rápido e fiável, o que aumentou significativamente a qualidade e a precisão dos seus conjuntos de treino, beneficiando diretamente o desempenho do modelo de ML/AI.
A pilha Zilliz Milvus e AWS tem sido crucial para a HumanSignal, fornecendo uma plataforma escalável e robusta para o armazenamento de dados vectoriais. Abordou os desafios imediatos que enfrentaram ao criar a sua funcionalidade de Data Discovery e posicionou a HumanSignal para a inovação e crescimento contínuos em IA e ML, sublinhando o poder transformador da combinação de tecnologias de ponta em IA e na Cloud.