HumanSignal bietet schnellere Datenbeschaffung und -kennzeichnung mit Milvus und AWS

Super niedrige Latenzzeit
bei der semantischen Suche
Verbesserte Skalierbarkeit
bei der Speicherung von Vektordaten
Schneller und zuverlässiger
bei der Indizierung von Bildern
Bessere Benutzererfahrung
mit einem gestrafften Betriebsablauf
Über HumanSignal
HumanSignal, ehemals Heartex, unterstützt die Entwicklung von maschinellem Lernen und künstlicher Intelligenz durch seine führende Open-Source-Datenetikettierungsplattform, Label Studio. Seit seiner Gründung im Jahr 2019 durch ein Team von Datenwissenschaftlern und Ingenieuren hat HumanSignal die kritische Herausforderung der Modellgenauigkeit angegangen, die sich aus minderwertigen Trainingsdaten ergibt. Label Studio wurde entwickelt, um Domänenexperten in Unternehmen die Möglichkeit zu geben, Trainingsdaten effizient zu annotieren und zu verwalten. Die Plattform legt den Schwerpunkt auf benutzerfreundliche Schnittstellen, Anpassungsfähigkeit und kollaborative Prozesse, um die internen Fähigkeiten zur Datenbeschriftung zu stärken und damit die Modellgenauigkeit deutlich zu verbessern. Als beliebteste Datenbeschriftungsplattform auf GitHub hat Label Studio mehr als 200.000 Nutzer bei der Beschriftung von mehr als 250 Millionen Datenelementen unterstützt und dient als zentrales Werkzeug in den ML/AI-Strategien führender Unternehmen wie Bombora, Geberit, Outreach, Trivago, Wyze und Zendesk, um nur einige zu nennen.
The Challenges: Ein neuer Weg zur Navigation und Kennzeichnung von Data Lakes
Eine große Herausforderung bei der Datenbeschriftung besteht darin, die richtigen Daten für die Beschriftung auszuwählen. Viele KI-Projekte verfügen über riesige Datenseen voller unstrukturierter Daten, und es kann eine Herausforderung sein, die vielen Elemente innerhalb des Datensees zu sortieren, um diejenigen auszuwählen, die am relevantesten und wichtigsten für die Aufnahme in einen Trainings- oder Ground-Truth-Datensatz sind. Herkömmliche Methoden, wie z. B. grundlegende Heuristiken und SQL-Abfragen, sind zeitaufwändig und manuell, und in der Regel gelingt es nicht, die wichtigsten Elemente zu ermitteln, die für hochwertige Trainingssätze benötigt werden.
Daher greifen viele Data-Science-Teams auf kleinere, weniger repräsentative Datenproben zurück, was die Genauigkeit und Effektivität von ML/AI-Modellen beeinträchtigt. Darüber hinaus verlangsamen solche Einschränkungen den Modellentwicklungsprozess und behindern den Fortschritt und die Fähigkeit, fortschrittliche KI-Lösungen für ein wettbewerbsfähiges, sich schnell entwickelndes technologisches Umfeld zu entwickeln.
Aufgrund dieser Herausforderungen hat HumanSignal mit der Arbeit an einer wichtigen neuen Funktion von Label Studio Enterprise begonnen, die viele dieser Probleme beseitigen soll - Data Discovery.
Die Lösungen: Verbesserte Datenermittlung mit Milvus und AWS
Bei der Entwicklung dieser neuen Data-Discovery-Funktion wandte sich HumanSignal an das Open-Source-Angebot Milvus von Zilliz, weil es eine breite Palette von Indizierungsalgorithmen unterstützt - eine Funktion, die von anderen Vektordatenbankanbietern in der Regel nicht angeboten wird. Diese Flexibilität ermöglichte es HumanSignal, die semantische Suchfunktionalität innerhalb des Data Discovery-Tools erheblich zu verbessern und verschiedene Indizierungsalgorithmen zu verwenden - von Hierarchical Navigable Small World (HNSW) für anfängliche Effizienz über DiskANN für optimierte Speichernutzung bis hin zu IVF_SQ8 für verbesserte Leistung.
Die Bereitstellung von Milvus auf Amazon Web Services (AWS) unter Verwendung des Elastic Kubernetes Service (EKS) hat die Effizienz dieser Lösung weiter gesteigert. Unter Verwendung des Steuerdiagramms von Milvus integrierte HumanSignal diese robuste Vektordatenbank nahtlos in seine Cloud-Infrastruktur und nutzte die Skalierbarkeit und Zuverlässigkeit von AWS zur Unterstützung seiner umfangreichen Datenverarbeitungsanforderungen. Diese strategische Kombination rationalisierte den Bereitstellungsprozess und stellte sicher, dass das Data Discovery-Tool große Datenmengen für Label Studio-Benutzer effizient verwalten und verarbeiten konnte.
Die Ergebnisse: Optimierte Datenbeschriftung und verbesserte Modellentwicklung
Die Integration von Milvus in die Data-Discovery-Funktion von HumanSignal war entscheidend, um eine extrem niedrige Latenzzeit bei semantischen Suchvorgängen zu erreichen. Diese Verbesserung hat es HumanSignal ermöglicht, einen optimierten neuen Prozess für Benutzer anzubieten, um relevante Datenuntergruppen für die Beschriftung zu identifizieren, wodurch der Prozess viel schneller als traditionelle Suchmethoden ist. Darüber hinaus hat Milvus die Geschwindigkeit und Zuverlässigkeit der Bildindizierung verbessert, ein wichtiger Bereich, der zuvor mit großen Herausforderungen verbunden war. Dieser Fortschritt bedeutet, dass Data Discovery-Benutzer nun von einer schnelleren und zuverlässigeren Bildverarbeitung profitieren können, was die Qualität und Genauigkeit ihrer Trainingssätze erheblich gesteigert hat, was sich direkt auf die Leistung von ML/AI-Modellen auswirkt.
Der Zilliz Milvus- und AWS-Stack war für HumanSignal entscheidend, da er eine skalierbare und robuste Plattform für die Speicherung von Vektordaten bietet. Sie hat die unmittelbaren Herausforderungen, mit denen das Unternehmen bei der Entwicklung seiner Data Discovery-Funktion konfrontiert war, gemeistert und HumanSignal für weitere Innovationen und Wachstum in den Bereichen KI und ML positioniert, was die transformative Kraft der Kombination von Spitzentechnologien in KI und Cloud unterstreicht.