HumanSignal、MilvusとAWSでデータソーシングとラベリングの高速化を実現

超低遅延
セマンティック検索
拡張性の強化
ベクトル・データ・ストレージ
より速く、より信頼できる
画像インデクシング
より良いユーザー・エクスペリエンス
合理化されたオペレーションプロセス
HumanSignalについて
HumanSignal(旧Heartex)は、主力製品であるオープンソースのデータラベリングプラットフォーム、Label Studioを通じて、機械学習と人工知能の開発を支援しています。データサイエンティストとエンジニアのチームによって2019年に設立されて以来、HumanSignalは標準以下のトレーニングデータから生じるモデルの精度という重大な課題に取り組んできました。Label Studioは、組織内のドメインエキスパートが効率的にトレーニングデータに注釈を付け、管理できるようにするために作成されました。このプラットフォームは、ユーザーフレンドリーなインターフェース、適応性、コラボレーションプロセスを重視し、社内のデータラベリング能力を強化することで、モデルの精度を大幅に向上させます。GitHubで最も人気のあるデータラベリングプラットフォームとして、Label Studioは20万人以上のユーザーをサポートし、2億5000万件以上のデータアイテムにラベリングを行っており、Bombora、Geberit、Outreach、Trivago、Wyze、Zendeskなどの大手企業のプロダクションML/AI戦略において極めて重要なツールとなっています。
課題データレイクをナビゲートし、ラベル付けする新しい方法を構築する
データ・ラベリングにおける大きな課題は、そもそもラベルを付けるべきデータを正しく選択することにある。多くのAIプロジェクトは、非構造化データでいっぱいの巨大なデータレイクを持っており、データレイク内の多くのアイテムを選別して、トレーニングまたはグランドトゥルースデータセットに含めるために最も関連性が高く重要なものを選択することは困難な場合がある。基本的なヒューリスティックやSQLクエリなどの従来の方法では、時間と手作業がかかり、高品質のトレーニングセットに必要な最もインパクトのある項目をピンポイントで特定できないことがほとんどです。
その結果、多くのデータサイエンスチームは、より小規模で代表性の低いデータサンプルに頼ることになり、ML/AIモデルの精度と有効性が低下する。さらに、このような制約はモデル開発プロセスを遅らせ、進歩の妨げとなり、競争の激しい、急速に進化する技術環境に高度なAIソリューションをもたらす能力を低下させる。
このような課題のため、HumanSignalはこれらの問題の多くを軽減するために設計されたLabel Studio Enterpriseの主要な新機能、データディスカバリーに取り組み始めました。
解決策MilvusとAWSによるデータディスカバリーの強化
この新しいData Discovery機能を構築する過程において、HumanSignal社はZilliz社のオープンソースMilvusを採用しました。この柔軟性により、HumanSignal社はData Discoveryツール内のセマンティック検索機能を大幅に強化することができました。初期効率化のためのHierarchical Navigable Small World (HNSW)から、メモリ使用量を最適化するためのDiskANN、そして最終的にはパフォーマンス向上のためのIVF_SQ8まで、様々なインデックス作成アルゴリズムを移行することができました。
Elastic Kubernetes Service (EKS)を使用したAmazon Web Services (AWS)上のMilvusのデプロイは、このソリューションの有効性をさらに増幅させた。HumanSignal社は、Milvusのヘルムチャートを利用して、この堅牢なベクトルデータベースを自社のクラウドインフラにシームレスに統合し、AWSのスケーラビリティと信頼性を活用して大規模なデータ処理のニーズをサポートしました。この戦略的な組み合わせにより、導入プロセスが合理化され、Data DiscoveryツールがLabel Studioユーザーの膨大なデータを効率的に管理・処理できるようになりました。
結果データラベリングの合理化とモデル開発の強化
MilvusをHumanSignalのデータディスカバリー機能に統合することは、セマンティック検索操作において超低遅延を実現する上で非常に重要でした。この改善により、HumanSignalはユーザがラベリングのために関連するデータサブセットを特定するための合理化された新しいプロセスを提供できるようになり、このプロセスは従来の検索方法よりもはるかに高速になりました。さらに、Milvusは画像インデクシングのスピードと信頼性を向上させた。この進歩により、Data Discoveryのユーザーは、より高速で信頼性の高い画像処理を利用できるようになり、トレーニングセットの品質と精度が大幅に向上し、ML/AIモデルの性能に直接貢献することになります。
Zilliz MilvusとAWSスタックは、ベクトルデータストレージにスケーラブルで堅牢なプラットフォームを提供することで、HumanSignalにとって極めて重要な役割を果たした。データディスカバリー機能を構築する際に直面した直接的な課題に対処し、AIとMLにおける継続的な革新と成長に向けてHumanSignalを位置づけ、AIとクラウドにおける最先端技術の組み合わせが変革力を持つことを明確にしました。