휴먼시그널, Milvus 및 AWS를 통해 더 빠른 데이터 소싱 및 라벨링 제공

초저지연
시맨틱 검색에서
향상된 확장성
벡터 데이터 스토리지
더 빠르고 안정적인 서비스
이미지 인덱싱에서
더 나은 사용자 경험
간소화된 운영 프로세스로
휴먼시그널 소개
휴먼시그널은 하텍스의 전신으로, 대표적인 오픈소스 데이터 라벨링 플랫폼인 라벨 스튜디오를 통해 머신러닝 및 인공지능 개발을 지원합니다. 휴먼시그널은 데이터 과학자와 엔지니어로 구성된 팀이 2019년에 설립한 이래 표준 이하의 훈련 데이터로 인해 발생하는 모델 정확도 문제를 해결해 왔습니다. 라벨 스튜디오는 조직 내 도메인 전문가가 학습 데이터에 주석을 달고 효율적으로 관리할 수 있도록 개발되었습니다. 이 플랫폼은 사용자 친화적인 인터페이스, 적응성, 협업 프로세스를 강조하여 내부 데이터 라벨링 기능을 강화함으로써 모델 정확도를 크게 향상시킵니다. GitHub에서 가장 인기 있는 데이터 라벨링 플랫폼인 Label Studio는 20만 명 이상의 사용자가 2억 5천만 개 이상의 데이터 항목에 라벨을 지정하도록 지원했으며, 봄보라, 게베릿, 아웃리치, 트리바고, 와이즈, 젠데스크 등 주요 기업의 생산 ML/AI 전략에서 핵심적인 도구로 활용되고 있습니다.
도전 과제: 데이터 레이크를 탐색하고 라벨링하는 새로운 방법 구축하기
데이터 라벨링의 주요 과제는 애초에 라벨링할 올바른 데이터 조각을 선택하는 것과 관련이 있습니다. 많은 AI 프로젝트에는 비정형 데이터로 가득 찬 방대한 데이터 레이크가 있으며, 데이터 레이크 내의 많은 항목을 분류하여 학습 또는 기준 데이터 세트에 포함할 가장 관련성이 높고 중요한 항목을 선택하는 것은 어려울 수 있습니다. 기본 휴리스틱과 SQL 쿼리와 같은 기존의 방법은 시간이 많이 걸리고 수작업으로 이루어지며, 일반적으로 고품질 학습 세트에 필요한 가장 영향력 있는 항목을 정확히 찾아내지 못합니다.
따라서 많은 데이터 과학 팀은 대표성이 떨어지는 소규모 데이터 샘플에 의존하며, 이는 ML/AI 모델의 정확성과 효율성을 떨어뜨립니다. 또한 이러한 제약으로 인해 모델 개발 프로세스가 느려지고, 경쟁이 치열하고 빠르게 진화하는 기술 환경에서 고급 AI 솔루션을 도입할 수 있는 능력과 발전이 저해됩니다.
이러한 문제 때문에 휴먼시그널은 이러한 여러 문제를 완화하기 위해 설계된 새로운 주요 기능인 데이터 디스커버리를 개발하기 시작했습니다.
솔루션: Milvus와 AWS로 데이터 검색 기능 강화하기
이 새로운 데이터 디스커버리 기능을 구축하는 과정에서 휴먼시그널은 다른 벡터 데이터베이스 공급업체에서는 일반적으로 제공하지 않는 다양한 인덱싱 알고리즘을 지원하는 독특한 기능 때문에 질리즈의 오픈 소스 제품인 Milvus를 선택했습니다. 이러한 유연성 덕분에 휴먼시그널은 데이터 디스커버리 도구 내에서 시맨틱 검색 기능을 크게 향상시킬 수 있었고, 초기 효율성을 위해 Hierarchical Navigable Small World(HNSW)부터 메모리 사용 최적화를 위해 DiskANN, 마지막으로 성능 향상을 위해 IVF_SQ8에 이르는 다양한 색인 알고리즘을 전환할 수 있었죠.
Elastic Kubernetes Service(EKS)를 사용하여 Amazon Web Services(AWS)에 Milvus를 배포함으로써 이 솔루션의 효율성이 더욱 증폭되었습니다. 휴먼시그널은 Milvus의 헬름 차트를 활용하여 이 강력한 벡터 데이터베이스를 클라우드 인프라에 원활하게 통합하고 AWS의 확장성과 안정성을 활용하여 대규모 데이터 처리 요구 사항을 지원했습니다. 이러한 전략적 조합은 배포 프로세스를 간소화했으며, 데이터 검색 도구가 Label Studio 사용자를 위해 방대한 양의 데이터를 효율적으로 관리하고 처리할 수 있도록 보장했습니다.
결과: 결과: 간소화된 데이터 라벨링 및 향상된 모델 개발
밀버스를 휴먼시그널의 데이터 검색 기능에 통합한 것은 시맨틱 검색 작업에서 매우 짧은 지연 시간을 달성하는 데 매우 중요했습니다. 이러한 개선 덕분에 휴먼시그널은 사용자가 라벨링을 위한 관련 데이터 하위 집합을 식별할 수 있는 간소화된 새 프로세스를 제공하여 기존 검색 방법보다 훨씬 빠른 프로세스를 제공할 수 있게 되었습니다. 또한 밀버스는 이전에는 문제가 많았던 중요한 영역인 이미지 인덱싱의 속도와 안정성을 개선했습니다. 이러한 발전으로 이제 데이터 디스커버리 사용자는 더 빠르고 신뢰할 수 있는 이미지 처리를 통해 학습 세트의 품질과 정확성을 크게 향상시켜 ML/AI 모델 성능에 직접적인 혜택을 누릴 수 있게 되었습니다.
질리즈 밀버스와 AWS 스택은 벡터 데이터 저장을 위한 확장 가능하고 강력한 플랫폼을 제공함으로써 휴먼시그널에 중요한 역할을 해왔습니다. 이를 통해 데이터 디스커버리 기능을 구축하는 동안 직면했던 당면 과제를 해결했으며, AI와 클라우드의 최첨단 기술을 결합하는 혁신의 힘을 강조하면서 AI와 ML 분야에서 지속적인 혁신과 성장을 위한 입지를 다질 수 있었습니다.