병목에서 돌파구로: Orfium이 Zilliz Cloud로 10억 벡터 오디오 검색을 확장한 방법

10억 개의 벡터
간편하게 처리됨
실시간 응답
즉각적인 저작권 보호를 위해
비용 절감
동일한 파일을 처리하는 동안
단일 엔지니어 마이그레이션
더 빠른 개발 주기를 위해
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
매일 YouTube, TikTok, 라디오, TV 전반에 걸쳐 흘러가는 수십억 개의 음악 스니펫을 추적하고, 곡이 어디에 등장하든 아티스트가 공정하게 보상받도록 보장한다고 상상해 보세요. 글로벌 음악 권리 및 저작권 기술 기업인 Orfium에게 이는 사고 실험이 아닙니다. 바로 그들의 미션입니다.
하지만 Elasticsearch/OpenSearch 스택에 부담이 가기 시작하면서, 엔지니어들은 새로운 기능을 구축하는 대신 인프라 문제 해결에 매달리게 되었습니다. 맞춤형 설정은 유지보수와 최적화가 부담스러웠고, 지연 시간은 증가했으며, 처리량은 비즈니스 성장 속도를 따라가지 못했고, 인덱싱은 한계에 부딪혔습니다. 비용 또한 예측하기 어려워졌습니다. Orfium의 데이터 과학 및 AI 서비스 디렉터인 George Kastrinakis는 “우리는 기존 시스템으로 가능한 것의 한계에서 운영하고 있었습니다.”라고 말했습니다.
Orfium 소개
Orfium은 음악 권리 관리의 미래를 만들어가는 글로벌 기술 선도 기업입니다. Orfium은 세계 유수의 음악 및 엔터테인먼트 기업에 AI 기반 기술과 전문 서비스를 제공하여, 저작권이 있는 콘텐츠의 관리, 라이선싱, 보고 및 수익화를 최적화할 수 있도록 지원합니다.
디지털 권리 관리에 대한 깊은 전문성을 강력한 방송 모니터링 및 큐시트 관리와 결합함으로써, Orfium은 전체 미디어 환경 전반에서 음악 사용을 정확하게 식별, 매칭, 보고합니다. 이를 통해 고객에게 최대 수익, 탁월한 정확성, 운영 효율성을 제공합니다.
2015–2016년 설립 이후, Orfium은 YouTube, TikTok, BBC, Sky를 포함한 세계 최고의 음반사, 퍼블리셔, 방송사, 플랫폼이 신뢰하는 파트너가 되었습니다. 첨단 콘텐츠 인식, AI 기반 데이터 연결, 투명한 로열티 귀속을 결합함으로써 Orfium은 아티스트, 작곡가, 권리 보유자가 실시간으로 전 세계에서 대규모로 자신의 작품 가치를 보호하고 극대화할 수 있도록 지원합니다.
과제: 레거시 인프라에서의 수십억 벡터 오디오 검색
Orfium의 비즈니스가 빠르게 확장됨에 따라 분석해야 하는 콘텐츠의 양도 함께 증가했습니다. 이러한 성장은 콘텐츠 인식 및 저작권 관리 서비스의 기반이 되는 기존 인프라에 엄청난 부담을 주었습니다. 문제의 핵심은 규모였습니다. 참조 데이터베이스는 수십만 개의 오디오 파일을 포함할 정도로 커졌고, 기존 시스템은 이 정도의 벡터 규모를 처리하도록 설계되지 않았습니다.
Orfium의 파이프라인은 단순히 MP3와 MP4를 저장하는 것이 아니라, 머신러닝 모델을 활용해 유사도 매칭을 위한 오디오 임베딩을 추출합니다. Orfium의 데이터 과학 및 AI 서비스 디렉터인 George Kastrinakis는 “벡터 임베딩은 고차원 공간에서 오디오 특징을 정보가 풍부한 수치 표현으로 나타낸 것입니다.”라고 설명했습니다. “2분짜리 오디오 파일의 경우, 우리는 여러 개의 임베딩을 추출합니다. 각각은 트랙의 특정 구간에 대한 핵심 오디오 특징을 포착합니다.”
이 접근 방식은 오디오 구간마다 하나의 핑거프린트를 생성하므로, 모든 트랙은 수십 개—때로는 수백 개—의 벡터를 만들어냅니다. 이러한 고차원 벡터는 오디오의 고유한 음향적 시그니처를 포착하여, 다양한 맥락에서 재사용된 콘텐츠를 정밀하게 탐지할 수 있게 합니다. George는 “이러한 핑거프린트를 결합해 검색을 실행하고, 한 곡의 어떤 구간이 다른 파일에 나타나는지 감지한다고 상상할 수 있습니다.”라고 덧붙였습니다.
하지만 이 기술에는 비용이 따랐습니다. Orfium의 기존 Elasticsearch 및 OpenSearch 스택은 처음에는 전문 키워드 검색을 위해 설계되었으며, 고차원 벡터 유사도 검색에는 적합하지 않았습니다. George는 “전통적인 데이터베이스를 사용하면 금방 한계에 부딪힙니다. 비용이 많이 들고 느려집니다.”라고 말했습니다. 시스템은 한계까지 밀려났습니다. 500,000개의 오디오 파일을 인덱싱하는 것은 막대한 성능 부담으로 이어졌고, 지연 시간 문제, 급등하는 비용, 그리고 간신히 유지하기 위해 전속력으로 운영되는 인프라를 초래했습니다.
벡터 네이티브 솔루션 탐색
Orfium의 인프라가 대규모 오디오 핑거프린팅의 요구로 부담을 받기 시작하면서, 엔지니어링 팀은 고차원 벡터 유사도 검색을 위해 목적에 맞게 구축된 솔루션을 찾기 위한 포괄적인 탐색에 착수했습니다.
성능, 비용, 규모에 대한 벤치마킹
Orfium 팀은 오픈소스 Milvus, Zilliz Cloud(Milvus의 매니지드 버전), TileDB, Snowflake, Pgvector를 포함한 여러 후보를 대상으로 검색 정확도, 비용 효율성, 확장성이라는 세 가지 핵심 기준에 따라 내부 벤치마크를 수행했습니다.
벡터 검색 정확도. 이들의 핑거프린팅 프로세스는 오디오의 각 세그먼트마다 여러 개의 특징 벡터를 생성하고 벡터 공간이 매우 조밀해지고 있기 때문에, 강한 양자화로 인해 발생하는 벡터의 미세한 차이조차 검색 지표에 상당한 영향을 미칠 수 있습니다.
비용 효율성. 수십만 개에서 잠재적으로 수천만 개의 참조 오디오 파일로 확장할 계획이었고, 각 파일은 여러 벡터를 생성하므로, 전체 규모가 수백억 개의 벡터에 이를 것으로 예상했습니다. 기존 가격 책정 모델에서는 이러한 성장이 감당하기 어려울 만큼 비싸질 수 있었습니다.
확장성 및 처리량. 이들의 프로덕션 파이프라인은 라디오 및 TV 방송뿐만 아니라 YouTube와 TikTok의 오디오를 대규모로 처리합니다. 일반적인 워크로드에는 최대 수백만 개의 오디오 파일로 구성된 참조 데이터베이스가 포함되며, 그 결과 대략 수십억 개의 벡터가 생성됩니다. 어떤 솔루션이든 병목 없이 대량 인덱싱과 쿼리를 지원해야 했습니다.
돌파구: Zilliz Cloud
다른 옵션들과 비교했을 때, 오픈소스 Milvus는 팀이 시스템 수준 튜닝을 실험할 수 있도록 해주는 유망한 유연성을 제공했습니다. 그러나 운영 부담은 상당했습니다. George는 그것이 제공하는 제어권을 높이 평가했지만, “모든 것을 실제로 설정하는 데 많은 노력이 들었다”고 인정했으며, 이는 배포 속도를 높이고 유지보수를 최소화하려는 목표와는 맞지 않았습니다.
이러한 운영 부담은 완전 관리형 대안을 더 매력적으로 만들었습니다. 광범위한 테스트 끝에 관리형 Milvus인 Zilliz Cloud가 가장 앞섰습니다. 이는 가장 완성도 높고 프로덕션 준비가 된 솔루션으로 두드러졌습니다. Milvus의 장점을 모두 갖추고 있었고, 도입이 쉬웠으며, 부하 상황에서도 성능이 좋았고, 팀이 인프라가 아니라 애플리케이션 구축에 집중할 수 있도록 해주는 관리형 경험을 제공했습니다.
배포는 간단했습니다. 한 엔지니어가 참조 데이터 업로드와 특징 추출부터 시스템 구성까지 전체 마이그레이션을 Zilliz Cloud 콘솔을 통해 전적으로 주도했습니다.
George가 요약했듯이, “성능 측면, 비용 측면, 사용 편의성 측면에서 제공할 수 있는 최고의 것이었습니다.”
솔루션: Zilliz Cloud로 오디오 매칭 및 커버곡 탐지 강화
이제 Orfium은 Zilliz Cloud를 사용해 오디오 매칭과 커버곡 인식이라는 두 가지 미션 크리티컬 서비스를 구동합니다. 첫 번째는 다양한 미디어 플랫폼에서 알려진 곡의 정확한 사용을 식별합니다. 두 번째는 한 단계 더 나아가, 재녹음되었거나 약간 변경되었더라도 해당 곡들의 다른 버전이나 커버를 탐지합니다.
이러한 기능을 지원하기 위해 Orfium은 독자적인 신경망을 활용하여 오디오 콘텐츠에서 임베딩을 생성합니다. 이러한 벡터는 Zilliz Cloud에 저장되고 벡터 유사도 검색을 사용해 검색됩니다. 기존 머신러닝 모델과 트랜스포머 기반 아키텍처는 메타데이터 분석을 지원하여 두 자산 간의 관련 정도를 판단합니다. George는 이들이 “신경망을 사용해 임베딩을 생성한 다음 우리가 검색한 벡터에 대해 스코어링을 수행한다”고 설명했으며, 동시에 자산 간 메타데이터의 유사성을 평가하는 모델도 적용한다고 말했습니다.
Zilliz Cloud는 이제 Orfium의 AWS 기반 인프라에서 중심적인 역할을 합니다. AWS Marketplace를 통해 구독되며, 컴퓨팅 및 스토리지를 위한 기존 클라우드 서비스와 자연스럽게 어우러집니다.
결과: 성능 혁신과 운영 유연성이 새로운 역량을 열다
Zilliz Cloud로 마이그레이션하면서 Orfium은 즉각적이고 측정 가능한 개선을 달성했으며, 시스템 성능을 향상하고 운영을 단순화하며 기존 인프라로는 이전에 불가능했던 역량을 열 수 있었습니다.
10억 벡터 규모에서의 확장 가능한 성능
가장 큰 효과를 낸 성과 중 하나는 성능을 희생하지 않고 원활하게 확장할 수 있는 능력이었습니다. 팀은 초기 설정에서 더 높은 처리량에 최적화된 구성으로 빠르게 전환했으며, 그 결과는 기대를 뛰어넘었습니다. 한때 인프라의 한계처럼 느껴졌던 것들은 새 시스템이 쉽게 극복할 수 있는 병목 현상으로 드러났습니다.
오늘날 Orfium은 클라우드에서 50만~100만 개의 오디오 파일로 구성된 참조 데이터베이스(대략 2억 5천만 개의 벡터)를 손쉽게 처리합니다. 이전 Elasticsearch 기반 스택이었다면 이 규모는 시스템 용량의 한계까지 밀어붙였을 것입니다. Zilliz Cloud를 사용하면서 이러한 제약은 더 이상 문제가 되지 않습니다.
즉각적인 저작권 보호를 위한 실시간 응답
지연 시간은 과제에서 경쟁 우위로 바뀌었습니다. Zilliz Cloud의 벡터 네이티브 아키텍처를 통해 Orfium은 이제 방송, 소셜, 스트리밍 플랫폼 전반에서 가속화된 오디오 매칭을 실행할 수 있습니다. 이 역량은 콘텐츠가 게시되거나 방송되는 순간 아티스트의 지적 재산을 보호한다는 Orfium의 사명을 뒷받침합니다.
George는 이렇게 말했습니다. “지연 시간은 중요합니다. 이 단계에서는 아마도 가장 중요할 것입니다.” Zilliz Cloud의 속도와 응답성은 대규모의 시간 민감한 탐지를 자신 있게 지원할 수 있게 합니다.
예측 가능하고 비용 효율적인 확장
이전 설정에서는 데이터 볼륨이 증가함에 따라 비용이 급증했지만, Zilliz Cloud는 더 지속 가능한 모델을 제공합니다. 가격 책정이 사용량 및 가치와 일치하므로 Orfium은 인프라 비용 폭증을 걱정하지 않고 자신 있게 확장할 수 있습니다.
한때 Elasticsearch 시스템을 한계까지 밀어붙였던 동일한 50만 개의 오디오 파일에서도, Orfium은 이제 훨씬 낮은 비용으로 일관되게 높은 성능을 경험하고 있습니다. George는 “정확도와 지연 시간 등 모든 면에서 정말 성능이 뛰어납니다.”라고 말했습니다.
단순화된 운영과 더 빠른 반복
운영의 단순성 역시 또 하나의 두드러진 이점이었습니다. Zilliz Cloud의 관리형 경험은 벡터 인프라 유지 관리의 복잡성을 제거하여, 팀이 중단 없이 업데이트를 배포하고 워크로드를 확장하기 쉽게 만들었습니다.
George는 전환이 얼마나 순조로웠는지 강조했습니다. “Zilliz를 사용하기로 결정한 순간부터 실제로 작동하는 무언가를 갖게 된 순간까지 매우, 매우 빨랐습니다.” 파이프라인에 영향을 주지 않고 인프라를 변경할 수 있는 능력 덕분에 Orfium은 더 빠르게 반복하고 고객 가치 제공에 집중할 수 있었습니다.
다음 단계: 더 스마트한 저작권 탐지 생태계 구축
벡터 기반 오디오 매칭이 확고히 자리 잡으면서, Orfium은 이제 가사 전사, 메타데이터 매칭, 하이브리드 검색과 같은 사용 사례에 Zilliz Cloud를 활용하여 저작권 탐지 생태계를 새로운 영역으로 확장하고 있습니다.
커버곡 및 편곡을 위한 가사 기반 탐지: 오디오만으로 곡을 식별하는 대신, Orfium은 파일에서 가사를 추출하고 이를 저장된 가사 데이터베이스와 매칭할 계획입니다. 이 기법은 특히 악기 구성, 템포 또는 보컬 스타일이 곡의 핑거프린트를 크게 변화시키는 경우에 유용한 보완적 보호를 제공합니다.
“아이디어는 오디오 파일을 받아 가사를 추출한 다음, 그 가사를 이미 보유한 데이터베이스와 매칭하는 것입니다.”라고 George는 설명했습니다.
하이브리드 검색: 벡터와 텍스트 결합: Zilliz Cloud는 하이브리드 검색을 통해 가사 매칭을 지원할 수 있으며, 벡터 유사도와 텍스트 기반 구문 탐지를 결합합니다. 이는 의미론적 이해와 전통적인 키워드 매칭을 결합할 수 있는 길을 열어줍니다.
의미론적 메타데이터 매칭 및 관계 발견: 아티스트 이름, 트랙 정보, 발매일 또는 장르와 같은 관련 데이터 포인트를 비교함으로써, Orfium은 오디오만으로는 명확하지 않은 곡과 자산 간의 관계를 드러낼 수 있습니다. 이를 통해 커버곡과 리믹스를 식별하는 것부터 음악적 영향 네트워크를 매핑하는 것까지, 더욱 풍부한 발견 메커니즘을 구현할 수 있습니다.
미래를 위한 확장: 벡터 볼륨 100배 성장: Orfium의 로드맵에는 공격적인 확장이 포함되어 있습니다. 현재 배포 환경은 약 100만 개의 오디오 파일을 포함하지만, 장기 비전은 수천만 개에서 1억 개 이상의 오디오 자산을 인덱싱하여 수백억 개의 벡터를 생성하는 것입니다. 이러한 규모는 목적에 맞게 구축된 벡터 데이터베이스 없이는 관리할 수 없을 것입니다. Zilliz Cloud의 아키텍처는 최적의 성능과 안정성을 유지하면서 이러한 성장을 지원하는 데 필요한 확장성과 유연성을 제공합니다.
결론: 저작권 보호의 미래를 위한 확장 가능한 기반
Zilliz Cloud를 도입함으로써 Orfium은 한계에 다다른 운영에서 벗어나 자신감을 가지고 혁신할 수 있게 되었습니다. 이제 Orfium은 대규모 오디오 라이브러리 전반에서 실시간 탐지를 제공하고, 엔지니어들의 운영을 간소화하며, 이전에는 상상할 수 없었던 새로운 기능을 열어가고 있습니다.
Zilliz Cloud가 Orfium의 비전을 실현하는 데 역할을 하게 되어 자랑스럽습니다. Orfium의 기술 리더십과 혁신에 대한 집중은 권리 관리에서 가능한 것의 기준을 계속해서 높이고 있으며, 전 세계 규모의 오디오 및 콘텐츠 인텔리전스의 미래를 구축해 나가는 그들의 미션을 지원하게 되어 기쁩니다.
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


