De Gargalos a Avanços: Como a Orfium Escalou a Busca de Áudio com Bilhões de Vetores com a Zilliz Cloud

1 bilhão de vetores
Tratado com facilidade
Resposta em Tempo Real
para Proteção Imediata de Direitos Autorais
Custos reduzidos
ao lidar com os mesmos arquivos
Migração por um único engenheiro
para ciclos de desenvolvimento mais rápidos
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Imagine rastrear bilhões de trechos de música fluindo pelo YouTube, TikTok, rádio e TV—todos os dias—e garantir que os artistas sejam pagos de forma justa, não importa onde suas músicas apareçam. Para a Orfium, uma empresa global de tecnologia de direitos musicais e direitos autorais, isso não é um experimento mental. É sua missão.
No entanto, à medida que sua stack Elasticsearch/OpenSearch começou a ficar sobrecarregada, os engenheiros se viram apagando incêndios na infraestrutura em vez de criar novas capacidades. A configuração personalizada era pesada para manter e otimizar, a latência aumentava, a taxa de transferência não acompanhava o ritmo do negócio, e a indexação atingia limites. Os custos também se tornaram imprevisíveis. “Estávamos operando no limite do que era possível com nosso sistema antigo”, disse George Kastrinakis, Diretor de Ciência de Dados e Serviços de IA da Orfium.
Sobre a Orfium
A Orfium é uma líder global em tecnologia que está moldando o futuro da gestão de direitos musicais. Ela fornece tecnologia impulsionada por IA e serviços especializados para as principais empresas de música e entretenimento do mundo, permitindo que elas otimizem a gestão, o licenciamento, os relatórios e a monetização de conteúdo protegido por direitos autorais.
Ao combinar profunda expertise em gestão de direitos digitais com monitoramento robusto de transmissões e gestão de cue sheets, a Orfium identifica, corresponde e reporta com precisão o uso de música em todo o cenário de mídia. Isso entrega receita máxima, precisão incomparável e eficiência operacional para seus clientes.
Desde sua fundação em 2015–2016, a Orfium tornou-se uma parceira confiável das maiores gravadoras, editoras, emissoras e plataformas do mundo—incluindo YouTube, TikTok, BBC e Sky. Ao combinar reconhecimento avançado de conteúdo, vinculação de dados impulsionada por IA e atribuição transparente de royalties, a Orfium capacita artistas, compositores e titulares de direitos a proteger e maximizar o valor de seu trabalho em escala, em tempo real e ao redor do mundo.
O Desafio: Busca de Áudio com Bilhões de Vetores em Infraestrutura Legada
À medida que o negócio da Orfium se expandiu rapidamente, o volume de conteúdo que ela precisava analisar também cresceu. Esse crescimento colocou enorme pressão sobre sua infraestrutura existente, que era fundamental para seus serviços de reconhecimento de conteúdo e gestão de direitos autorais. O cerne da questão era a escala: o banco de dados de referência havia crescido para abranger centenas de milhares de arquivos de áudio, e os sistemas em uso não foram construídos para lidar com esse volume de vetores.
O pipeline da Orfium não apenas armazena MP3s e MP4s — ele utiliza modelos de aprendizado de máquina para extrair embeddings de áudio para correspondência por similaridade. “Um embedding vetorial é uma representação numérica, rica em informações, de características de áudio em um espaço de alta dimensionalidade,” explicou George Kastrinakis, Diretor de Ciência de Dados e Serviços de IA da Orfium. “Para um arquivo de áudio de dois minutos, extraímos múltiplos embeddings — cada um capturando as principais características de áudio de um segmento específico da faixa.”
Essa abordagem gera uma impressão digital por segmento de áudio, o que significa que cada faixa produz dezenas—às vezes centenas—de vetores. Esses vetores de alta dimensionalidade capturam a assinatura acústica única do áudio, permitindo a detecção precisa de conteúdo reutilizado em diferentes contextos. “Você pode imaginar combinar essas impressões digitais para executar uma busca e detectar quais segmentos de uma música aparecem em outro arquivo”, acrescentou George.
Mas essa técnica veio com um custo. A stack Elasticsearch e OpenSearch existente da Orfium—inicialmente projetada para busca de palavras-chave em texto completo—não era adequada para buscas de similaridade vetorial de alta dimensionalidade. “Com bancos de dados tradicionais, você atinge um limite rapidamente. Torna-se caro e lento”, disse George. O sistema foi levado aos seus limites. Indexar 500.000 arquivos de áudio se traduziu em uma enorme pressão de desempenho, levando a problemas de latência, custos disparados e uma infraestrutura operando a todo vapor apenas para se manter funcionando.
A Busca por uma Solução Nativa para Vetores
À medida que a infraestrutura da Orfium começou a ficar sobrecarregada pelas demandas de fingerprinting de áudio em larga escala, a equipe de engenharia iniciou uma busca abrangente por uma solução desenvolvida especificamente para busca de similaridade vetorial de alta dimensionalidade.
Benchmarking de Desempenho, Custo e Escala
A equipe da Orfium conduziu benchmarks internos com vários candidatos, incluindo o Milvus open-source, o Zilliz Cloud (uma versão gerenciada do Milvus), TileDB, Snowflake e Pgvector, com base em três critérios principais: precisão de recuperação, eficiência de custo e escalabilidade.
Precisão da recuperação vetorial. Como o processo de fingerprinting gera múltiplos vetores de características por segmento de áudio e o espaço vetorial está se tornando extremamente populado, até pequenas diferenças nos vetores causadas por quantização agressiva podem impactar significativamente as métricas de recuperação.
Eficiência de custo. Com planos de escalar de centenas de milhares para potencialmente dezenas de milhões de arquivos de áudio de referência—cada um produzindo múltiplos vetores—eles projetaram uma pegada total na casa das dezenas de bilhões de vetores. Sob modelos tradicionais de precificação, esse crescimento se tornaria proibitivamente caro.
Escalabilidade e throughput. O pipeline de produção deles processa áudio de transmissões de rádio e TV, bem como do YouTube e TikTok, em volumes massivos. Uma carga de trabalho típica envolve bancos de dados de referência compostos por até milhões de arquivos de áudio, resultando em aproximadamente bilhões de vetores. Qualquer solução precisaria dar suporte a indexação e consultas de alto volume sem gargalos.
O Avanço: Zilliz Cloud
Em comparação com outras opções, o Milvus open-source oferecia flexibilidade promissora, permitindo que a equipe experimentasse ajustes em nível de sistema. No entanto, a sobrecarga era significativa. Embora apreciassem o controle que ele lhes dava, George admitiu que “exigiu muito esforço para realmente configurar tudo,” o que ia contra o objetivo deles de acelerar a implantação e minimizar a manutenção.
Esse ônus operacional tornou uma alternativa totalmente gerenciada mais atraente. Após testes extensivos, o Zilliz Cloud, o Milvus gerenciado, saiu na frente. Ele se destacou como a solução mais completa e pronta para produção. Ele tem tudo o que o melhor do Milvus oferece, foi fácil de adotar, teve bom desempenho sob carga e proporcionou uma experiência gerenciada que liberou a equipe para se concentrar na criação de aplicações em vez de infraestrutura.
A implantação foi simples. Um engenheiro liderou a migração completa—desde o upload dos dados de referência e a extração de características até a configuração do sistema—inteiramente pelo console do Zilliz Cloud.
Como George resumiu, “foi a melhor oferta—em termos de desempenho, custo e facilidade de uso.”
A Solução: Impulsionando a Correspondência de Áudio e a Detecção de Covers com o Zilliz Cloud
Agora, a Orfium usa o Zilliz Cloud para impulsionar dois serviços essenciais: correspondência de áudio e reconhecimento de covers. O primeiro identifica o uso exato de músicas conhecidas em diferentes plataformas de mídia. O segundo vai um passo além, detectando diferentes versões ou covers dessas músicas, mesmo que tenham sido regravadas ou ligeiramente alteradas.
Para dar suporte a esses recursos, a Orfium conta com redes neurais proprietárias para criar embeddings a partir de conteúdo de áudio. Esses vetores são armazenados no Zilliz Cloud e recuperados usando buscas de similaridade vetorial. Modelos tradicionais de machine learning e arquiteturas baseadas em transformers facilitam a análise de metadados para determinar o grau de relação entre dois ativos. George explicou que eles “usam redes neurais para criar embeddings e depois fazem a pontuação dos vetores que recuperamos,” ao mesmo tempo em que também aplicam modelos que avaliam a similaridade dos metadados entre ativos.
O Zilliz Cloud agora desempenha um papel central na infraestrutura da Orfium baseada na AWS. Assinado por meio do AWS Marketplace, ele se encaixa perfeitamente ao lado dos serviços de nuvem existentes para computação e armazenamento.
O Resultado: Avanços de Performance e Flexibilidade Operacional Desbloqueiam Novas Capacidades
A migração para o Zilliz Cloud proporcionou melhorias imediatas e mensuráveis para a Orfium, aprimorando a performance do sistema, simplificando as operações e desbloqueando capacidades que antes eram impossíveis com sua infraestrutura legada.
Performance Escalável em Escala de Bilhões de Vetores
Um dos ganhos mais impactantes foi a capacidade de escalar perfeitamente sem sacrificar a performance. A equipe fez rapidamente a transição de sua configuração inicial para uma configuração otimizada para maior taxa de transferência, e os resultados superaram as expectativas. O que antes parecia limites de infraestrutura acabou se revelando gargalos que o novo sistema conseguia superar facilmente.
Hoje, a Orfium lida com um banco de dados de referência de 500.000 a 1 milhão de arquivos de áudio na nuvem — aproximadamente um quarto de bilhão de vetores — com facilidade. Com sua stack anterior baseada em Elasticsearch, essa escala os teria levado ao limite da capacidade do sistema. Com o Zilliz Cloud, essas restrições não são mais uma preocupação.
Resposta em Tempo Real para Proteção Imediata de Direitos Autorais
A latência deixou de ser um desafio e se tornou uma vantagem competitiva. Com a arquitetura nativa de vetores do Zilliz Cloud, a Orfium agora consegue executar correspondência de áudio acelerada em plataformas de transmissão, sociais e de streaming. Essa capacidade apoia sua missão de proteger a propriedade intelectual dos artistas no momento em que o conteúdo é publicado ou exibido.
Como George colocou, “A latência é importante. Nesta fase, provavelmente é o mais importante.” A velocidade e a capacidade de resposta do Zilliz Cloud permitem que ele ofereça suporte com confiança à detecção sensível ao tempo em escala.
Escalabilidade Previsível e Econômica
Enquanto a configuração anterior fazia os custos dispararem à medida que os volumes de dados cresciam, o Zilliz Cloud oferece um modelo mais sustentável. Sua precificação se alinha ao uso e ao valor, permitindo que a Orfium expanda com confiança sem se preocupar com despesas descontroladas de infraestrutura.
Com os mesmos 500.000 arquivos de áudio que antes levaram seu sistema Elasticsearch ao limite, a Orfium agora experimenta performance consistentemente alta por uma fração do custo. “É realmente performático em termos de precisão e latência e tudo mais,” disse George.
Operações Simplificadas e Iteração Mais Rápida
A simplicidade operacional tem sido outro benefício de destaque. A experiência gerenciada do Zilliz Cloud eliminou a complexidade de manter a infraestrutura vetorial, facilitando para a equipe implantar atualizações e escalar cargas de trabalho sem interrupções.
George destacou como a transição foi tranquila: “Foi muito, muito rápido desde o momento em que decidimos seguir com o Zilliz até o momento em que realmente tínhamos algo funcionando.” A capacidade de fazer mudanças na infraestrutura sem impactar os pipelines permitiu que a Orfium iterasse mais rapidamente e permanecesse focada em entregar valor ao cliente.
O Que Vem a Seguir: Construindo um Ecossistema Mais Inteligente de Detecção de Direitos Autorais
Com a correspondência de áudio baseada em vetores bem estabelecida, a Orfium agora está expandindo seu ecossistema de detecção de direitos autorais para novas fronteiras, aproveitando o Zilliz Cloud para casos de uso como transcrição de letras, correspondência de metadados e busca híbrida.
Detecção Baseada em Letras para Covers e Adaptações: Em vez de identificar músicas apenas pelo áudio, a Orfium planeja extrair letras de um arquivo e compará-las com um banco de dados de letras armazenado. Essa técnica oferece proteção complementar, especialmente útil quando a instrumentação, o andamento ou o estilo vocal alteram significativamente a impressão digital de uma música.
“A ideia é que você pegue um arquivo de áudio, extraia as letras e então compare essas letras com o banco de dados que você já tem,” explicou George.
Busca Híbrida: Combinando Vetores com Texto: O Zilliz Cloud pode oferecer suporte à correspondência de letras por meio de busca híbrida, combinando similaridade vetorial com detecção de frases baseada em texto. Isso abre caminho para combinar compreensão semântica com correspondência tradicional por palavras-chave.
Correspondência de Metadados Semânticos e Descoberta de Relações: Ao comparar pontos de dados associados — como nomes de artistas, informações de faixas, datas de lançamento ou gêneros — a Orfium pode revelar relações entre músicas e ativos que não são óbvias apenas pelo áudio. Isso permitiria mecanismos de descoberta mais ricos, desde a identificação de covers e remixes até o mapeamento de redes de influência musical.
Escalabilidade para o Futuro: Crescimento de 100x no Volume de Vetores: O roadmap da Orfium inclui uma escala agressiva. Embora a implantação atual envolva aproximadamente um milhão de arquivos de áudio, sua visão de longo prazo envolve indexar dezenas de milhões até mais de 100 milhões de ativos de áudio, resultando em dezenas de bilhões de vetores. Tal escala seria ingerenciável sem um banco de dados vetorial desenvolvido especificamente para esse fim. A arquitetura do Zilliz Cloud oferece a escalabilidade e a flexibilidade necessárias para suportar esse crescimento, mantendo desempenho e confiabilidade ideais.
Conclusão: Uma Base Escalável para o Futuro da Proteção de Direitos Autorais
Ao adotar o Zilliz Cloud, a Orfium deixou de operar no limite e passou a inovar com confiança. Agora, eles oferecem detecção em tempo real em enormes bibliotecas de áudio, simplificam as operações para seus engenheiros e desbloqueiam novos recursos que não poderiam ter imaginado antes.
Temos orgulho de que o Zilliz Cloud desempenhe um papel ao impulsionar a visão da Orfium. Sua liderança técnica e seu foco em inovação continuam a estabelecer um alto padrão para o que é possível na gestão de direitos, e estamos entusiasmados em apoiar sua missão enquanto constroem o futuro da inteligência de áudio e conteúdo em escala global.
- Sobre a Orfium
- O Desafio: Busca de Áudio com Bilhões de Vetores em Infraestrutura Legada
- A Busca por uma Solução Nativa para Vetores
- A Solução: Impulsionando a Correspondência de Áudio e a Detecção de Covers com o Zilliz Cloud
- O Resultado: Avanços de Performance e Flexibilidade Operacional Desbloqueiam Novas Capacidades
- O Que Vem a Seguir: Construindo um Ecossistema Mais Inteligente de Detecção de Direitos Autorais
- Conclusão: Uma Base Escalável para o Futuro da Proteção de Direitos Autorais
Conteúdo
Caso de uso
Indústria
Música
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


