De cuellos de botella a avances: cómo Orfium escaló la búsqueda de audio de mil millones de vectores con Zilliz Cloud

Mil millones de vectores
Gestionado con facilidad
Respuesta en tiempo real
para la Protección Inmediata de los Derechos de Autor
Costos reducidos
mientras se manejan los mismos archivos
Migración de un solo ingeniero
para ciclos de desarrollo más rápidos
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Imagina rastrear miles de millones de fragmentos de música que fluyen por YouTube, TikTok, radio y TV—todos los días—y garantizar que los artistas reciban un pago justo, sin importar dónde aparezcan sus canciones. Para Orfium, una empresa global de tecnología de derechos musicales y copyright, esto no es un experimento mental. Es su misión.
Sin embargo, a medida que su stack de Elasticsearch/OpenSearch comenzó a resentirse, los ingenieros se encontraron apagando incendios de infraestructura en lugar de crear nuevas capacidades. La configuración personalizada era difícil de mantener y optimizar, la latencia aumentaba, el rendimiento no seguía el ritmo del negocio y la indexación alcanzaba sus límites. Los costos también se volvieron impredecibles. “Estábamos operando al límite de lo que era posible con nuestro sistema anterior”, dijo George Kastrinakis, Director de Ciencia de Datos y Servicios de IA en Orfium.
Acerca de Orfium
Orfium es un líder tecnológico global que está dando forma al futuro de la gestión de derechos musicales. Proporcionan tecnología impulsada por IA y servicios expertos a las principales empresas de música y entretenimiento del mundo, lo que les permite optimizar la gestión, concesión de licencias, generación de informes y monetización de contenido protegido por copyright.
Al combinar una profunda experiencia en gestión de derechos digitales con una sólida monitorización de emisiones y gestión de cue sheets, Orfium identifica, empareja e informa con precisión el uso de música en todo el panorama mediático. Esto ofrece ingresos máximos, una precisión inigualable y eficiencia operativa para sus clientes.
Desde su fundación en 2015–2016, Orfium se ha convertido en un socio de confianza para los principales sellos discográficos, editoras, emisoras y plataformas del mundo—including YouTube, TikTok, the BBC, and Sky. Al combinar reconocimiento avanzado de contenido, vinculación de datos impulsada por IA y atribución transparente de regalías, Orfium empodera a artistas, compositores y titulares de derechos para proteger y maximizar el valor de su trabajo a escala, en tiempo real y en todo el mundo.
El desafío: búsqueda de audio de miles de millones de vectores en infraestructura heredada
A medida que el negocio de Orfium se expandía rápidamente, también lo hacía el volumen de contenido que necesitaba analizar. Este crecimiento ejerció una enorme presión sobre su infraestructura existente, que era fundamental para sus servicios de reconocimiento de contenido y gestión de copyright. El núcleo del problema era la escala: la base de datos de referencia había crecido hasta abarcar cientos de miles de archivos de audio, y los sistemas existentes no estaban diseñados para manejar este volumen de vectores.
El pipeline de Orfium no solo almacena MP3 y MP4 — aprovecha modelos de aprendizaje automático para extraer embeddings de audio para la coincidencia por similitud. “Un embedding vectorial es una representación numérica, rica en información, de características de audio en un espacio de alta dimensionalidad,” explicó George Kastrinakis, Director de Ciencia de Datos y Servicios de IA en Orfium. “Para un archivo de audio de dos minutos, extraemos múltiples embeddings — cada uno capturando las características clave de audio de un segmento específico de la pista.”
Este enfoque genera una huella digital por segmento de audio, lo que significa que cada pista produce docenas—a veces cientos—de vectores. Estos vectores de alta dimensionalidad capturan la firma acústica única del audio, lo que permite una detección precisa de contenido reutilizado en diferentes contextos. “Puedes imaginar combinar estas huellas digitales para ejecutar una búsqueda y detectar qué segmentos de una canción aparecen en otro archivo”, añadió George.
Pero esta técnica tenía un costo. El stack existente de Elasticsearch y OpenSearch de Orfium—inicialmente diseñado para búsqueda de palabras clave de texto completo—no era adecuado para búsquedas de similitud vectorial de alta dimensionalidad. “Con bases de datos tradicionales, chocas contra un muro rápidamente. Se vuelve caro y lento”, dijo George. El sistema fue llevado al límite. Indexar 500,000 archivos de audio se tradujo en una enorme tensión de rendimiento, lo que provocó problemas de latencia, costos disparados y una infraestructura operando a toda máquina solo para mantenerse a flote.
La búsqueda de una solución nativa para vectores
A medida que la infraestructura de Orfium comenzó a verse sometida a las exigencias de la huella digital de audio a gran escala, el equipo de ingeniería inició una búsqueda exhaustiva de una solución diseñada específicamente para la búsqueda de similitud vectorial de alta dimensionalidad.
Evaluación comparativa de rendimiento, costo y escala
El equipo de Orfium llevó a cabo evaluaciones comparativas internas de varios candidatos, incluidos Milvus de código abierto, Zilliz Cloud (una versión gestionada de Milvus), TileDB, Snowflake y Pgvector, en tres criterios clave: precisión de recuperación, eficiencia de costos y escalabilidad.
Precisión de recuperación vectorial. Debido a que su proceso de huella digital genera múltiples vectores de características por segmento de audio y el espacio vectorial se está volviendo extremadamente poblado, incluso ligeras diferencias en los vectores causadas por una cuantización agresiva pueden afectar significativamente a las métricas de recuperación.
Eficiencia de costos. Con planes de escalar de cientos de miles a potencialmente decenas de millones de archivos de audio de referencia —cada uno de los cuales produce múltiples vectores—, proyectaron una huella total de decenas de miles de millones de vectores. Con los modelos de precios tradicionales, ese crecimiento se volvería prohibitivamente caro.
Escalabilidad y rendimiento. Su canal de producción procesa audio de emisiones de radio y televisión, así como de YouTube y TikTok, en volúmenes masivos. Una carga de trabajo típica implica bases de datos de referencia que comprenden hasta millones de archivos de audio, lo que da como resultado aproximadamente miles de millones de vectores. Cualquier solución tendría que admitir indexación y consultas de alto volumen sin cuellos de botella.
El avance decisivo: Zilliz Cloud
En comparación con otras opciones, Milvus de código abierto ofrecía una flexibilidad prometedora, lo que permitía al equipo experimentar con ajustes a nivel de sistema. Sin embargo, la sobrecarga era significativa. Aunque apreciaban el control que les brindaba, George admitió que “requirió mucho esfuerzo configurar todo realmente”, lo que iba en contra de su objetivo de acelerar el despliegue y minimizar el mantenimiento.
Esa carga operativa hizo más atractiva una alternativa totalmente gestionada. Tras pruebas exhaustivas, Zilliz Cloud, el Milvus gestionado, quedó en primer lugar. Destacó como la solución más completa y lista para producción. Tiene todo lo que ofrece lo mejor de Milvus, fue fácil de adoptar, rindió bien bajo carga y proporcionó una experiencia gestionada que liberó al equipo para centrarse en crear aplicaciones en lugar de infraestructura.
El despliegue fue sencillo. Un ingeniero lideró la migración completa —desde la carga de los datos de referencia y la extracción de características hasta la configuración del sistema— íntegramente a través de la consola de Zilliz Cloud.
Como resumió George, “era lo mejor que se podía ofrecer: en términos de rendimiento, costos y facilidad de uso.”
La solución: impulsar la coincidencia de audio y la detección de versiones de canciones con Zilliz Cloud
Ahora, Orfium usa Zilliz Cloud para impulsar dos servicios críticos para la misión: coincidencia de audio y reconocimiento de versiones de canciones. El primero identifica el uso exacto de canciones conocidas en diferentes plataformas de medios. El segundo va un paso más allá, detectando diferentes versiones o covers de esas canciones, incluso si se han regrabado o alterado ligeramente.
Para respaldar estas capacidades, Orfium se basa en redes neuronales propias para crear embeddings a partir de contenido de audio. Estos vectores se almacenan en Zilliz Cloud y se recuperan mediante búsquedas de similitud vectorial. Los modelos tradicionales de aprendizaje automático y las arquitecturas basadas en transformers facilitan el análisis de metadatos para determinar el grado de relación entre dos activos. George explicó que “usan redes neuronales para crear embeddings y luego puntúan los vectores que recuperamos”, al tiempo que también aplican modelos que evalúan la similitud de los metadatos entre activos.
Zilliz Cloud ahora desempeña un papel central en la infraestructura basada en AWS de Orfium. Suscrito a través de AWS Marketplace, encaja perfectamente junto con sus servicios en la nube existentes de cómputo y almacenamiento.
El resultado: avances en rendimiento y flexibilidad operativa desbloquean nuevas capacidades
Migrar a Zilliz Cloud aportó mejoras inmediatas y medibles para Orfium, mejorando el rendimiento del sistema, simplificando las operaciones y desbloqueando capacidades que antes eran imposibles con su infraestructura heredada.
Rendimiento escalable a escala de miles de millones de vectores
Una de las mejoras más impactantes fue la capacidad de escalar sin problemas sin sacrificar el rendimiento. El equipo pasó rápidamente de su configuración inicial a una configuración optimizada para un mayor rendimiento, y los resultados superaron las expectativas. Lo que antes parecía ser límites de infraestructura resultó ser cuellos de botella que su nuevo sistema podía superar fácilmente.
Hoy, Orfium gestiona en la nube una base de datos de referencia de entre 500.000 y 1 millón de archivos de audio —aproximadamente un cuarto de billón de vectores— con facilidad. Con su stack anterior basado en Elasticsearch, esta escala los habría llevado al límite de la capacidad del sistema. Con Zilliz Cloud, esas restricciones ya no son una preocupación.
Respuesta en tiempo real para una protección inmediata de los derechos de autor
La latencia ha pasado de ser un desafío a convertirse en una ventaja competitiva. Con la arquitectura nativa de vectores de Zilliz Cloud, Orfium ahora puede ejecutar coincidencias de audio aceleradas en plataformas de broadcast, redes sociales y streaming. Esta capacidad respalda su misión de proteger la propiedad intelectual de los artistas en el momento en que el contenido se publica o se emite.
Como dijo George: “La latencia es importante. En esta etapa, probablemente sea lo más importante.” La velocidad y capacidad de respuesta de Zilliz Cloud le permiten respaldar con confianza la detección sensible al tiempo a escala.
Escalado predecible y rentable
Mientras que su configuración anterior hacía que los costos se dispararan a medida que crecían los volúmenes de datos, Zilliz Cloud ofrece un modelo más sostenible. Sus precios se alinean con el uso y el valor, lo que permite a Orfium expandirse con confianza sin preocuparse por gastos de infraestructura descontrolados.
Con los mismos 500.000 archivos de audio que antes llevaban su sistema Elasticsearch al límite, Orfium ahora experimenta un rendimiento constantemente alto a una fracción del costo. “Es realmente eficiente en términos de precisión y latencia y todo lo demás,” dijo George.
Operaciones simplificadas e iteración más rápida
La simplicidad operativa ha sido otro beneficio destacado. La experiencia gestionada de Zilliz Cloud eliminó la complejidad de mantener infraestructura vectorial, facilitando que el equipo despliegue actualizaciones y escale cargas de trabajo sin interrupciones.
George destacó lo fluida que fue la transición: “Fue muy, muy rápido desde el momento en que decidimos optar por Zilliz hasta el momento en que realmente tuvimos algo funcionando.” La capacidad de realizar cambios de infraestructura sin afectar a los pipelines ha permitido a Orfium iterar más rápidamente y mantenerse enfocado en ofrecer valor al cliente.
Qué sigue: construir un ecosistema de detección de derechos de autor más inteligente
Con la coincidencia de audio basada en vectores ya bien establecida, Orfium ahora está expandiendo su ecosistema de detección de derechos de autor hacia nuevas fronteras, aprovechando Zilliz Cloud para casos de uso como la transcripción de letras, la coincidencia de metadatos y la búsqueda híbrida.
Detección basada en letras para covers y adaptaciones: En lugar de identificar canciones solo por su audio, Orfium planea extraer la letra de un archivo y compararla con una base de datos de letras almacenada. Esta técnica ofrece una protección complementaria, especialmente útil cuando la instrumentación, el tempo o el estilo vocal alteran significativamente la huella digital de una canción.
“La idea es que recibes un archivo de audio, extraes la letra y luego comparas esa letra con la base de datos que ya tienes,” explicó George.
Búsqueda híbrida: combinación de vectores con texto: Zilliz Cloud puede respaldar la coincidencia de letras mediante búsqueda híbrida, combinando la similitud vectorial con la detección de frases basada en texto. Esto abre la puerta a combinar la comprensión semántica con la coincidencia tradicional de palabras clave.
Coincidencia de metadatos semánticos y descubrimiento de relaciones: Al comparar puntos de datos asociados, como nombres de artistas, información de pistas, fechas de lanzamiento o géneros, Orfium puede revelar relaciones entre canciones y activos que no son evidentes solo a través del audio. Esto permitiría mecanismos de descubrimiento más ricos, desde identificar covers y remixes hasta mapear redes de influencia musical.
Escalado para el futuro: crecimiento de 100x en el volumen de vectores: La hoja de ruta de Orfium incluye un escalado agresivo. Si bien su implementación actual implica aproximadamente un millón de archivos de audio, su visión a largo plazo implica indexar decenas de millones hasta más de 100 millones de activos de audio, lo que resulta en decenas de miles de millones de vectores. Una escala así sería inmanejable sin una base de datos vectorial diseñada específicamente. La arquitectura de Zilliz Cloud proporciona la escalabilidad y flexibilidad necesarias para respaldar este crecimiento mientras mantiene un rendimiento y una fiabilidad óptimos.
Conclusión: Una base escalable para el futuro de la protección de derechos de autor
Al adoptar Zilliz Cloud, Orfium pasó de operar al límite a innovar con confianza. Ahora ofrecen detección en tiempo real en enormes bibliotecas de audio, simplifican las operaciones para sus ingenieros y desbloquean nuevas capacidades que antes no podrían haber imaginado.
Nos enorgullece que Zilliz Cloud desempeñe un papel en impulsar la visión de Orfium. Su liderazgo técnico y su enfoque en la innovación siguen estableciendo un estándar elevado para lo que es posible en la gestión de derechos, y nos entusiasma apoyar su misión mientras construyen el futuro de la inteligencia de audio y contenido a escala global.
- Acerca de Orfium
- El desafío: búsqueda de audio de miles de millones de vectores en infraestructura heredada
- La búsqueda de una solución nativa para vectores
- La solución: impulsar la coincidencia de audio y la detección de versiones de canciones con Zilliz Cloud
- El resultado: avances en rendimiento y flexibilidad operativa desbloquean nuevas capacidades
- Qué sigue: construir un ecosistema de detección de derechos de autor más inteligente
- Conclusión: Una base escalable para el futuro de la protección de derechos de autor
Contenido
Caso de uso
Industria
Música
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


