Des goulots d’étranglement aux percées : comment Orfium a fait évoluer la recherche audio à milliards de vecteurs avec Zilliz Cloud

1 milliard de vecteurs
Géré avec facilité
Réponse en temps réel
pour une protection immédiate du droit d’auteur
Coûts réduits
lors du traitement des mêmes fichiers
Migration par un seul ingénieur
pour des cycles de développement plus rapides
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Imaginez suivre des milliards d’extraits musicaux circulant sur YouTube, TikTok, à la radio et à la télévision — chaque jour — et veiller à ce que les artistes soient rémunérés équitablement, quel que soit l’endroit où leurs chansons apparaissent. Pour Orfium, une entreprise mondiale de technologie des droits musicaux et du droit d’auteur, ce n’est pas une expérience de pensée. C’est leur mission.
Cependant, à mesure que leur pile Elasticsearch/OpenSearch commençait à montrer des signes de faiblesse, les ingénieurs se sont retrouvés à gérer des urgences d’infrastructure au lieu de développer de nouvelles fonctionnalités. La configuration personnalisée était lourde à maintenir et à optimiser, la latence augmentait, le débit ne suivait pas le rythme de l’activité, et l’indexation atteignait ses limites. Les coûts devenaient également imprévisibles. « Nous opérions à la limite de ce qui était possible avec notre ancien système », a déclaré George Kastrinakis, Director of Data Science and AI Services chez Orfium.
À propos d’Orfium
Orfium est un leader technologique mondial qui façonne l’avenir de la gestion des droits musicaux. L’entreprise fournit des technologies alimentées par l’IA et des services d’experts aux plus grandes sociétés de musique et de divertissement au monde, leur permettant d’optimiser la gestion, l’octroi de licences, le reporting et la monétisation des contenus protégés par le droit d’auteur.
En combinant une expertise approfondie en gestion des droits numériques avec une solide surveillance de la diffusion et une gestion des cue sheets, Orfium identifie, associe et rapporte avec précision l’utilisation de la musique dans l’ensemble du paysage médiatique. Cela garantit à leurs clients des revenus maximaux, une précision inégalée et une efficacité opérationnelle.
Depuis sa création en 2015–2016, Orfium est devenu un partenaire de confiance pour les plus grands labels, éditeurs, diffuseurs et plateformes au monde — notamment YouTube, TikTok, la BBC et Sky. En combinant la reconnaissance avancée de contenu, la liaison de données alimentée par l’IA et l’attribution transparente des redevances, Orfium permet aux artistes, compositeurs et titulaires de droits de protéger et de maximiser la valeur de leur travail à grande échelle, en temps réel et partout dans le monde.
Le défi : recherche audio à l’échelle du milliard de vecteurs sur une infrastructure héritée
À mesure que l’activité d’Orfium s’est rapidement développée, le volume de contenu à analyser a lui aussi augmenté. Cette croissance a exercé une pression immense sur leur infrastructure existante, qui était fondamentale pour leurs services de reconnaissance de contenu et de gestion des droits d’auteur. Le cœur du problème était l’échelle : la base de données de référence s’était développée jusqu’à englober des centaines de milliers de fichiers audio, et les systèmes en place n’avaient pas été conçus pour gérer ce volume de vecteurs.
Le pipeline d’Orfium ne se contente pas de stocker des MP3 et des MP4 — il exploite des modèles d’apprentissage automatique pour extraire des embeddings audio destinés à la recherche de similarité. « Un embedding vectoriel est une représentation numérique riche en informations des caractéristiques audio dans un espace de grande dimension », a expliqué George Kastrinakis, Director of Data Science and AI Services chez Orfium. « Pour un fichier audio de deux minutes, nous extrayons plusieurs embeddings — chacun capturant les principales caractéristiques audio d’un segment spécifique de la piste. »
Cette approche génère une empreinte par segment audio, ce qui signifie que chaque piste produit des dizaines — parfois des centaines — de vecteurs. Ces vecteurs de grande dimension capturent la signature acoustique unique de l’audio, permettant une détection précise de contenus réutilisés dans différents contextes. « Vous pouvez imaginer combiner ces empreintes pour lancer une recherche et détecter quels segments d’une chanson apparaissent dans un autre fichier », a ajouté George.
Mais cette technique avait un coût. La pile Elasticsearch et OpenSearch existante d’Orfium — initialement conçue pour la recherche par mots-clés en texte intégral — n’était pas adaptée aux recherches de similarité vectorielle en grande dimension. « Avec les bases de données traditionnelles, on atteint rapidement un mur. Cela devient coûteux et lent », a déclaré George. Le système a été poussé à ses limites. L’indexation de 500 000 fichiers audio s’est traduite par une énorme pression sur les performances, entraînant des problèmes de latence, une flambée des coûts et une infrastructure fonctionnant à plein régime simplement pour rester opérationnelle.
La recherche d’une solution native vectorielle
Alors que l’infrastructure d’Orfium commençait à être mise sous tension par les exigences du fingerprinting audio à grande échelle, l’équipe d’ingénierie a lancé une recherche approfondie d’une solution spécialement conçue pour la recherche de similarité vectorielle en haute dimension.
Évaluation comparative des performances, des coûts et du passage à l’échelle
L’équipe d’Orfium a mené des benchmarks en interne sur plusieurs candidats, notamment Milvus en open source, Zilliz Cloud (une version managée de Milvus), TileDB, Snowflake et Pgvector, selon trois critères clés : précision de la récupération, efficacité des coûts et évolutivité.
Précision de la récupération vectorielle. Comme leur processus de fingerprinting génère plusieurs vecteurs de caractéristiques par segment audio et que l’espace vectoriel devient extrêmement dense, même de légères différences dans les vecteurs causées par une quantification agressive peuvent avoir un impact significatif sur les métriques de récupération.
Efficacité des coûts. Avec des plans visant à passer de centaines de milliers à potentiellement des dizaines de millions de fichiers audio de référence — chacun produisant plusieurs vecteurs —, ils ont projeté une empreinte totale de dizaines de milliards de vecteurs. Avec les modèles de tarification traditionnels, une telle croissance deviendrait prohibitive.
Évolutivité et débit. Leur pipeline de production traite de l’audio provenant de diffusions radio et télévisées, ainsi que de YouTube et TikTok, dans des volumes massifs. Une charge de travail typique implique des bases de données de référence comprenant jusqu’à des millions de fichiers audio, ce qui représente environ des milliards de vecteurs. Toute solution devrait prendre en charge une indexation et des requêtes à haut volume sans goulots d’étranglement.
La percée : Zilliz Cloud
Par rapport aux autres options, Milvus en open source offrait une flexibilité prometteuse, permettant à l’équipe d’expérimenter des optimisations au niveau du système. Cependant, la surcharge était importante. Bien qu’ils aient apprécié le contrôle que cela leur donnait, George a admis qu’il « fallait beaucoup d’efforts pour réellement tout mettre en place », ce qui allait à l’encontre de leur objectif d’accélérer le déploiement et de minimiser la maintenance.
Cette charge opérationnelle a rendu une alternative entièrement managée plus attractive. Après des tests approfondis, Zilliz Cloud, le Milvus managé, est arrivé en tête. Elle s’est distinguée comme la solution la plus complète et la plus prête pour la production. Elle dispose de tout ce que le meilleur de Milvus offre, était facile à adopter, fonctionnait bien sous charge et fournissait une expérience managée qui a permis à l’équipe de se concentrer sur la création d’applications plutôt que sur l’infrastructure.
Le déploiement a été simple. Un ingénieur a dirigé la migration complète — du chargement des données de référence et de l’extraction des caractéristiques à la configuration du système — entièrement via la console Zilliz Cloud.
Comme George l’a résumé, « c’était la meilleure offre — en termes de performances, de coûts et de facilité d’utilisation. »
La solution : alimenter la correspondance audio et la détection de reprises avec Zilliz Cloud
Aujourd’hui, Orfium utilise Zilliz Cloud pour alimenter deux services essentiels à sa mission : la correspondance audio et la reconnaissance de reprises. Le premier identifie l’utilisation exacte de chansons connues sur différentes plateformes médiatiques. Le second va plus loin, en détectant différentes versions ou reprises de ces chansons, même si elles sont réenregistrées ou légèrement modifiées.
Pour prendre en charge ces capacités, Orfium s’appuie sur des réseaux neuronaux propriétaires afin de créer des embeddings à partir de contenus audio. Ces vecteurs sont stockés dans Zilliz Cloud et récupérés au moyen de recherches de similarité vectorielle. Des modèles d’apprentissage automatique traditionnels et des architectures basées sur les transformers facilitent l’analyse des métadonnées afin de déterminer le degré de relation entre deux ressources. George a expliqué qu’ils « utilisent des réseaux neuronaux pour créer des embeddings, puis effectuent une notation sur les vecteurs que nous récupérons », tout en appliquant également des modèles qui évaluent la similarité des métadonnées entre les ressources.
Zilliz Cloud joue désormais un rôle central dans l’infrastructure d’Orfium basée sur AWS. Souscrit via l’AWS Marketplace, il s’intègre parfaitement aux côtés de leurs services cloud existants pour le calcul et le stockage.
Le résultat : des gains de performance majeurs et une flexibilité opérationnelle ouvrent de nouvelles possibilités
La migration vers Zilliz Cloud a apporté à Orfium des améliorations immédiates et mesurables, renforçant les performances du système, simplifiant les opérations et ouvrant des possibilités qui étaient auparavant impossibles avec leur infrastructure héritée.
Des performances évolutives à l’échelle du milliard de vecteurs
L’un des gains les plus significatifs a été la capacité à évoluer de manière fluide sans sacrifier les performances. L’équipe est rapidement passée de sa configuration initiale à une configuration optimisée pour un débit plus élevé, et les résultats ont dépassé les attentes. Ce qui ressemblait autrefois à des limites d’infrastructure s’est révélé être des goulots d’étranglement que leur nouveau système pouvait facilement surmonter.
Aujourd’hui, Orfium gère sans difficulté dans le cloud une base de données de référence de 500 000 à 1 million de fichiers audio — soit environ un quart de milliard de vecteurs. Avec leur pile précédente basée sur Elasticsearch, cette échelle les aurait poussés aux limites de la capacité du système. Avec Zilliz Cloud, ces contraintes ne sont plus un sujet de préoccupation.
Une réponse en temps réel pour une protection immédiate des droits d’auteur
La latence est passée du statut de défi à celui d’avantage concurrentiel. Grâce à l’architecture native vectorielle de Zilliz Cloud, Orfium est désormais en mesure d’exécuter une mise en correspondance audio accélérée sur les plateformes de diffusion, sociales et de streaming. Cette capacité soutient leur mission de protéger la propriété intellectuelle des artistes dès le moment où le contenu est publié ou diffusé.
Comme l’a dit George : « La latence est importante. À ce stade, c’est probablement le plus important. » La rapidité et la réactivité de Zilliz Cloud lui permettent de prendre en charge avec confiance la détection sensible au temps à grande échelle.
Une mise à l’échelle prévisible et rentable
Là où leur configuration précédente faisait exploser les coûts à mesure que les volumes de données augmentaient, Zilliz Cloud offre un modèle plus durable. Sa tarification est alignée sur l’usage et la valeur, ce qui permet à Orfium de se développer en toute confiance sans craindre des dépenses d’infrastructure incontrôlées.
Avec les mêmes 500 000 fichiers audio qui poussaient autrefois leur système Elasticsearch à ses limites, Orfium bénéficie désormais de performances élevées et constantes à une fraction du coût. « C’est vraiment performant en termes de précision, de latence et de tout le reste », a déclaré George.
Des opérations simplifiées et des itérations plus rapides
La simplicité opérationnelle a été un autre avantage remarquable. L’expérience managée de Zilliz Cloud a éliminé la complexité liée à la maintenance de l’infrastructure vectorielle, permettant à l’équipe de déployer facilement des mises à jour et de faire évoluer les charges de travail sans interruption.
George a souligné la fluidité de la transition : « Cela a été très, très rapide entre le moment où nous avons décidé d’opter pour Zilliz et le moment où nous avons réellement obtenu quelque chose qui fonctionnait. » La capacité à apporter des changements d’infrastructure sans impacter les pipelines a permis à Orfium d’itérer plus rapidement et de rester concentré sur la création de valeur pour ses clients.
Prochaine étape : construire un écosystème de détection des droits d’auteur plus intelligent
La mise en correspondance audio basée sur les vecteurs étant désormais bien établie, Orfium étend maintenant son écosystème de détection des droits d’auteur vers de nouveaux horizons, en exploitant Zilliz Cloud pour des cas d’usage tels que la transcription de paroles, la mise en correspondance de métadonnées et la recherche hybride.
Détection basée sur les paroles pour les reprises et adaptations : Au lieu d’identifier les chansons uniquement par leur audio, Orfium prévoit d’extraire les paroles d’un fichier et de les comparer à une base de données de paroles stockée. Cette technique offre une protection complémentaire, particulièrement utile lorsque l’instrumentation, le tempo ou le style vocal modifient considérablement l’empreinte d’une chanson.
« L’idée est que vous obtenez un fichier audio, extrayez les paroles, puis faites correspondre ces paroles avec la base de données que vous possédez déjà », a expliqué George.
Recherche hybride : combiner les vecteurs avec le texte : Zilliz Cloud peut prendre en charge la mise en correspondance des paroles grâce à la recherche hybride, en associant la similarité vectorielle à la détection d’expressions basée sur le texte. Cela ouvre la voie à une combinaison de la compréhension sémantique avec la correspondance traditionnelle par mots-clés.
Correspondance des métadonnées sémantiques et découverte des relations : En comparant les points de données associés — tels que les noms d’artistes, les informations sur les pistes, les dates de sortie ou les genres — Orfium peut faire émerger des relations entre des chansons et des ressources qui ne sont pas évidentes à partir de l’audio seul. Cela permettrait des mécanismes de découverte plus riches, de l’identification de reprises et de remixes à la cartographie des réseaux d’influence musicale.
Mise à l’échelle pour l’avenir : croissance de 100x du volume de vecteurs : La feuille de route d’Orfium inclut une montée en charge ambitieuse. Alors que leur déploiement actuel concerne environ un million de fichiers audio, leur vision à long terme consiste à indexer des dizaines de millions, voire plus de 100 millions de ressources audio, ce qui se traduira par des dizaines de milliards de vecteurs. Une telle échelle serait ingérable sans une base de données vectorielle conçue à cet effet. L’architecture de Zilliz Cloud offre la scalabilité et la flexibilité nécessaires pour accompagner cette croissance tout en maintenant des performances et une fiabilité optimales.
Conclusion : Une base scalable pour l’avenir de la protection du droit d’auteur
En adoptant Zilliz Cloud, Orfium est passée d’une exploitation à ses limites à une innovation menée avec confiance. Ils fournissent désormais une détection en temps réel sur d’immenses bibliothèques audio, simplifient les opérations pour leurs ingénieurs et débloquent de nouvelles capacités qu’ils n’auraient pas pu imaginer auparavant.
Nous sommes fiers que Zilliz Cloud joue un rôle dans la réalisation de la vision d’Orfium. Leur leadership technique et leur souci d’innovation continuent de placer la barre très haut pour ce qui est possible dans la gestion des droits, et nous sommes ravis de soutenir leur mission alors qu’ils construisent l’avenir de l’intelligence audio et des contenus à l’échelle mondiale.
- À propos d’Orfium
- Le défi : recherche audio à l’échelle du milliard de vecteurs sur une infrastructure héritée
- La recherche d’une solution native vectorielle
- La solution : alimenter la correspondance audio et la détection de reprises avec Zilliz Cloud
- Le résultat : des gains de performance majeurs et une flexibilité opérationnelle ouvrent de nouvelles possibilités
- Prochaine étape : construire un écosystème de détection des droits d’auteur plus intelligent
- Conclusion : Une base scalable pour l’avenir de la protection du droit d’auteur
Contenu
Cas d'usage
Secteur d'activité
Musique
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


