Dai colli di bottiglia alle svolte: come Orfium ha scalato la ricerca audio da miliardi di vettori con Zilliz Cloud

1 miliardo di vettori
Gestito con facilità
Risposta in tempo reale
per la protezione immediata del copyright
Costi ridotti
durante la gestione degli stessi file
Migrazione da parte di un singolo ingegnere
per cicli di sviluppo più rapidi
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Immagina di tracciare miliardi di frammenti musicali che scorrono su YouTube, TikTok, radio e TV—ogni singolo giorno—e di garantire che gli artisti vengano pagati equamente, ovunque appaiano le loro canzoni. Per Orfium, un’azienda globale di tecnologia per i diritti musicali e il copyright, questo non è un esperimento mentale. È la loro missione.
Tuttavia, quando il loro stack Elasticsearch/OpenSearch ha iniziato a mostrare segni di cedimento, gli ingegneri si sono ritrovati a spegnere incendi infrastrutturali invece di costruire nuove funzionalità. La configurazione personalizzata era onerosa da mantenere e ottimizzare, la latenza aumentava, il throughput non riusciva a tenere il passo con il business e l’indicizzazione raggiungeva i propri limiti. Anche i costi sono diventati imprevedibili. “Stavamo operando al limite di ciò che era possibile con il nostro vecchio sistema,” ha dichiarato George Kastrinakis, Director of Data Science and AI Services di Orfium.
Informazioni su Orfium
Orfium è un leader tecnologico globale che sta plasmando il futuro della gestione dei diritti musicali. Fornisce tecnologia basata sull’AI e servizi specialistici alle principali aziende mondiali della musica e dell’intrattenimento, consentendo loro di ottimizzare la gestione, la concessione in licenza, la reportistica e la monetizzazione dei contenuti protetti da copyright.
Combinando una profonda esperienza nella gestione dei diritti digitali con un solido monitoraggio delle trasmissioni e la gestione dei cue sheet, Orfium identifica, abbina e segnala con precisione l’utilizzo della musica nell’intero panorama dei media. Questo garantisce ai clienti il massimo ricavo, un’accuratezza senza pari ed efficienza operativa.
Dalla sua fondazione nel 2015–2016, Orfium è diventata un partner di fiducia per le principali etichette discografiche, editori, broadcaster e piattaforme al mondo—including YouTube, TikTok, the BBC, and Sky. Combinando il riconoscimento avanzato dei contenuti, il collegamento dei dati basato sull’AI e un’attribuzione trasparente delle royalty, Orfium consente ad artisti, compositori e titolari dei diritti di proteggere e massimizzare il valore del proprio lavoro su larga scala, in tempo reale e in tutto il mondo.
La sfida: ricerca audio su miliardi di vettori su infrastruttura legacy
Con la rapida espansione del business di Orfium, è cresciuto anche il volume di contenuti da analizzare. Questa crescita ha esercitato un’enorme pressione sull’infrastruttura esistente, che era fondamentale per i servizi di riconoscimento dei contenuti e gestione del copyright. Il cuore del problema era la scala: il database di riferimento era cresciuto fino a comprendere centinaia di migliaia di file audio, e i sistemi in uso non erano stati progettati per gestire questo volume di vettori.
La pipeline di Orfium non si limita ad archiviare MP3 e MP4 — sfrutta modelli di machine learning per estrarre embedding audio per il matching di similarità. “Un embedding vettoriale è una rappresentazione numerica ricca di informazioni delle caratteristiche audio in uno spazio ad alta dimensionalità,” ha spiegato George Kastrinakis, Director of Data Science and AI Services di Orfium. “Per un file audio di due minuti, estraiamo più embedding — ciascuno dei quali cattura le caratteristiche audio chiave di uno specifico segmento della traccia.”
Questo approccio genera un’impronta digitale per ogni segmento audio, il che significa che ogni traccia produce decine—a volte centinaia—di vettori. Questi vettori ad alta dimensionalità catturano la firma acustica unica dell’audio, consentendo il rilevamento preciso di contenuti riutilizzati in contesti diversi. “Puoi immaginare di combinare queste impronte digitali per eseguire una ricerca e rilevare quali segmenti di una canzone appaiono in un altro file,” ha aggiunto George.
Ma questa tecnica aveva un costo. Lo stack Elasticsearch e OpenSearch esistente di Orfium—inizialmente progettato per la ricerca full-text per parole chiave—non era adatto alle ricerche di similarità vettoriale ad alta dimensionalità. “Con i database tradizionali, raggiungi rapidamente un limite. Diventa costoso e lento,” ha detto George. Il sistema è stato spinto ai suoi limiti. Indicizzare 500.000 file audio si è tradotto in un enorme carico sulle prestazioni, causando problemi di latenza, costi alle stelle e un’infrastruttura che operava a pieno regime solo per restare a galla.
La ricerca di una soluzione vector-native
Man mano che l’infrastruttura di Orfium iniziava a essere messa sotto pressione dalle esigenze del fingerprinting audio su larga scala, il team di engineering ha avviato una ricerca completa di una soluzione progettata appositamente per la ricerca di similarità vettoriale ad alta dimensionalità.
Benchmarking per prestazioni, costi e scalabilità
Il team di Orfium ha condotto benchmark interni su diversi candidati, tra cui open-source Milvus, Zilliz Cloud (una versione gestita di Milvus), TileDB, Snowflake e Pgvector, in base a tre criteri chiave: accuratezza del recupero, efficienza dei costi e scalabilità.
Accuratezza del recupero vettoriale. Poiché il loro processo di fingerprinting genera più vettori di feature per ogni segmento audio e lo spazio vettoriale sta diventando estremamente popolato, anche lievi differenze nei vettori causate da una quantizzazione aggressiva possono incidere significativamente sulle metriche di recupero.
Efficienza dei costi. Con piani per scalare da centinaia di migliaia a potenzialmente decine di milioni di file audio di riferimento—ognuno dei quali produce più vettori—hanno previsto un footprint totale nell’ordine di decine di miliardi di vettori. Con i modelli di pricing tradizionali, una crescita del genere diventerebbe proibitivamente costosa.
Scalabilità e throughput. La loro pipeline di produzione elabora audio proveniente da trasmissioni radiofoniche e televisive, nonché da YouTube e TikTok, in volumi enormi. Un workload tipico coinvolge database di riferimento composti da fino a milioni di file audio, con un risultato di circa miliardi di vettori. Qualsiasi soluzione dovrebbe supportare indexing e querying ad alto volume senza colli di bottiglia.
La svolta: Zilliz Cloud
Rispetto ad altre opzioni, Milvus open-source offriva una flessibilità promettente, consentendo al team di sperimentare con il tuning a livello di sistema. Tuttavia, l’overhead era significativo. Pur apprezzando il controllo che offriva, George ha ammesso che “ci è voluto molto impegno per configurare davvero tutto,” il che andava contro il loro obiettivo di accelerare il deployment e minimizzare la manutenzione.
Questo carico operativo ha reso più interessante un’alternativa completamente gestita. Dopo test approfonditi, Zilliz Cloud, il Milvus gestito, è risultato il migliore. Si è distinto come la soluzione più completa e pronta per la produzione. Ha tutto ciò che il meglio di Milvus offre, era facile da adottare, ha performato bene sotto carico e ha fornito un’esperienza gestita che ha liberato il team, permettendogli di concentrarsi sulla creazione di applicazioni anziché sull’infrastruttura.
Il deployment è stato semplice. Un ingegnere ha guidato l’intera migrazione—dal caricamento dei dati di riferimento e dall’estrazione delle feature alla configurazione del sistema—interamente tramite la console di Zilliz Cloud.
Come ha riassunto George, “era la cosa migliore da offrire—in termini di prestazioni, costi e facilità d’uso.”
La soluzione: potenziare Audio Matching e Cover Song Detection con Zilliz Cloud
Ora, Orfium utilizza Zilliz Cloud per alimentare due servizi mission-critical: audio matching e riconoscimento delle cover song. Il primo identifica l’utilizzo esatto di brani noti su diverse piattaforme media. Il secondo va un passo oltre, rilevando versioni diverse o cover di quei brani, anche se sono ri-registrati o leggermente alterati.
Per supportare queste capacità, Orfium si affida a reti neurali proprietarie per creare embedding dai contenuti audio. Questi vettori sono archiviati in Zilliz Cloud e recuperati tramite ricerche di similarità vettoriale. Modelli tradizionali di machine learning e architetture basate su transformer facilitano l’analisi dei metadati per determinare il grado di correlazione tra due asset. George ha spiegato che “usano reti neurali per creare embedding e poi fanno scoring sui vettori che recuperiamo,” applicando al contempo modelli che valutano la similarità dei metadati tra asset.
Zilliz Cloud ora svolge un ruolo centrale nell’infrastruttura AWS-based di Orfium. Sottoscritto tramite AWS Marketplace, si integra perfettamente con i loro servizi cloud esistenti per compute e storage.
Il risultato: progressi nelle prestazioni e flessibilità operativa sbloccano nuove capacità
La migrazione a Zilliz Cloud ha portato miglioramenti immediati e misurabili per Orfium, migliorando le prestazioni del sistema, semplificando le operazioni e sbloccando capacità che in precedenza erano impossibili con la loro infrastruttura legacy.
Prestazioni scalabili su scala di miliardi di vettori
Uno dei vantaggi più significativi è stata la capacità di scalare senza problemi senza sacrificare le prestazioni. Il team è passato rapidamente dalla configurazione iniziale a una configurazione ottimizzata per un throughput più elevato, e i risultati hanno superato le aspettative. Quelli che un tempo sembravano limiti dell’infrastruttura si sono rivelati colli di bottiglia che il nuovo sistema poteva facilmente superare.
Oggi, Orfium gestisce sul cloud un database di riferimento da 500.000 a 1 milione di file audio—circa un quarto di miliardo di vettori—con facilità. Con il precedente stack basato su Elasticsearch, questa scala li avrebbe spinti al limite della capacità del sistema. Con Zilliz Cloud, questi vincoli non sono più una preoccupazione.
Risposta in tempo reale per una protezione immediata del copyright
La latenza è passata dall’essere una sfida a diventare un vantaggio competitivo. Con l’architettura vector-native di Zilliz Cloud, Orfium è ora in grado di eseguire il matching audio accelerato su piattaforme broadcast, social e streaming. Questa capacità supporta la loro missione di proteggere la proprietà intellettuale degli artisti nel momento in cui il contenuto viene pubblicato o trasmesso.
Come ha detto George, “La latenza è importante. In questa fase, probabilmente è la cosa più importante.” La velocità e la reattività di Zilliz Cloud le consentono di supportare con sicurezza il rilevamento sensibile al fattore tempo su larga scala.
Scalabilità prevedibile ed efficiente in termini di costi
Laddove la configurazione precedente faceva impennare i costi man mano che i volumi di dati crescevano, Zilliz Cloud offre un modello più sostenibile. I suoi prezzi sono allineati all’utilizzo e al valore, consentendo a Orfium di espandersi con sicurezza senza preoccuparsi di spese infrastrutturali fuori controllo.
Con gli stessi 500.000 file audio che un tempo spingevano il loro sistema Elasticsearch al limite, Orfium ora sperimenta prestazioni costantemente elevate a una frazione del costo. “È davvero performante in termini di accuratezza e latenza e tutto il resto,” ha detto George.
Operazioni semplificate e iterazione più rapida
La semplicità operativa è stata un altro beneficio notevole. L’esperienza gestita di Zilliz Cloud ha eliminato la complessità della manutenzione dell’infrastruttura vettoriale, rendendo facile per il team distribuire aggiornamenti e scalare i workload senza interruzioni.
George ha sottolineato quanto sia stata fluida la transizione: “È stato molto, molto rapido dal momento in cui abbiamo deciso di scegliere Zilliz al momento in cui avevamo effettivamente qualcosa funzionante.” La possibilità di apportare modifiche all’infrastruttura senza impattare le pipeline ha permesso a Orfium di iterare più rapidamente e di rimanere concentrata sulla generazione di valore per i clienti.
Cosa c’è dopo: costruire un ecosistema di rilevamento del copyright più intelligente
Con il matching audio basato su vettori ormai ben consolidato, Orfium sta ora espandendo il proprio ecosistema di rilevamento del copyright verso nuove frontiere, sfruttando Zilliz Cloud per casi d’uso come la trascrizione dei testi, il matching dei metadati e la ricerca ibrida.
Rilevamento basato sui testi per cover e adattamenti: Invece di identificare i brani solo dal loro audio, Orfium prevede di estrarre i testi da un file e confrontarli con un database di testi archiviato. Questa tecnica offre una protezione complementare, particolarmente utile quando strumentazione, tempo o stile vocale alterano significativamente l’impronta digitale di una canzone.
“L’idea è che si prende un file audio, si estraggono i testi e poi si confrontano quei testi con il database che si ha già,” ha spiegato George.
Ricerca ibrida: combinare vettori e testo: Zilliz Cloud può supportare il matching dei testi tramite ricerca ibrida, combinando la similarità vettoriale con il rilevamento di frasi basato sul testo. Questo apre la porta alla combinazione della comprensione semantica con il tradizionale matching di parole chiave.
Corrispondenza dei metadati semantici e scoperta delle relazioni: Confrontando punti dati associati, come nomi degli artisti, informazioni sui brani, date di uscita o generi, Orfium può far emergere relazioni tra canzoni e asset che non sono evidenti solo tramite l’audio. Ciò consentirebbe meccanismi di scoperta più ricchi, dall’identificazione di cover e remix alla mappatura delle reti di influenza musicale.
Scalabilità per il futuro: crescita di 100 volte nel volume vettoriale: La roadmap di Orfium include una scalabilità aggressiva. Sebbene la loro implementazione attuale coinvolga circa un milione di file audio, la loro visione a lungo termine prevede l’indicizzazione di decine di milioni fino a oltre 100 milioni di asset audio, con il risultato di decine di miliardi di vettori. Una scala simile sarebbe ingestibile senza un database vettoriale appositamente progettato. L’architettura di Zilliz Cloud offre la scalabilità e la flessibilità necessarie per supportare questa crescita, mantenendo al contempo prestazioni e affidabilità ottimali.
Conclusione: una base scalabile per il futuro della protezione del copyright
Adottando Zilliz Cloud, Orfium è passata dall’operare ai propri limiti all’innovare con fiducia. Ora offre rilevamento in tempo reale su enormi librerie audio, semplifica le operazioni per i suoi ingegneri e sblocca nuove capacità che prima non avrebbe potuto immaginare.
Siamo orgogliosi che Zilliz Cloud svolga un ruolo nel dare impulso alla visione di Orfium. La sua leadership tecnica e il suo focus sull’innovazione continuano a stabilire uno standard elevato per ciò che è possibile nella gestione dei diritti, e siamo entusiasti di supportare la sua missione mentre costruisce il futuro dell’audio e della content intelligence su scala globale.
- Informazioni su Orfium
- La sfida: ricerca audio su miliardi di vettori su infrastruttura legacy
- La ricerca di una soluzione vector-native
- La soluzione: potenziare Audio Matching e Cover Song Detection con Zilliz Cloud
- Il risultato: progressi nelle prestazioni e flessibilità operativa sbloccano nuove capacità
- Cosa c’è dopo: costruire un ecosistema di rilevamento del copyright più intelligente
- Conclusione: una base scalabile per il futuro della protezione del copyright
Contenuto
Caso d'Uso
Settore
Musica
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


