Von Engpässen zu Durchbrüchen: Wie Orfium die Audiosuche mit Milliarden von Vektoren mit Zilliz Cloud skalierte

1 Milliarde Vektoren
Mühelos gehandhabt
Echtzeit-Antwort
für sofortigen Urheberrechtsschutz
Reduzierte Kosten
beim Verarbeiten derselben Dateien
Migration durch einen einzelnen Ingenieur
für schnellere Entwicklungszyklen
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Stell dir vor, du verfolgst Milliarden von Musikschnipseln, die über YouTube, TikTok, Radio und TV fließen—jeden einzelnen Tag—und stellst sicher, dass Künstler fair bezahlt werden, egal wo ihre Songs auftauchen. Für Orfium, ein globales Technologieunternehmen für Musikrechte und Urheberrecht, ist das kein Gedankenexperiment. Es ist ihre Mission.
Als jedoch ihr Elasticsearch/OpenSearch-Stack zunehmend an seine Grenzen stieß, sahen sich die Ingenieure damit konfrontiert, Infrastrukturbrände zu löschen, statt neue Funktionen zu entwickeln. Das maßgeschneiderte Setup war aufwendig zu warten und zu optimieren, die Latenz stieg, der Durchsatz hielt nicht mit dem Geschäft Schritt, und die Indexierung stieß an Grenzen. Auch die Kosten wurden unberechenbar. „Wir arbeiteten am Rande dessen, was mit unserem alten System möglich war“, sagte George Kastrinakis, Director of Data Science and AI Services bei Orfium.
Über Orfium
Orfium ist ein weltweit führender Technologieanbieter, der die Zukunft des Musikrechtemanagements gestaltet. Das Unternehmen bietet KI-gestützte Technologie und Expertendienstleistungen für die weltweit führenden Musik- und Unterhaltungsunternehmen und ermöglicht ihnen, das Management, die Lizenzierung, das Reporting und die Monetarisierung urheberrechtlich geschützter Inhalte zu optimieren.
Durch die Kombination umfassender Expertise im digitalen Rechtemanagement mit robustem Broadcast-Monitoring und Cue-Sheet-Management identifiziert, matched und meldet Orfium die Nutzung von Musik über die gesamte Medienlandschaft hinweg präzise. Dies liefert ihren Kunden maximale Einnahmen, beispiellose Genauigkeit und operative Effizienz.
Seit seiner Gründung in den Jahren 2015–2016 ist Orfium zu einem vertrauenswürdigen Partner der weltweit führenden Plattenlabels, Verlage, Rundfunkanstalten und Plattformen geworden—darunter YouTube, TikTok, die BBC und Sky. Durch die Kombination fortschrittlicher Inhaltserkennung, KI-gestützter Datenverknüpfung und transparenter Tantiemen-Zuordnung befähigt Orfium Künstler, Komponisten und Rechteinhaber, den Wert ihrer Arbeit in großem Maßstab, in Echtzeit und weltweit zu schützen und zu maximieren.
Die Herausforderung: Audio-Suche mit Milliarden von Vektoren auf Legacy-Infrastruktur
Als Orfiums Geschäft rasant wuchs, nahm auch das Volumen der zu analysierenden Inhalte zu. Dieses Wachstum setzte ihre bestehende Infrastruktur, die für ihre Dienste zur Inhaltserkennung und zum Urheberrechtsmanagement grundlegend war, enorm unter Druck. Im Kern ging es um Skalierung: Die Referenzdatenbank war auf Hunderttausende von Audiodateien angewachsen, und die vorhandenen Systeme waren nicht dafür ausgelegt, dieses Vektorvolumen zu bewältigen.
Orfiums Pipeline speichert nicht nur MP3s und MP4s — sie nutzt Machine-Learning-Modelle, um Audio-Embeddings für den Ähnlichkeitsabgleich zu extrahieren. „Ein Vektor-Embedding ist eine informationsreiche, numerische Darstellung von Audiomerkmalen in einem hochdimensionalen Raum“, erklärte George Kastrinakis, Director of Data Science and AI Services bei Orfium. „Für eine zweiminütige Audiodatei extrahieren wir mehrere Embeddings — jedes davon erfasst die wichtigsten Audiomerkmale eines bestimmten Segments des Tracks.“
Dieser Ansatz erzeugt einen Fingerabdruck pro Audiosegment, was bedeutet, dass jeder Track Dutzende—manchmal Hunderte—von Vektoren hervorbringt. Diese hochdimensionalen Vektoren erfassen die einzigartige akustische Signatur des Audios und ermöglichen die präzise Erkennung wiederverwendeter Inhalte in unterschiedlichen Kontexten. „Man kann sich vorstellen, diese Fingerabdrücke zu kombinieren, um eine Suche durchzuführen und zu erkennen, welche Segmente eines Songs in einer anderen Datei vorkommen“, fügte George hinzu.
Doch diese Technik hatte ihren Preis. Orfiums bestehender Elasticsearch- und OpenSearch-Stack—ursprünglich für die Volltext-Keyword-Suche konzipiert—war nicht für hochdimensionale Vektor-Ähnlichkeitssuchen geeignet. „Bei traditionellen Datenbanken stößt man schnell an eine Wand. Es wird teuer und langsam“, sagte George. Das System wurde bis an seine Grenzen belastet. Die Indexierung von 500.000 Audiodateien führte zu einer massiven Leistungsbelastung, was Latenzprobleme, explodierende Kosten und eine Infrastruktur verursachte, die mit voller Leistung lief, nur um sich über Wasser zu halten.
Die Suche nach einer vektornativen Lösung
Als Orfiums Infrastruktur unter den Anforderungen von Audio-Fingerprinting in großem Maßstab zunehmend an ihre Grenzen stieß, startete das Engineering-Team eine umfassende Suche nach einer Lösung, die speziell für die hochdimensionale Vektorähnlichkeitssuche entwickelt wurde.
Benchmarking für Performance, Kosten und Skalierbarkeit
Das Orfium-Team führte interne Benchmarks mit mehreren Kandidaten durch, darunter Open-Source-Milvus, Zilliz Cloud (eine verwaltete Version von Milvus), TileDB, Snowflake und Pgvector, anhand von drei zentralen Kriterien: Abrufgenauigkeit, Kosteneffizienz und Skalierbarkeit.
Genauigkeit des Vektorabrufs. Da ihr Fingerprinting-Prozess mehrere Merkmalsvektoren pro Audiosegment erzeugt und der Vektorraum extrem dicht bevölkert wird, können selbst geringe Unterschiede in Vektoren, die durch starke Quantisierung verursacht werden, die Abrufmetriken erheblich beeinflussen.
Kosteneffizienz. Mit Plänen zur Skalierung von Hunderttausenden auf potenziell Zehnmillionen von Referenz-Audiodateien – von denen jede mehrere Vektoren erzeugt – prognostizierten sie einen Gesamtumfang im Bereich von mehreren zehn Milliarden Vektoren. Bei traditionellen Preismodellen würde ein solches Wachstum unerschwinglich teuer werden.
Skalierbarkeit und Durchsatz. Ihre Produktionspipeline verarbeitet Audio von Radio- und TV-Ausstrahlungen sowie von YouTube und TikTok in enormen Mengen. Eine typische Workload umfasst Referenzdatenbanken mit bis zu Millionen von Audiodateien, was zu ungefähr Milliarden von Vektoren führt. Jede Lösung müsste hochvolumiges Indexieren und Abfragen ohne Engpässe unterstützen.
Der Durchbruch: Zilliz Cloud
Im Vergleich zu anderen Optionen bot das Open-Source-Milvus vielversprechende Flexibilität, da es dem Team ermöglichte, mit Tuning auf Systemebene zu experimentieren. Der Aufwand war jedoch erheblich. Obwohl sie die Kontrolle schätzten, die es ihnen gab, räumte George ein, dass es „viel Aufwand erforderte, um tatsächlich alles einzurichten“, was ihrem Ziel entgegenlief, die Bereitstellung zu beschleunigen und die Wartung zu minimieren.
Diese operative Belastung machte eine vollständig verwaltete Alternative attraktiver. Nach umfangreichen Tests ging Zilliz Cloud, das verwaltete Milvus, als Sieger hervor. Es erwies sich als die umfassendste und produktionsreifste Lösung. Es bietet alles, was das Beste von Milvus ausmacht, ließ sich leicht einführen, zeigte unter Last eine gute Performance und bot eine verwaltete Erfahrung, die es dem Team ermöglichte, sich auf die Entwicklung von Anwendungen statt auf Infrastruktur zu konzentrieren.
Die Bereitstellung war unkompliziert. Ein Engineer leitete die vollständige Migration – vom Hochladen der Referenzdaten und Extrahieren von Merkmalen bis zur Konfiguration des Systems – vollständig über die Zilliz Cloud Console.
Wie George zusammenfasste: „Es war das Beste, was angeboten wurde – in Bezug auf Performance, Kosten und Benutzerfreundlichkeit.“
Die Lösung: Audio-Matching und Cover-Song-Erkennung mit Zilliz Cloud betreiben
Heute nutzt Orfium Zilliz Cloud, um zwei geschäftskritische Services zu betreiben: Audio-Matching und Cover-Song-Erkennung. Der erste identifiziert die exakte Nutzung bekannter Songs auf verschiedenen Medienplattformen. Der zweite geht noch einen Schritt weiter und erkennt verschiedene Versionen oder Cover dieser Songs, selbst wenn sie neu aufgenommen oder leicht verändert wurden.
Zur Unterstützung dieser Funktionen setzt Orfium auf proprietäre neuronale Netze, um Embeddings aus Audioinhalten zu erstellen. Diese Vektoren werden in Zilliz Cloud gespeichert und mithilfe von Vektorähnlichkeitssuchen abgerufen. Traditionelle Machine-Learning-Modelle und transformerbasierte Architekturen erleichtern die Analyse von Metadaten, um den Grad der Verwandtschaft zwischen zwei Assets zu bestimmen. George erklärte, dass sie „neuronale Netze verwenden, um Embeddings zu erstellen, und dann Scoring auf den von uns abgerufenen Vektoren durchführen“, während sie außerdem Modelle anwenden, die die Ähnlichkeit von Metadaten zwischen Assets bewerten.
Zilliz Cloud spielt nun eine zentrale Rolle in Orfiums AWS-basierter Infrastruktur. Über den AWS Marketplace abonniert, fügt es sich nahtlos in ihre bestehenden Cloud-Services für Compute und Storage ein.
Das Ergebnis: Leistungsdurchbrüche und operative Flexibilität erschließen neue Möglichkeiten
Die Migration zu Zilliz Cloud brachte Orfium sofortige und messbare Verbesserungen, steigerte die Systemleistung, vereinfachte den Betrieb und erschloss Möglichkeiten, die mit der bisherigen Legacy-Infrastruktur zuvor unmöglich waren.
Skalierbare Leistung im Milliarden-Vektoren-Maßstab
Einer der wirkungsvollsten Zugewinne war die Fähigkeit, nahtlos zu skalieren, ohne Leistungseinbußen hinnehmen zu müssen. Das Team wechselte schnell von der anfänglichen Einrichtung zu einer Konfiguration, die für höheren Durchsatz optimiert war, und die Ergebnisse übertrafen die Erwartungen. Was sich einst wie infrastrukturelle Grenzen anfühlte, erwies sich als Engpässe, die das neue System mühelos überwinden konnte.
Heute verwaltet Orfium eine Referenzdatenbank mit 500.000 bis 1 Million Audiodateien in der Cloud – etwa eine Viertelmilliarde Vektoren – mit Leichtigkeit. Mit dem vorherigen Elasticsearch-basierten Stack hätte dieser Umfang das System an die Grenzen seiner Kapazität gebracht. Mit Zilliz Cloud sind diese Einschränkungen kein Thema mehr.
Echtzeit-Reaktion für sofortigen Urheberrechtsschutz
Latenz hat sich von einer Herausforderung zu einem Wettbewerbsvorteil entwickelt. Mit der vektor-nativen Architektur von Zilliz Cloud kann Orfium nun beschleunigtes Audio-Matching über Broadcast-, Social- und Streaming-Plattformen hinweg durchführen. Diese Fähigkeit unterstützt die Mission, das geistige Eigentum von Künstlern in dem Moment zu schützen, in dem Inhalte veröffentlicht oder ausgestrahlt werden.
Wie George es ausdrückte: „Latenz ist wichtig. In dieser Phase ist sie wahrscheinlich das Wichtigste.“ Die Geschwindigkeit und Reaktionsfähigkeit von Zilliz Cloud ermöglichen es, zeitkritische Erkennung in großem Maßstab zuverlässig zu unterstützen.
Vorhersehbare, kosteneffiziente Skalierung
Während die vorherige Einrichtung zu stark steigenden Kosten führte, sobald die Datenmengen wuchsen, bietet Zilliz Cloud ein nachhaltigeres Modell. Die Preisgestaltung orientiert sich an Nutzung und Wert, sodass Orfium zuversichtlich expandieren kann, ohne sich Sorgen über ausufernde Infrastrukturkosten machen zu müssen.
Mit denselben 500.000 Audiodateien, die das Elasticsearch-System einst an seine Grenzen brachten, erlebt Orfium nun durchgehend hohe Leistung zu einem Bruchteil der Kosten. „Es ist wirklich leistungsstark in Bezug auf Genauigkeit und Latenz und alles Weitere“, sagte George.
Vereinfachter Betrieb und schnellere Iteration
Operative Einfachheit war ein weiterer herausragender Vorteil. Die Managed Experience von Zilliz Cloud beseitigte die Komplexität der Wartung von Vektorinfrastruktur und machte es dem Team leicht, Updates bereitzustellen und Workloads ohne Unterbrechung zu skalieren.
George betonte, wie reibungslos der Übergang verlief: „Es ging sehr, sehr schnell von dem Moment, in dem wir uns für Zilliz entschieden haben, bis zu dem Moment, in dem wir tatsächlich etwas Lauffähiges hatten.“ Die Fähigkeit, Änderungen an der Infrastruktur vorzunehmen, ohne Pipelines zu beeinträchtigen, hat es Orfium ermöglicht, schneller zu iterieren und sich weiterhin darauf zu konzentrieren, Kundennutzen zu liefern.
Was als Nächstes kommt: Aufbau eines intelligenteren Ökosystems zur Urheberrechtserkennung
Da vektorbasiertes Audio-Matching gut etabliert ist, erweitert Orfium sein Ökosystem zur Urheberrechtserkennung nun in neue Bereiche und nutzt Zilliz Cloud für Anwendungsfälle wie Liedtext-Transkription, Metadaten-Matching und hybride Suche.
Liedtextbasierte Erkennung für Coverversionen und Adaptionen: Anstatt Songs ausschließlich anhand ihres Audios zu identifizieren, plant Orfium, Liedtexte aus einer Datei zu extrahieren und sie mit einer gespeicherten Liedtextdatenbank abzugleichen. Diese Technik bietet ergänzenden Schutz, insbesondere dann, wenn Instrumentierung, Tempo oder Gesangsstil den Fingerabdruck eines Songs erheblich verändern.
„Die Idee ist, dass man eine Audiodatei nimmt, die Liedtexte extrahiert und diese Liedtexte dann mit der Datenbank abgleicht, die man bereits hat“, erklärte George.
Hybride Suche: Kombination von Vektoren mit Text: Zilliz Cloud kann Liedtext-Matching durch hybride Suche unterstützen, indem Vektorähnlichkeit mit textbasierter Phrasenerkennung kombiniert wird. Dies eröffnet die Möglichkeit, semantisches Verständnis mit traditionellem Keyword-Matching zu verbinden.
Semantischer Metadatenabgleich und Beziehungserkennung: Durch den Vergleich zugehöriger Datenpunkte – wie Künstlernamen, Track-Informationen, Veröffentlichungsdaten oder Genres – kann Orfium Beziehungen zwischen Songs und Assets aufdecken, die allein über Audio nicht offensichtlich sind. Dies würde umfassendere Entdeckungsmechanismen ermöglichen, von der Identifizierung von Covers und Remixes bis hin zur Kartierung musikalischer Einflussnetzwerke.
Skalierung für die Zukunft: 100-faches Wachstum des Vektorvolumens: Orfiums Roadmap umfasst eine aggressive Skalierung. Während ihre aktuelle Bereitstellung etwa eine Million Audiodateien umfasst, sieht ihre langfristige Vision die Indexierung von mehreren zehn Millionen bis über 100 Millionen Audio-Assets vor, was zu mehreren zehn Milliarden Vektoren führt. Ein solcher Maßstab wäre ohne eine speziell entwickelte Vektordatenbank nicht zu bewältigen. Die Architektur von Zilliz Cloud bietet die Skalierbarkeit und Flexibilität, die erforderlich sind, um dieses Wachstum zu unterstützen und gleichzeitig optimale Leistung und Zuverlässigkeit aufrechtzuerhalten.
Fazit: Eine skalierbare Grundlage für die Zukunft des Urheberrechtsschutzes
Durch die Einführung von Zilliz Cloud wechselte Orfium vom Arbeiten an seinen Grenzen hin zu selbstbewusster Innovation. Sie bieten nun Echtzeit-Erkennung über riesige Audiobibliotheken hinweg, vereinfachen den Betrieb für ihre Ingenieure und erschließen neue Fähigkeiten, die sie sich zuvor nicht hätten vorstellen können.
Wir sind stolz darauf, dass Zilliz Cloud eine Rolle dabei spielt, Orfiums Vision voranzutreiben. Ihre technische Führungsrolle und ihr Fokus auf Innovation setzen weiterhin hohe Maßstäbe dafür, was im Rechtemanagement möglich ist, und wir freuen uns, ihre Mission zu unterstützen, während sie die Zukunft von Audio- und Content-Intelligence im globalen Maßstab gestalten.
- Über Orfium
- Die Herausforderung: Audio-Suche mit Milliarden von Vektoren auf Legacy-Infrastruktur
- Die Suche nach einer vektornativen Lösung
- Die Lösung: Audio-Matching und Cover-Song-Erkennung mit Zilliz Cloud betreiben
- Das Ergebnis: Leistungsdurchbrüche und operative Flexibilität erschließen neue Möglichkeiten
- Was als Nächstes kommt: Aufbau eines intelligenteren Ökosystems zur Urheberrechtserkennung
- Fazit: Eine skalierbare Grundlage für die Zukunft des Urheberrechtsschutzes
Inhalte
Anwendungsfall
Branche
Musik
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


