От узких мест к прорывам: как Orfium масштабировала аудиопоиск по миллиардам векторов с помощью Zilliz Cloud

1 миллиард векторов
Управляйте с лёгкостью
Ответ в реальном времени
для немедленной защиты авторских прав
Сокращение затрат
при обработке тех же файлов
Миграция силами одного инженера
для более быстрых циклов разработки
With Zilliz Cloud, we moved from operating at our limits to building with confidence. It gave us the scale, performance, and flexibility to protect music rights in real time—something we couldn’t achieve with traditional systems.
George Kastrinakis
Представьте себе отслеживание миллиардов музыкальных фрагментов, проходящих через YouTube, TikTok, радио и телевидение — каждый день — и обеспечение справедливой оплаты артистам независимо от того, где появляются их песни. Для Orfium, глобальной технологической компании в области музыкальных прав и авторского права, это не мысленный эксперимент. Это их миссия.
Однако по мере того как их стек Elasticsearch/OpenSearch начал испытывать нагрузку, инженеры оказались вынуждены заниматься тушением инфраструктурных проблем вместо создания новых возможностей. Пользовательскую конфигурацию было сложно поддерживать и оптимизировать, задержки росли, пропускная способность не успевала за развитием бизнеса, а индексация уперлась в ограничения. Затраты также стали непредсказуемыми. «Мы работали на пределе того, что было возможно с нашей старой системой», — сказал Джордж Кастринакис, директор по Data Science и AI Services в Orfium.
Об Orfium
Orfium — глобальный технологический лидер, формирующий будущее управления музыкальными правами. Компания предоставляет технологии на базе ИИ и экспертные услуги ведущим мировым компаниям в сфере музыки и развлечений, позволяя им оптимизировать управление, лицензирование, отчетность и монетизацию защищенного авторским правом контента.
Сочетая глубокую экспертизу в управлении цифровыми правами с надежным мониторингом вещания и управлением cue sheet, Orfium точно идентифицирует, сопоставляет и сообщает об использовании музыки по всему медиаландшафту. Это обеспечивает их клиентам максимальную выручку, непревзойденную точность и операционную эффективность.
С момента основания в 2015–2016 годах Orfium стала надежным партнером ведущих мировых звукозаписывающих лейблов, издателей, вещательных компаний и платформ — включая YouTube, TikTok, BBC и Sky. Сочетая передовое распознавание контента, связывание данных на базе ИИ и прозрачное распределение роялти, Orfium позволяет артистам, композиторам и правообладателям защищать и максимизировать ценность своей работы в масштабе, в реальном времени и по всему миру.
Задача: поиск по миллиарду векторов аудио на устаревшей инфраструктуре
По мере стремительного расширения бизнеса Orfium рос и объем контента, который компании необходимо было анализировать. Этот рост оказал огромное давление на существующую инфраструктуру, лежавшую в основе их сервисов распознавания контента и управления авторскими правами. Суть проблемы заключалась в масштабе: эталонная база данных выросла до сотен тысяч аудиофайлов, а имеющиеся системы не были рассчитаны на обработку такого объема векторов.
Пайплайн Orfium не просто хранит MP3 и MP4 — он использует модели машинного обучения для извлечения аудио эмбеддингов для сопоставления по сходству. «Векторный эмбеддинг — это насыщенное информацией числовое представление аудиопризнаков в многомерном пространстве», объяснил Джордж Кастринакис, директор по Data Science и AI Services в Orfium. «Для двухминутного аудиофайла мы извлекаем несколько эмбеддингов — каждый из них отражает ключевые аудиопризнаки конкретного сегмента трека».
Такой подход создает один отпечаток на каждый аудиосегмент, а значит каждый трек порождает десятки — иногда сотни — векторов. Эти многомерные векторы фиксируют уникальную акустическую сигнатуру аудио, обеспечивая точное обнаружение повторно используемого контента в разных контекстах. «Можно представить, как эти отпечатки объединяются для выполнения поиска и определения, какие сегменты песни присутствуют в другом файле», — добавил Джордж.
Но у этого метода была своя цена. Существующий стек Elasticsearch и OpenSearch в Orfium, изначально разработанный для полнотекстового поиска по ключевым словам, не подходил для поиска сходства многомерных векторов. «С традиционными базами данных вы быстро упираетесь в стену. Это становится дорого и медленно», — сказал Джордж. Система была доведена до предела. Индексация 500 000 аудиофайлов вылилась в колоссальную нагрузку на производительность, что привело к проблемам с задержками, стремительному росту затрат и инфраструктуре, работающей на полную мощность лишь для того, чтобы оставаться на плаву.
Поиск векторно-нативного решения
Когда инфраструктура Orfium начала испытывать нагрузку из-за требований крупномасштабного аудиофингерпринтинга, инженерная команда начала всесторонний поиск решения, специально созданного для поиска схожести высокоразмерных векторов.
Бенчмаркинг производительности, стоимости и масштабируемости
Команда Orfium провела внутренние бенчмарки нескольких кандидатов, включая open-source Milvus, Zilliz Cloud (управляемую версию Milvus), TileDB, Snowflake и Pgvector, по трем ключевым критериям: точность поиска, экономическая эффективность и масштабируемость.
Точность поиска векторов. Поскольку их процесс фингерпринтинга генерирует несколько векторов признаков для каждого сегмента аудио, а векторное пространство становится чрезвычайно заполненным, даже небольшие различия в векторах, вызванные жестким квантованием, могут значительно повлиять на метрики поиска.
Экономическая эффективность. С планами масштабирования от сотен тысяч до потенциально десятков миллионов эталонных аудиофайлов — каждый из которых производит несколько векторов — они прогнозировали общий объем в десятки миллиардов векторов. При традиционных моделях ценообразования такой рост стал бы непомерно дорогим.
Масштабируемость и пропускная способность. Их производственный пайплайн обрабатывает аудио из радио- и телевещания, а также с YouTube и TikTok, в огромных объемах. Типичная нагрузка включает эталонные базы данных, содержащие до миллионов аудиофайлов, что приводит примерно к миллиардам векторов. Любое решение должно было поддерживать высокообъемную индексацию и запросы без узких мест.
Прорыв: Zilliz Cloud
По сравнению с другими вариантами open-source Milvus предлагал многообещающую гибкость, позволяя команде экспериментировать с настройкой на системном уровне. Однако накладные расходы были значительными. Хотя они ценили контроль, который он им давал, Джордж признал, что это “потребовало много усилий, чтобы фактически всё настроить,” что противоречило их цели ускорить развертывание и минимизировать обслуживание.
Эта операционная нагрузка сделала полностью управляемую альтернативу более привлекательной. После обширного тестирования Zilliz Cloud, управляемый Milvus, оказался лидером. Он выделился как самое полное и готовое к production решение. В нем есть всё, что предлагает лучшее из Milvus, он был прост в принятии, хорошо работал под нагрузкой и обеспечивал управляемый опыт, который позволил команде сосредоточиться на создании приложений, а не инфраструктуры.
Развертывание было простым. Один инженер возглавил полную миграцию — от загрузки эталонных данных и извлечения признаков до конфигурирования системы — полностью через консоль Zilliz Cloud.
Как резюмировал Джордж, “это было лучшее предложение — с точки зрения производительности, стоимости и простоты использования.”
Решение: обеспечение аудиосопоставления и распознавания кавер-версий с помощью Zilliz Cloud
Теперь Orfium использует Zilliz Cloud для обеспечения двух критически важных сервисов: аудиосопоставления и распознавания кавер-версий. Первый определяет точное использование известных песен на различных медиаплатформах. Второй идет на шаг дальше, выявляя разные версии или каверы этих песен, даже если они перезаписаны или слегка изменены.
Для поддержки этих возможностей Orfium опирается на проприетарные нейронные сети для создания эмбеддингов из аудиоконтента. Эти векторы хранятся в Zilliz Cloud и извлекаются с помощью поиска векторной схожести. Традиционные модели машинного обучения и архитектуры на основе трансформеров помогают анализировать метаданные, чтобы определить степень связанности между двумя объектами. Джордж объяснил, что они “используют нейронные сети для создания эмбеддингов, а затем выполняют скоринг по векторам, которые мы извлекаем,” одновременно применяя модели, оценивающие сходство метаданных между объектами.
Теперь Zilliz Cloud играет центральную роль в инфраструктуре Orfium на базе AWS. Подписка оформлена через AWS Marketplace, и он органично сочетается с их существующими облачными сервисами для вычислений и хранения.
Результат: прорывы в производительности и операционная гибкость открывают новые возможности
Переход на Zilliz Cloud принес Orfium немедленные и измеримые улучшения, повысив производительность системы, упростив эксплуатацию и открыв возможности, которые ранее были невозможны с их устаревшей инфраструктурой.
Масштабируемая производительность на уровне миллиардов векторов
Одним из самых значимых достижений стала возможность беспрепятственно масштабироваться без ущерба для производительности. Команда быстро перешла от своей первоначальной конфигурации к настройке, оптимизированной для более высокой пропускной способности, и результаты превзошли ожидания. То, что раньше казалось инфраструктурными ограничениями, оказалось узкими местами, которые их новая система могла легко преодолеть.
Сегодня Orfium без труда обрабатывает в облаке эталонную базу данных из 500 000–1 миллиона аудиофайлов — примерно четверть миллиарда векторов. При их прежнем стеке на базе Elasticsearch такой масштаб подвел бы их к пределу возможностей системы. С Zilliz Cloud эти ограничения больше не вызывают беспокойства.
Реакция в реальном времени для немедленной защиты авторских прав
Задержка превратилась из проблемы в конкурентное преимущество. Благодаря векторно-нативной архитектуре Zilliz Cloud Orfium теперь может выполнять ускоренное сопоставление аудио на вещательных, социальных и стриминговых платформах. Эта возможность поддерживает их миссию по защите интеллектуальной собственности артистов в тот момент, когда контент публикуется или выходит в эфир.
Как сказал George: «Задержка важна. На данном этапе она, вероятно, самая важная». Скорость и отзывчивость Zilliz Cloud позволяют уверенно поддерживать чувствительное ко времени обнаружение в масштабе.
Предсказуемое и экономически эффективное масштабирование
Там, где прежняя конфигурация приводила к резкому росту затрат по мере увеличения объемов данных, Zilliz Cloud предлагает более устойчивую модель. Ее ценообразование соответствует использованию и ценности, позволяя Orfium уверенно расширяться, не беспокоясь о неконтролируемых расходах на инфраструктуру.
С теми же 500 000 аудиофайлов, которые когда-то доводили их систему Elasticsearch до предела, Orfium теперь получает стабильно высокую производительность за небольшую часть прежней стоимости. «Она действительно производительна с точки зрения точности, задержки и всего остального», — сказал George.
Упрощенные операции и более быстрые итерации
Операционная простота стала еще одним заметным преимуществом. Управляемый опыт Zilliz Cloud устранил сложность обслуживания векторной инфраструктуры, позволив команде легко развертывать обновления и масштабировать рабочие нагрузки без перебоев.
George подчеркнул, насколько плавным был переход: «Все прошло очень, очень быстро — от момента, когда мы решили выбрать Zilliz, до момента, когда у нас действительно что-то заработало». Возможность вносить изменения в инфраструктуру без влияния на конвейеры позволила Orfium быстрее выполнять итерации и сосредоточиться на предоставлении ценности клиентам.
Что дальше: создание более интеллектуальной экосистемы обнаружения нарушений авторских прав
Теперь, когда сопоставление аудио на основе векторов хорошо налажено, Orfium расширяет свою экосистему обнаружения нарушений авторских прав в новые направления, используя Zilliz Cloud для таких сценариев, как транскрипция текстов песен, сопоставление метаданных и гибридный поиск.
Обнаружение на основе текстов песен для каверов и адаптаций: Вместо того чтобы идентифицировать песни только по их аудио, Orfium планирует извлекать тексты песен из файла и сопоставлять их с сохраненной базой данных текстов. Этот метод обеспечивает дополнительную защиту, особенно полезную, когда инструментовка, темп или вокальная манера значительно изменяют отпечаток песни.
«Идея в том, что вы берете аудиофайл, извлекаете текст песни, а затем сопоставляете этот текст с базой данных, которая у вас уже есть», — объяснил George.
Гибридный поиск: сочетание векторов с текстом: Zilliz Cloud может поддерживать сопоставление текстов песен с помощью гибридного поиска, сочетая векторное сходство с обнаружением текстовых фраз. Это открывает путь к объединению семантического понимания с традиционным сопоставлением по ключевым словам.
Сопоставление семантических метаданных и выявление связей: Сравнивая связанные точки данных — такие как имена артистов, информация о треках, даты релиза или жанры, — Orfium может выявлять связи между песнями и активами, которые не очевидны только по аудио. Это позволит создавать более богатые механизмы обнаружения — от идентификации каверов и ремиксов до построения карт сетей музыкального влияния.
Масштабирование для будущего: 100-кратный рост объема векторов: Дорожная карта Orfium предусматривает агрессивное масштабирование. Хотя их текущее развертывание включает примерно миллион аудиофайлов, их долгосрочное видение предполагает индексирование десятков миллионов и более 100 миллионов аудиоактивов, что приведет к десяткам миллиардов векторов. Такой масштаб был бы неуправляем без специализированной векторной базы данных. Архитектура Zilliz Cloud обеспечивает масштабируемость и гибкость, необходимые для поддержки этого роста при сохранении оптимальной производительности и надежности.
Заключение: Масштабируемая основа для будущего защиты авторских прав
Внедрив Zilliz Cloud, Orfium перешла от работы на пределе возможностей к уверенным инновациям. Теперь они обеспечивают обнаружение в реальном времени в огромных аудиобиблиотеках, упрощают операции для своих инженеров и открывают новые возможности, о которых раньше не могли и мечтать.
Мы гордимся тем, что Zilliz Cloud играет роль в реализации видения Orfium. Их техническое лидерство и ориентация на инновации продолжают задавать высокую планку того, что возможно в управлении правами, и мы рады поддерживать их миссию, пока они строят будущее аудио- и контентной аналитики в глобальном масштабе.
- Об Orfium
- Задача: поиск по миллиарду векторов аудио на устаревшей инфраструктуре
- Поиск векторно-нативного решения
- Решение: обеспечение аудиосопоставления и распознавания кавер-версий с помощью Zilliz Cloud
- Результат: прорывы в производительности и операционная гибкость открывают новые возможности
- Что дальше: создание более интеллектуальной экосистемы обнаружения нарушений авторских прав
- Заключение: Масштабируемая основа для будущего защиты авторских прав
Контент
Пример использования
Отрасль
Музыка
It was the best thing to offer—performance-wise, cost-wise, and ease-of-use-wise.
George Kastrinakis


