Как 123RF масштабировала визуальный поиск до более чем 200 млн ресурсов с помощью Zilliz Cloud

задержка <50 мс
снижение по сравнению с ~100 мс в продакшене
50% экономии затрат
после перехода с OpenSearch
200 млн+ векторов
по всей библиотеке изображений
Массовая индексация
миллионы импортированы за несколько часов
The biggest immediate impact for the company would be the cost side of things. We were able to bring the estimated cost of our search cluster from above five digits a month to a significantly lower figure. That would be the biggest improvement for our company.
Su-Meng Yong
О 123RF
123RF, входящая в Inmagine Group, является одной из крупнейших в мире платформ стокового контента — она обслуживает миллионы творческих профессионалов, предоставляя библиотеку из более чем 200 миллионов изображений, видео и аудиофайлов. Поиск лежит в основе опыта 123RF: каждый запрос должен находить наиболее релевантный визуальный контент в огромном, постоянно растущем каталоге. Когда растущие расходы и ненадежная производительность OpenSearch поставили этот опыт под угрозу, 123RF обратилась к Zilliz Cloud — сократив инфраструктурные расходы более чем на 50%, вдвое уменьшив задержку запросов и устранив сбои индексирования, которые осложняли работу предыдущей конфигурации.
Задача
Ранее 123RF полагалась на OpenSearch как на свою основную поисковую инфраструктуру. Изначально платформа была построена вокруг полнотекстового поиска по ключевым словам, но с наступлением эпохи ИИ команда начала экспериментировать с семантическим поиском на основе эмбеддингов, чтобы выдавать более релевантные результаты. Они добавили плагин KNN к существующему кластеру OpenSearch вместо того, чтобы перестраивать все с нуля.
Это решение привело к нарастающим издержкам. Три взаимосвязанные проблемы в итоге сделали сохранение текущего положения невозможным:
Рост затрат: Эксплуатация кластера OpenSearch с поддержкой KNN в масштабе 200M+ векторов довела ежемесячные операционные расходы до пятизначных сумм и продолжала дорожать.
Ненадежная производительность: Задержка и пропускная способность запросов стали непредсказуемыми при реальном производственном трафике, ухудшая качество поиска для конечных пользователей.
Нестабильность индексирования: Поскольку библиотека 123RF ежедневно растет, новые ресурсы необходимо индексировать непрерывно. Кластер OpenSearch часто сталкивался с отказами узлов во время этих операций индексирования, что требовало постоянного вмешательства DevOps.
OpenSearch не был изначально создан для поиска по векторному сходству. Его плагин KNN предоставлял обходное решение, но управление им в масштабе создавало операционную нагрузку, которую команда не могла устойчиво выдерживать.
Почему Zilliz Cloud
Когда Su-Meng Yong и его команда начали искать альтернативу, они оценили несколько специализированных вариантов векторных баз данных, таких как Pinecone и Weaviate. Решение определили три критерия:
Масштаб: Решение должно было надежно обрабатывать сотни миллионов векторов без снижения производительности.
Экономическая эффективность: Некоторые альтернативы были исключены, поскольку их эксплуатация в требуемом для 123RF масштабе обходилась бы дороже.
Зрелость и отзывы сообщества: Zilliz Cloud — это полностью управляемый сервис, построенный на базе векторной базы данных Milvus с открытым исходным кодом, у которой есть активное сообщество.
Решение
123RF развернула Zilliz Cloud для поддержки двух взаимодополняющих поисковых сценариев:
Поиск текста по изображению: Пользовательские запросы преобразуются в векторные эмбеддинги, которые затем сопоставляются с проиндексированной библиотекой изображений с использованием векторного сходства, возвращая семантически релевантные результаты.
Обратный поиск по изображению: Пользователи загружают изображение; система генерирует его эмбеддинг и ищет визуально похожие ресурсы по всей библиотеке.
Слой эмбеддингов использует CLIP, мультимодальную модель эмбеддингов с открытым исходным кодом, которую команда дорабатывала в двух версиях модели при поддержке команды решений Zilliz. Возможность использовать любую модель эмбеддингов — а не предписанную модель поставщика — была отмечена как значимое преимущество.
Ежедневный пакетный конвейер преобразует все новые материалы, отправленные авторами, в эмбеддинги и загружает их в кластер Zilliz Cloud, поддерживая индекс в актуальном состоянии без ручного вмешательства.
Три возможности платформы оказались особенно ценными во время развертывания:
Динамическое масштабирование: Кластер можно масштабировать вверх или вниз в зависимости от ожидаемой поисковой нагрузки — возможности, которой не было в предыдущей конфигурации OpenSearch.
Задания массового импорта: Функция заданий импорта Zilliz Cloud позволяет индексировать от миллионов до десятков миллионов строк за считанные часы, устраняя хроническое узкое место в индексации, которое приводило к сбоям узлов в OpenSearch.
Boost Ranker (кастомная функция): 123RF требовалась кастомная бизнес-логика в ранжировании результатов поиска. Инженерная команда Zilliz разработала функцию Boost Ranker специально для этого сценария использования, и теперь она работает в продакшене.
Результаты и преимущества
Снижение затрат >50%
Самый непосредственный эффект был финансовым. При поддержке команды Zilliz 123RF сократила ежемесячные расходы на поисковую инфраструктуру до доли от первоначальных затрат — более чем на 50%.
"Поиск — это сердце нашей платформы: именно так миллионы пользователей находят нужный контент. Переход на Zilliz Cloud не просто резко сократил наши инфраструктурные расходы; он дал нашей инженерной команде уверенность в том, что поиск будет масштабироваться вместе с нашим бизнесом, а не сдерживать его."
— Су-Мэн Ён, руководитель инженерной команды, 123RF
Достигнута задержка < 50 мс
После нескольких итераций оптимизации с командой Zilliz 123RF снизила среднюю задержку запросов со 100 мс до 30–50 мс — примерно на 50% — при сохранении пропускной способности уровня продакшена и ежедневных объемов трафика.
Индексация без простоя
Проблемы с выпадением узлов, которые мешали OpenSearch во время ежедневной загрузки контента, полностью исчезли. Ранее команда не могла индексировать новые изображения в кластере достаточно быстро, не ухудшая производительность поиска для активных пользователей. Используя возможность массового импорта Zilliz Cloud, команда теперь индексирует от миллионов до десятков миллионов новых строк за считанные часы — без какого-либо влияния на производительность запросов. Ежедневный автоматизированный конвейер преобразует новый загруженный стоковый контент в эмбеддинги и загружает их в кластер, поддерживая поисковый индекс в актуальном состоянии без ручного вмешательства.
Операционная свобода
Как полностью управляемый сервис, Zilliz Cloud снял бремя управления кластером, которое отнимало время у команды DevOps. Инженерная команда переключилась с тушения инфраструктурных проблем на создание продуктовых функций.
"Это действительно экономит и моей команде, и разработчикам массу времени, потому что нам не приходится разбираться с множеством проблем и заниматься самостоятельным управлением кластером." — — Су-Мэн Ён, руководитель инженерной команды, 123RF
Что дальше
После полной миграции и стабилизации поиска по изображениям 123RF планирует перенести рабочие процессы поиска по видео и аудио в Zilliz Cloud. Команда также открыта к изучению интеграций LangChain или LlamaIndex в будущем, чтобы расширить поисковые возможности своей платформы.
Пример использования
Отрасль
СМИ
Используемая технология
The fully managed version really saves both my team and the developers a lot of time from having to deal with a lot of problems, a lot of self-managing of the cluster. And regarding latency — we went from an initial 100 milliseconds to now sub 30 to 50 milliseconds, a roughly 50% reduction while being able to maintain production throughput.
Su-Meng Yong


