Как MiniMax масштабирует ИИ в реальном времени и дедупликацию триллионного масштаба с помощью Zilliz Cloud

Задержка 30 мс при 5 000+ QPS
для рекомендаций в реальном времени
снижение затрат в 3–5 раз
в рабочих процессах дедупликации обучающих данных
в 2 раза быстрее при предварительной обработке данных для LLM
по сравнению с устаревшими системами MapReduce
Дедупликация данных петабайтного масштаба
с использованием нативного движка MinHash + LSH
О MiniMax
MiniMax — один из ведущих поставщиков больших языковых моделей, известный созданием мультимодальных ИИ-систем и реальных приложений глобального масштаба. Его потребительский продукт, Talkie, представляет собой разговорную ИИ-платформу, где пользователи могут создавать виртуальных агентов и взаимодействовать с ними. С десятками миллионов ежемесячно активных пользователей Talkie стала одной из самых широко распространенных платформ ИИ-компаньонов в мире.
За кулисами MiniMax также активно инвестирует в обучение больших моделей и инфраструктуру. По мере масштабирования компании росла и сложность ее данных: от поддержки пользовательского опыта с высокой конкурентностью и низкой задержкой до управления петабайтами неструктурированных обучающих данных. MiniMax использует Zilliz Cloud для решения этих задач с помощью инфраструктуры данных, способной эффективно масштабироваться, одновременно поддерживая производительность и гибкость.
Задача: когда успех создает невыполнимые требования к инфраструктуре
Рост MiniMax выявил критическую проблему в инфраструктуре ИИ: традиционные базы данных и системы обработки данных просто не были созданы для уникальных требований современных ИИ-приложений.
Redis не смог справиться с векторным поиском масштаба ИИ
Взрывной рост числа пользователей Talkie создал требования к производительности, которые вывели традиционные решения для кэширования за пределы их возможностей. С десятками миллионов ежемесячно активных пользователей, ожидающих мгновенных персонализированных рекомендаций, платформе требовалось выполнять сопоставление семантического сходства в реальном времени по миллионам единиц контента, таких как голосовые пакеты, интерактивные сообщения и предложения для начала разговора.
Система должна была отвечать менее чем за 30 миллисекунд даже во время пиков в 5 000+ запросов в секунду. Их решение на основе Redis, которое достаточно хорошо работало для тысяч пользователей, не смогло обеспечить результат в масштабе. Архитектура Redis в памяти делала хранение миллионов векторов очень дорогим, а отсутствие встроенных векторных операций вынуждало команду полагаться на внешние плагины, которые добавляли дополнительную задержку и операционную сложность.
Дедупликация триллионов токенов была экономически невозможной
Тем временем конвейер данных MiniMax для обучения LLM столкнулся с совершенно иным кризисом масштабирования. Обработка обучающих наборов данных, содержащих десятки триллионов токенов, требовала сложной дедупликации для обеспечения качества модели — избыточный контент приводит к переобучению и плохой обобщающей способности. Но в таком масштабе традиционные методы дедупликации становились экономически и вычислительно непрактичными.
Подходы на основе MapReduce занимали недели или месяцы на обработку отдельных наборов данных, потребляя огромные инженерные ресурсы и задерживая циклы обучения моделей. Точное сопоставление не могло справиться с вычислительной нагрузкой, а семантическая дедупликация создавала накладные расходы на обработку, которые делали операции триллионного масштаба чрезмерно дорогими. По мере роста наборов данных до петабайтного масштаба узкое место предварительной обработки угрожало сделать обучение продвинутых моделей экономически неосуществимым.
Решение: специализированная инфраструктура ИИ, которая справляется с обеими крайностями
MiniMax требуется инфраструктура, специально разработанная для ИИ-нагрузок с нуля, а не системы общего назначения, дооснащенные возможностями ИИ. Zilliz Cloud предоставила именно такие возможности: единую платформу, способную обеспечивать как производительность векторного поиска на уровне микросекунд, так и эффективность пакетной обработки триллионного масштаба, устраняя операционную сложность управления отдельными системами для разных типов ИИ-нагрузок.
Архитектура для 5 000+ QPS: встроенные векторные операции заменяют обходные решения Redis
Чтобы поддерживать рекомендательную систему Talkie в масштабе, MiniMax полностью перестроила свою инфраструктуру векторного поиска вокруг AI-native возможностей Zilliz Cloud. Новая система развернула восемь вычислительных единиц с семью репликами, обеспечивая как горизонтальную масштабируемость, так и безотказную надежность во время массового одновременного трафика.
В отличие от Redis, которому требовались внешние плагины и обходные решения для векторных операций, Zilliz Cloud предоставлял нативную векторную индексацию и поиск приблизительно ближайших соседей (ANN), разработанные специально для AI-приложений. Существующие 32-мерные эмбеддинги MiniMax подключаются напрямую к системе без предварительной обработки или внешних инструментов. Весь рекомендательный конвейер — от загрузки эмбеддингов через построение индекса до поиска сходства в реальном времени — работал через унифицированные API, оптимизированные для AI-нагрузок.
Это была не просто миграция базы данных; это был фундаментальный переход к инфраструктуре, специально созданной для операций AI-масштаба. Задержка запросов больше не ограничивалась лимитами памяти или накладными расходами плагинов — всё работало нативно внутри системы, спроектированной под требования скорости и масштаба современных AI-приложений.
Продвинутый движок MinHash + LSH, специально созданный для нагрузок триллионного масштаба
Чтобы справиться с масштабом и сложностью своего конвейера обучающих данных, MiniMax тесно сотрудничала с инженерной командой Zilliz для внедрения кастомного движка дедупликации — нативно встроенного в Zilliz Cloud. Решение сочетало MinHash и Locality-Sensitive Hashing (LSH), позволяя MiniMax эффективно обнаруживать и устранять избыточный контент в наборах данных терабайтного и петабайтного масштаба.
MinHash использовался для сжатия каждого документа в компактную сигнатуру, что делало возможным сравнение миллиардов документов без чрезмерной нагрузки на вычислительные ресурсы. LSH резко сокращал пространство поиска, кластеризуя похожий контент и обеспечивая быстрое выявление почти дубликатов без необходимости дорогостоящих попарных сравнений всех документов.
Вместо создания отдельного сервиса дедупликации движок MinHash + LSH работал нативно внутри системы индексации Zilliz Cloud, используя те же API для вставки эмбеддингов, построения индекса и приблизительных запросов. Это устранило сложность управления отдельными рабочими процессами и обеспечило распределённое горизонтальное масштабирование, которое могло расти вместе с расширяющимися наборами данных MiniMax.
Результаты: более высокая производительность, более низкие затраты и более простые операции
Унифицированный инфраструктурный подход обеспечил измеримые улучшения в обеих критически важных рабочих нагрузках MiniMax.
Рекомендации в реальном времени для Talkie: задержка <30 мс при пиковой нагрузке
После отказа от Redis рекомендательный движок Talkie стабильно достигал целевого показателя задержки — менее 30 миллисекунд, даже во время всплесков трафика выше 5 000 запросов в секунду. Векторно-нативная архитектура обеспечила более точное семантическое сопоставление «из коробки», улучшив качество рекомендаций и в конечном итоге повысив вовлечённость пользователей.
Много-реплицированная конфигурация устранила проблемы доступности и стабильности, с которыми они сталкивались раньше. По мере масштабирования Talkie до десятков миллионов пользователей система оставалась стабильной без падения производительности — что критически важно для удержания пользователей и роста продукта.
Устранив дорогостоящие требования Redis к хранению в памяти, MiniMax также получила значительное снижение расходов на инфраструктуру. Модель Zilliz, основанная на вычислительных ресурсах, дала команде больше контроля, позволяя масштабировать ресурсы вверх или вниз по мере необходимости — то, что было невозможно при фиксированных накладных расходах Redis на память.
Дедупликация данных: в 2 раза быстрее, в 3–5 раз эффективнее
Кастомная реализация MinHash + LSH изменила подход MiniMax к управлению обучающими данными. По сравнению с их предыдущими системами MapReduce скорость обработки выросла в 2 раза, а затраты снизились в 3–5 раз, сделав дедупликацию миллиардов документов экономически жизнеспособной для регулярных операций.
Что ещё важнее, решение повысило качество обучающих данных за счёт эффективного устранения избыточного контента, который ранее вызывал переобучение моделей. Более высокое качество данных напрямую приводит к улучшению производительности моделей и их способности к обобщению — высшему показателю успеха для организации, занимающейся AI-исследованиями.
Единый подход к API значительно упростил операции. Благодаря дедупликации, полностью интегрированной в ту же систему, которая обрабатывает эмбеддинги и поиск по схожести, MiniMax устранила необходимость в отдельных инструментах, снизила сложность пайплайна и получила операционную простоту, которая масштабируется вместе с растущими наборами данных.
С тех пор команда применила возможности MinHash + LSH к дополнительным рабочим процессам предварительной обработки за пределами исходного сценария дедупликации, максимизируя отдачу от инвестиций в инфраструктуру и одновременно поддерживая новые инициативы в области исследований ИИ.
Взгляд в будущее: уверенное масштабирование ИИ
С внедрением Zilliz Cloud MiniMax теперь расширяет свою векторную инфраструктуру для поддержки новых ИИ-продуктов помимо Talkie. Команда развивает мультимодальные возможности, повторно используя ту же векторно-ориентированную основу для поддержки эмбеддингов изображений, аудио и текста в различных сценариях использования.
Движок MinHash + LSH расширяется на дополнительные пайплайны данных, обеспечивая более быструю итерацию при обучении моделей и уточнении наборов данных. По мере дальнейшего роста MiniMax Zilliz Cloud предоставляет им гибкость для масштабирования без переработки архитектуры, позволяя внедрять будущие функции Zilliz с минимальными накладными расходами.
- О MiniMax
- Задача: когда успех создает невыполнимые требования к инфраструктуре
- Решение: специализированная инфраструктура ИИ, которая справляется с обеими крайностями
- Результаты: более высокая производительность, более низкие затраты и более простые операции
- Взгляд в будущее: уверенное масштабирование ИИ
Контент
Пример использования
Отрасль
LLM


