Cómo escala MiniMax la IA en tiempo real y la deduplicación a escala de billones con Zilliz Cloud

Latencia de 30 ms a más de 5000 QPS
para recomendaciones en tiempo real
reducción de costos de 3–5×
en flujos de trabajo de deduplicación de datos de entrenamiento
2× más rápido en el preprocesamiento de datos de LLM
comparado con sistemas MapReduce heredados
Deduplicación de datos a escala de petabytes
usando el motor nativo MinHash + LSH
Acerca de MiniMax
MiniMax es uno de los principales proveedores de grandes modelos de lenguaje, conocido por crear sistemas de IA multimodales y aplicaciones del mundo real a escala global. Su producto de consumo, Talkie, es una plataforma de IA conversacional donde los usuarios pueden crear e interactuar con agentes virtuales. Con decenas de millones de usuarios activos mensuales, Talkie se ha convertido en una de las plataformas de acompañantes de IA más ampliamente adoptadas del mundo.
Entre bastidores, MiniMax también invierte fuertemente en entrenamiento e infraestructura de grandes modelos. A medida que la empresa escaló, también lo hizo la complejidad de sus datos, desde dar soporte a experiencias de usuario de alta concurrencia y baja latencia hasta gestionar petabytes de datos de entrenamiento no estructurados. MiniMax aprovecha Zilliz Cloud para abordar estos desafíos con una infraestructura de datos capaz de escalar eficientemente mientras ofrece tanto rendimiento como flexibilidad.
El desafío: Cuando el éxito crea demandas de infraestructura imposibles
El crecimiento de MiniMax expuso un problema crítico en la infraestructura de IA: las bases de datos tradicionales y los sistemas de procesamiento de datos simplemente no fueron creados para las demandas únicas de las aplicaciones modernas de IA.
Redis no pudo gestionar la búsqueda vectorial a escala de IA
El crecimiento explosivo de usuarios de Talkie creó requisitos de rendimiento que llevaron las soluciones tradicionales de caché más allá de sus límites. Con decenas de millones de usuarios activos mensuales que esperan recomendaciones instantáneas y personalizadas, la plataforma necesitaba realizar emparejamiento de similitud semántica en tiempo real sobre millones de piezas de contenido, como paquetes de voz, mensajes interactivos e iniciadores de conversación.
El sistema tenía que responder en menos de 30 milisegundos, incluso durante picos de más de 5.000 consultas por segundo. Su solución basada en Redis, que había funcionado adecuadamente para miles de usuarios, no logró ofrecer resultados a escala. La arquitectura en memoria de Redis hacía que almacenar millones de vectores fuera muy costoso, mientras que su falta de operaciones vectoriales nativas obligó al equipo a depender de plugins externos que introducían latencia adicional y complejidad operativa.
La deduplicación de billones de tokens era económicamente imposible
Mientras tanto, el pipeline de entrenamiento de datos de LLM de MiniMax enfrentó una crisis de escalado completamente diferente. Procesar conjuntos de datos de entrenamiento que contenían decenas de billones de tokens requería una deduplicación sofisticada para garantizar la calidad del modelo: el contenido redundante causa sobreajuste y mala generalización. Pero a esta escala, los métodos tradicionales de deduplicación se volvieron económica y computacionalmente impracticables.
Los enfoques basados en MapReduce tardaban semanas o meses en procesar conjuntos de datos individuales, consumiendo enormes recursos de ingeniería y retrasando los ciclos de entrenamiento de modelos. La coincidencia exacta no podía manejar la carga computacional, mientras que la deduplicación semántica creaba una sobrecarga de procesamiento que hacía que las operaciones a escala de billones fueran prohibitivamente costosas. A medida que los conjuntos de datos crecían hacia la escala de petabytes, el cuello de botella del preprocesamiento amenazaba con hacer que el entrenamiento avanzado de modelos fuera económicamente inviable.
La solución: Infraestructura de IA diseñada específicamente que gestiona ambos extremos
MiniMax requiere infraestructura diseñada específicamente para cargas de trabajo de IA desde cero, en lugar de sistemas de propósito general adaptados con capacidades de IA. Zilliz Cloud proporcionó exactamente esas capacidades: una plataforma unificada capaz de ofrecer tanto rendimiento de búsqueda vectorial a nivel de microsegundos como eficiencia de procesamiento por lotes a escala de billones, eliminando la complejidad operativa de gestionar sistemas separados para diferentes tipos de cargas de trabajo de IA.
Arquitectura para más de 5.000 QPS: Las operaciones vectoriales nativas reemplazan las soluciones alternativas de Redis
Para dar soporte al sistema de recomendaciones de Talkie a escala, MiniMax rediseñó por completo su infraestructura de búsqueda vectorial en torno a las capacidades nativas de IA de Zilliz Cloud. El nuevo sistema implementó ocho unidades de cómputo con siete réplicas, proporcionando tanto escalabilidad horizontal como fiabilidad a prueba de fallos durante tráfico concurrente masivo.
A diferencia de Redis, que requería plugins externos y soluciones alternativas para las operaciones vectoriales, Zilliz Cloud proporcionó indexación vectorial nativa y búsqueda aproximada de vecinos más cercanos (ANN) diseñada específicamente para aplicaciones de IA. Los embeddings existentes de 32 dimensiones de MiniMax se integran directamente en el sistema sin preprocesamiento ni herramientas externas. Todo el pipeline de recomendación —desde la ingesta de embeddings hasta la construcción de índices y la búsqueda de similitud en tiempo real— operaba mediante APIs unificadas optimizadas para cargas de trabajo de IA.
Esto no fue simplemente una migración de base de datos; fue un cambio fundamental hacia una infraestructura diseñada específicamente para operaciones a escala de IA. La latencia de las consultas ya no estaba limitada por restricciones de memoria ni por la sobrecarga de plugins: todo operaba de forma nativa dentro de un sistema diseñado para los requisitos de velocidad y escala de las aplicaciones modernas de IA.
Motor avanzado MinHash + LSH diseñado específicamente para cargas de trabajo a escala de billones
Para abordar la escala y la complejidad de su pipeline de datos de entrenamiento, MiniMax trabajó estrechamente con el equipo de ingeniería de Zilliz para implementar un motor de deduplicación personalizado, integrado de forma nativa en Zilliz Cloud. La solución combinó MinHash y Locality-Sensitive Hashing (LSH), lo que permitió a MiniMax detectar y eliminar de manera eficiente contenido redundante en conjuntos de datos a escala de terabytes y petabytes.
MinHash se utilizó para comprimir cada documento en una firma compacta, lo que hizo viable comparar miles de millones de documentos sin saturar los recursos informáticos. LSH redujo drásticamente el espacio de búsqueda al agrupar contenido similar, permitiendo una identificación rápida de casi duplicados sin requerir costosas comparaciones de todos los pares.
En lugar de crear un servicio de deduplicación separado, el motor MinHash + LSH operaba de forma nativa dentro del sistema de indexación de Zilliz Cloud, utilizando las mismas APIs para la inserción de embeddings, la construcción de índices y las consultas aproximadas. Esto eliminó la complejidad de gestionar flujos de trabajo separados, al tiempo que proporcionó escalado horizontal distribuido capaz de crecer junto con los conjuntos de datos en expansión de MiniMax.
Resultados: mayor rendimiento, menores costos y operaciones más simples
El enfoque de infraestructura unificada generó mejoras medibles en las dos cargas de trabajo críticas de MiniMax.
Recomendaciones en tiempo real para Talkie: latencia de <30 ms a escala máxima
Después de dejar Redis, el motor de recomendación de Talkie alcanzó consistentemente su objetivo de latencia: menos de 30 milisegundos, incluso durante picos de tráfico superiores a 5,000 consultas por segundo. La arquitectura nativa para vectores proporcionó una coincidencia semántica más precisa desde el primer momento, mejorando la calidad de las recomendaciones y, en última instancia, impulsando una mayor participación de los usuarios.
La configuración multirréplica eliminó los problemas de disponibilidad y estabilidad con los que habían tenido dificultades anteriormente. A medida que Talkie escaló a decenas de millones de usuarios, el sistema se mantuvo estable sin caídas de rendimiento, algo crítico para la retención de usuarios y el crecimiento del producto.
Al eliminar los costosos requisitos en memoria de Redis, MiniMax también observó una caída significativa en el gasto de infraestructura. El modelo basado en cómputo de Zilliz dio al equipo más control, permitiéndoles escalar los recursos hacia arriba o hacia abajo según fuera necesario, algo que no era posible con la sobrecarga fija de memoria de Redis.
Deduplicación de datos: 2× más rápida, 3–5× más eficiente
La implementación personalizada de MinHash + LSH transformó el enfoque de MiniMax para la gestión de datos de entrenamiento. En comparación con sus sistemas MapReduce anteriores, la velocidad de procesamiento mejoró 2x, mientras que los costos se redujeron entre 3 y 5 veces, haciendo que la deduplicación de miles de millones de documentos fuera económicamente viable para operaciones rutinarias.
Más importante aún, la solución mejoró la calidad de los datos de entrenamiento al eliminar de manera eficiente contenido redundante que anteriormente causaba sobreajuste del modelo. Una mejor calidad de los datos se traduce directamente en un mejor rendimiento del modelo y en mayores capacidades de generalización: la medida definitiva del éxito para una organización de investigación en IA.
El enfoque de API unificada simplificó significativamente las operaciones. Con la deduplicación plenamente integrada en el mismo sistema que gestiona embeddings y búsqueda por similitud, MiniMax eliminó herramientas separadas, redujo la complejidad del pipeline y obtuvo una simplicidad operativa que escala junto con sus conjuntos de datos en crecimiento.
Desde entonces, el equipo ha aplicado las capacidades de MinHash + LSH a flujos de trabajo de preprocesamiento adicionales más allá del caso de uso original de deduplicación, maximizando el retorno de su inversión en infraestructura y, al mismo tiempo, respaldando nuevas iniciativas de investigación en IA.
Mirando hacia el futuro: escalar la IA con confianza
Con Zilliz Cloud en funcionamiento, MiniMax ahora está ampliando su infraestructura vectorial para dar soporte a nuevos productos de IA más allá de Talkie. El equipo está desarrollando capacidades multimodales, reutilizando la misma base nativa de vectores para admitir embeddings de imagen, audio y texto en distintos casos de uso.
El motor MinHash + LSH se está extendiendo a pipelines de datos adicionales, lo que permite iteraciones más rápidas en el entrenamiento de modelos y el refinamiento de conjuntos de datos. A medida que MiniMax sigue creciendo, Zilliz Cloud les brinda la flexibilidad de escalar sin rediseñar la arquitectura, posicionándolos para adoptar futuras funcionalidades de Zilliz con una sobrecarga mínima.
- Acerca de MiniMax
- El desafío: Cuando el éxito crea demandas de infraestructura imposibles
- La solución: Infraestructura de IA diseñada específicamente que gestiona ambos extremos
- Resultados: mayor rendimiento, menores costos y operaciones más simples
- Mirando hacia el futuro: escalar la IA con confianza
Contenido
Industria
LLM


