Como a MiniMax escala IA em tempo real e deduplicação em escala de trilhões com o Zilliz Cloud

latência de 30 ms a mais de 5.000 QPS
para recomendações em tempo real
redução de custos de 3–5×
em fluxos de trabalho de deduplicação de dados de treinamento
2× mais rápido no pré-processamento de dados de LLM
comparado a sistemas MapReduce legados
Deduplicação de dados em escala de petabytes
usando o mecanismo nativo MinHash + LSH
Sobre a MiniMax
MiniMax é uma das principais fornecedoras de grandes modelos de linguagem, conhecida por criar sistemas de IA multimodais e aplicações do mundo real em escala global. Seu produto para consumidores, Talkie, é uma plataforma de IA conversacional na qual os usuários podem criar e interagir com agentes virtuais. Com dezenas de milhões de usuários ativos mensais, Talkie tornou-se uma das plataformas de companheiros de IA mais amplamente adotadas no mundo.
Nos bastidores, a MiniMax também investe fortemente em treinamento e infraestrutura de grandes modelos. À medida que a empresa cresceu, também aumentou a complexidade de seus dados, desde o suporte a experiências de usuário de alta concorrência e baixa latência até o gerenciamento de petabytes de dados de treinamento não estruturados. A MiniMax utiliza o Zilliz Cloud para enfrentar esses desafios com uma infraestrutura de dados capaz de escalar com eficiência, ao mesmo tempo em que oferece suporte tanto a desempenho quanto a flexibilidade.
O Desafio: Quando o Sucesso Cria Demandas Impossíveis de Infraestrutura
O crescimento da MiniMax expôs um problema crítico na infraestrutura de IA: bancos de dados e sistemas de processamento de dados tradicionais simplesmente não foram criados para as demandas únicas das aplicações modernas de IA.
O Redis Não Conseguia Lidar com a Busca Vetorial em Escala de IA
O crescimento explosivo de usuários do Talkie criou requisitos de desempenho que levaram as soluções tradicionais de cache além de seus limites. Com dezenas de milhões de usuários ativos mensais esperando recomendações instantâneas e personalizadas, a plataforma precisava realizar correspondência de similaridade semântica em tempo real em milhões de conteúdos, como pacotes de voz, mensagens interativas e iniciadores de conversa.
O sistema precisava responder em menos de 30 milissegundos, mesmo durante picos de mais de 5.000 consultas por segundo. Sua solução baseada em Redis, que havia funcionado adequadamente para milhares de usuários, não conseguiu entregar resultados em escala. A arquitetura em memória do Redis tornava o armazenamento de milhões de vetores muito caro, enquanto sua falta de operações vetoriais nativas forçou a equipe a depender de plugins externos que introduziam latência adicional e complexidade operacional.
A Deduplicação de Trilhões de Tokens Era Economicamente Impossível
Enquanto isso, o pipeline de treinamento de dados de LLM da MiniMax enfrentava uma crise de escalabilidade totalmente diferente. Processar conjuntos de dados de treinamento contendo dezenas de trilhões de tokens exigia deduplicação sofisticada para garantir a qualidade do modelo—conteúdo redundante causa sobreajuste e generalização ruim. Mas, nessa escala, os métodos tradicionais de deduplicação tornaram-se econômica e computacionalmente impraticáveis.
Abordagens baseadas em MapReduce levavam semanas ou meses para processar conjuntos de dados individuais, consumindo enormes recursos de engenharia e atrasando os ciclos de treinamento de modelos. A correspondência exata não conseguia lidar com a carga computacional, enquanto a deduplicação semântica criava sobrecarga de processamento que tornava operações em escala de trilhões proibitivamente caras. À medida que os conjuntos de dados cresciam em direção à escala de petabytes, o gargalo de pré-processamento ameaçava tornar o treinamento avançado de modelos economicamente inviável.
A Solução: Infraestrutura de IA Desenvolvida para esse Propósito que Lida com Ambos os Extremos
A MiniMax requer infraestrutura especificamente projetada para cargas de trabalho de IA desde o início, em vez de sistemas de uso geral adaptados com capacidades de IA. O Zilliz Cloud forneceu exatamente essas capacidades: uma plataforma unificada capaz de oferecer tanto desempenho de busca vetorial em nível de microssegundos quanto eficiência de processamento em lote em escala de trilhões, eliminando a complexidade operacional de gerenciar sistemas separados para diferentes tipos de carga de trabalho de IA.
Arquitetando para mais de 5.000 QPS: Operações Vetoriais Nativas Substituem Soluções Alternativas do Redis
Para dar suporte ao sistema de recomendação do Talkie em escala, a MiniMax rearquitetou completamente sua infraestrutura de busca vetorial em torno dos recursos nativos de IA do Zilliz Cloud. O novo sistema implantou oito unidades de computação com sete réplicas, proporcionando tanto escalabilidade horizontal quanto confiabilidade à prova de falhas durante tráfego concorrente massivo.
Ao contrário do Redis, que exigia plugins externos e soluções alternativas para operações vetoriais, o Zilliz Cloud ofereceu indexação vetorial nativa e busca de vizinhos mais próximos aproximados (ANN) projetadas especificamente para aplicações de IA. Os embeddings existentes de 32 dimensões da MiniMax são conectados diretamente ao sistema sem pré-processamento ou ferramentas externas. Todo o pipeline de recomendação — da ingestão de embeddings à construção de índices e à busca de similaridade em tempo real — operava por meio de APIs unificadas otimizadas para cargas de trabalho de IA.
Isso não foi simplesmente uma migração de banco de dados; foi uma mudança fundamental em direção a uma infraestrutura criada especificamente para operações em escala de IA. A latência das consultas não era mais limitada por restrições de memória ou sobrecarga de plugins — tudo operava nativamente dentro de um sistema projetado para os requisitos de velocidade e escala das aplicações modernas de IA.
Mecanismo avançado MinHash + LSH criado especificamente para cargas de trabalho em escala de trilhões
Para lidar com a escala e a complexidade de seu pipeline de dados de treinamento, a MiniMax trabalhou em estreita colaboração com a equipe de engenharia da Zilliz para implementar um mecanismo personalizado de deduplicação — incorporado nativamente ao Zilliz Cloud. A solução combinou MinHash e Locality-Sensitive Hashing (LSH), permitindo que a MiniMax detectasse e eliminasse com eficiência conteúdo redundante em conjuntos de dados na escala de terabytes e petabytes.
O MinHash foi usado para comprimir cada documento em uma assinatura compacta, tornando viável comparar bilhões de documentos sem sobrecarregar os recursos computacionais. O LSH reduziu drasticamente o espaço de busca ao agrupar conteúdo semelhante, permitindo a identificação rápida de quase duplicatas sem exigir comparações completas entre todos os pares, que são caras.
Em vez de criar um serviço de deduplicação separado, o mecanismo MinHash + LSH operava nativamente dentro do sistema de indexação do Zilliz Cloud, usando as mesmas APIs para inserção de embeddings, construção de índices e consultas aproximadas. Isso eliminou a complexidade de gerenciar fluxos de trabalho separados, ao mesmo tempo que fornecia escalabilidade horizontal distribuída capaz de crescer junto com os conjuntos de dados em expansão da MiniMax.
Resultados: desempenho mais rápido, custos menores e operações mais simples
A abordagem de infraestrutura unificada entregou melhorias mensuráveis nas duas cargas de trabalho críticas da MiniMax.
Recomendações em tempo real para Talkie: latência <30 ms em escala de pico
Após abandonar o Redis, o mecanismo de recomendação do Talkie atingiu consistentemente sua meta de latência — menos de 30 milissegundos, mesmo durante picos de tráfego acima de 5.000 consultas por segundo. A arquitetura nativa para vetores forneceu correspondência semântica mais precisa imediatamente, melhorando a qualidade das recomendações e, em última análise, impulsionando maior engajamento dos usuários.
A configuração com múltiplas réplicas eliminou os problemas de disponibilidade e estabilidade com os quais eles haviam enfrentado dificuldades antes. À medida que o Talkie escalou para dezenas de milhões de usuários, o sistema permaneceu estável sem quedas de desempenho — algo crítico para a retenção de usuários e o crescimento do produto.
Ao remover os custosos requisitos em memória do Redis, a MiniMax também observou uma queda significativa nos gastos com infraestrutura. O modelo baseado em computação da Zilliz deu à equipe mais controle, permitindo aumentar ou reduzir recursos conforme necessário — algo que não era possível com a sobrecarga fixa de memória do Redis.
Deduplicação de dados: 2× mais rápida, 3–5× mais eficiente
A implementação personalizada de MinHash + LSH transformou a abordagem da MiniMax para o gerenciamento de dados de treinamento. Em comparação com seus sistemas MapReduce anteriores, a velocidade de processamento melhorou em 2x, enquanto os custos caíram de 3 a 5x, tornando a deduplicação de bilhões de documentos economicamente viável para operações rotineiras.
Mais importante ainda, a solução melhorou a qualidade dos dados de treinamento ao eliminar com eficiência conteúdo redundante que anteriormente causava overfitting do modelo. Melhor qualidade de dados se traduz diretamente em melhor desempenho do modelo e capacidades de generalização — a medida definitiva de sucesso para uma organização de pesquisa em IA.
A abordagem de API unificada simplificou significativamente as operações. Com a deduplicação totalmente integrada ao mesmo sistema que lida com embeddings e busca por similaridade, a MiniMax eliminou ferramentas separadas, reduziu a complexidade do pipeline e obteve simplicidade operacional que escala junto com seus conjuntos de dados em crescimento.
Desde então, a equipe aplicou os recursos MinHash + LSH a fluxos de trabalho adicionais de pré-processamento além do caso de uso original de deduplicação, maximizando o retorno sobre seu investimento em infraestrutura enquanto apoia novas iniciativas de pesquisa em IA.
Olhando para o futuro: escalando IA com confiança
Com o Zilliz Cloud em operação, a MiniMax agora está expandindo sua infraestrutura vetorial para oferecer suporte a novos produtos de IA além do Talkie. A equipe está desenvolvendo recursos multimodais, reutilizando a mesma base vector-native para oferecer suporte a embeddings de imagem, áudio e texto em diversos casos de uso.
O mecanismo MinHash + LSH está sendo estendido para pipelines de dados adicionais, permitindo iterações mais rápidas no treinamento de modelos e no refinamento de conjuntos de dados. À medida que a MiniMax continua a crescer, o Zilliz Cloud lhes dá a flexibilidade para escalar sem rearquitetar, posicionando-os para adotar futuros recursos da Zilliz com sobrecarga mínima.
- Sobre a MiniMax
- O Desafio: Quando o Sucesso Cria Demandas Impossíveis de Infraestrutura
- A Solução: Infraestrutura de IA Desenvolvida para esse Propósito que Lida com Ambos os Extremos
- Resultados: desempenho mais rápido, custos menores e operações mais simples
- Olhando para o futuro: escalando IA com confiança
Conteúdo
Indústria
LLM


