Comment MiniMax fait évoluer l’IA en temps réel et la déduplication à l’échelle du billion avec Zilliz Cloud

Latence de 30 ms à plus de 5 000 QPS
pour des recommandations en temps réel
réduction des coûts de 3 à 5 fois
dans les workflows de déduplication des données d’entraînement
2× plus rapide dans le prétraitement des données pour LLM
par rapport aux systèmes MapReduce hérités
Déduplication des données à l’échelle du pétaoctet
utilisant le moteur natif MinHash + LSH
À propos de MiniMax
MiniMax est l’un des principaux fournisseurs de grands modèles de langage, connu pour la création de systèmes d’IA multimodaux et d’applications concrètes à l’échelle mondiale. Son produit grand public, Talkie, est une plateforme d’IA conversationnelle où les utilisateurs peuvent créer des agents virtuels et interagir avec eux. Avec des dizaines de millions d’utilisateurs actifs mensuels, Talkie est devenue l’une des plateformes de compagnons IA les plus largement adoptées au monde.
En coulisses, MiniMax investit également massivement dans l’entraînement de grands modèles et l’infrastructure. À mesure que l’entreprise s’est développée, la complexité de ses données a elle aussi augmenté, qu’il s’agisse de prendre en charge des expériences utilisateur à forte concurrence et faible latence ou de gérer des pétaoctets de données d’entraînement non structurées. MiniMax s’appuie sur Zilliz Cloud pour relever ces défis grâce à une infrastructure de données capable de s’adapter efficacement tout en offrant à la fois performance et flexibilité.
Le défi : quand le succès crée des exigences d’infrastructure impossibles
La croissance de MiniMax a mis en évidence un problème critique dans l’infrastructure d’IA : les bases de données et les systèmes de traitement de données traditionnels n’ont tout simplement pas été conçus pour les exigences uniques des applications d’IA modernes.
Redis ne pouvait pas gérer la recherche vectorielle à l’échelle de l’IA
La croissance explosive du nombre d’utilisateurs de Talkie a créé des exigences de performance qui ont poussé les solutions de mise en cache traditionnelles au-delà de leurs limites. Avec des dizaines de millions d’utilisateurs actifs mensuels s’attendant à des recommandations instantanées et personnalisées, la plateforme devait effectuer une mise en correspondance sémantique en temps réel sur des millions d’éléments de contenu, tels que des packs vocaux, des messages interactifs et des amorces de conversation.
Le système devait répondre en moins de 30 millisecondes, même lors de pics de plus de 5 000 requêtes par seconde. Leur solution basée sur Redis, qui fonctionnait convenablement pour des milliers d’utilisateurs, n’a pas réussi à offrir les performances nécessaires à grande échelle. L’architecture en mémoire de Redis rendait le stockage de millions de vecteurs très coûteux, tandis que son absence d’opérations vectorielles natives a obligé l’équipe à s’appuyer sur des plugins externes qui introduisaient une latence supplémentaire et une complexité opérationnelle accrue.
La déduplication à l’échelle de billions de tokens était économiquement impossible
Pendant ce temps, le pipeline de données d’entraînement LLM de MiniMax faisait face à une crise de mise à l’échelle entièrement différente. Le traitement de jeux de données d’entraînement contenant des dizaines de billions de tokens nécessitait une déduplication sophistiquée afin de garantir la qualité du modèle : le contenu redondant entraîne un surapprentissage et une mauvaise généralisation. Mais à cette échelle, les méthodes de déduplication traditionnelles devenaient économiquement et informatiquement impraticables.
Les approches basées sur MapReduce prenaient des semaines, voire des mois, pour traiter un seul jeu de données, consommant d’énormes ressources d’ingénierie et retardant les cycles d’entraînement des modèles. La correspondance exacte ne pouvait pas gérer la charge de calcul, tandis que la déduplication sémantique créait une surcharge de traitement qui rendait les opérations à l’échelle du billion prohibitivement coûteuses. Alors que les jeux de données approchaient l’échelle du pétaoctet, le goulot d’étranglement du prétraitement menaçait de rendre l’entraînement de modèles avancés économiquement irréalisable.
La solution : une infrastructure d’IA conçue sur mesure qui gère les deux extrêmes
MiniMax nécessite une infrastructure spécifiquement conçue dès le départ pour les charges de travail d’IA, plutôt que des systèmes généralistes auxquels on aurait ajouté des capacités d’IA. Zilliz Cloud a fourni exactement ces capacités : une plateforme unifiée capable d’offrir à la fois des performances de recherche vectorielle au niveau de la microseconde et une efficacité de traitement par lots à l’échelle du billion, éliminant la complexité opérationnelle liée à la gestion de systèmes distincts pour différents types de charges de travail d’IA.
Concevoir pour plus de 5 000 QPS : les opérations vectorielles natives remplacent les contournements Redis
Pour prendre en charge le système de recommandation de Talkie à grande échelle, MiniMax a entièrement repensé son infrastructure de recherche vectorielle autour des capacités natives pour l’IA de Zilliz Cloud. Le nouveau système a déployé huit unités de calcul avec sept réplicas, offrant à la fois une évolutivité horizontale et une fiabilité à toute épreuve lors de trafics concurrents massifs.
Contrairement à Redis, qui nécessitait des plugins externes et des solutions de contournement pour les opérations vectorielles, Zilliz Cloud fournissait une indexation vectorielle native et une recherche approximative des plus proches voisins (ANN) conçues spécifiquement pour les applications d’IA. Les embeddings 32 dimensions existants de MiniMax sont intégrés directement dans le système sans prétraitement ni outillage externe. L’ensemble du pipeline de recommandation — de l’ingestion des embeddings à la construction de l’index jusqu’à la recherche de similarité en temps réel — fonctionnait via des API unifiées optimisées pour les charges de travail d’IA.
Il ne s’agissait pas simplement d’une migration de base de données ; c’était un changement fondamental vers une infrastructure spécialement conçue pour les opérations à l’échelle de l’IA. La latence des requêtes n’était plus limitée par les contraintes de mémoire ou la surcharge des plugins : tout fonctionnait nativement au sein d’un système conçu pour les exigences de vitesse et d’échelle des applications d’IA modernes.
Moteur MinHash + LSH avancé, spécialement conçu pour les charges de travail à l’échelle du billion
Pour répondre à l’échelle et à la complexité de son pipeline de données d’entraînement, MiniMax a travaillé en étroite collaboration avec l’équipe d’ingénierie de Zilliz afin de mettre en œuvre un moteur de déduplication personnalisé — intégré nativement dans Zilliz Cloud. La solution combinait MinHash et Locality-Sensitive Hashing (LSH), permettant à MiniMax de détecter et d’éliminer efficacement le contenu redondant dans des ensembles de données à l’échelle du téraoctet et du pétaoctet.
MinHash a été utilisé pour compresser chaque document en une signature compacte, rendant possible la comparaison de milliards de documents sans surcharger les ressources informatiques. LSH a considérablement réduit l’espace de recherche en regroupant les contenus similaires, permettant l’identification rapide des quasi-doublons sans nécessiter de coûteuses comparaisons exhaustives par paires.
Plutôt que de créer un service de déduplication distinct, le moteur MinHash + LSH fonctionnait nativement au sein du système d’indexation de Zilliz Cloud, en utilisant les mêmes API pour l’insertion des embeddings, la construction d’index et les requêtes approximatives. Cela a éliminé la complexité liée à la gestion de workflows distincts tout en offrant une mise à l’échelle horizontale distribuée capable de croître avec les ensembles de données en expansion de MiniMax.
Résultats : performances plus rapides, coûts réduits et opérations simplifiées
L’approche d’infrastructure unifiée a permis d’obtenir des améliorations mesurables sur les deux charges de travail critiques de MiniMax.
Recommandations en temps réel pour Talkie : latence <30 ms à l’échelle maximale
Après l’abandon de Redis, le moteur de recommandation de Talkie a constamment atteint son objectif de latence — moins de 30 millisecondes, même lors de pics de trafic dépassant 5 000 requêtes par seconde. L’architecture vectorielle native offrait d’emblée une correspondance sémantique plus précise, améliorant la qualité des recommandations et favorisant au final un engagement utilisateur plus élevé.
La configuration multi-réplicas a éliminé les problèmes de disponibilité et de stabilité auxquels ils avaient été confrontés auparavant. Alors que Talkie atteignait des dizaines de millions d’utilisateurs, le système est resté stable sans baisse de performance — un point essentiel pour la rétention des utilisateurs et la croissance du produit.
En supprimant les coûteuses exigences en mémoire de Redis, MiniMax a également constaté une baisse significative des dépenses d’infrastructure. Le modèle basé sur le calcul de Zilliz a donné à l’équipe davantage de contrôle, lui permettant d’augmenter ou de réduire les ressources selon les besoins — ce qui n’était pas possible avec la surcharge mémoire fixe de Redis.
Déduplication des données : 2× plus rapide, 3 à 5× plus efficace
L’implémentation personnalisée de MinHash + LSH a transformé l’approche de MiniMax en matière de gestion des données d’entraînement. Comparée à leurs systèmes MapReduce précédents, la vitesse de traitement a été multipliée par 2 tandis que les coûts ont diminué de 3 à 5 fois, rendant la déduplication de milliards de documents économiquement viable pour les opérations courantes.
Plus important encore, la solution a amélioré la qualité des données d’entraînement en éliminant efficacement le contenu redondant qui provoquait auparavant un surapprentissage des modèles. Une meilleure qualité des données se traduit directement par une amélioration des performances des modèles et de leurs capacités de généralisation — la mesure ultime du succès pour une organisation de recherche en IA.
L’approche d’API unifiée a considérablement rationalisé les opérations. Avec la déduplication entièrement intégrée au même système qui gère les embeddings et la recherche de similarité, MiniMax a éliminé les outils séparés, réduit la complexité du pipeline et gagné en simplicité opérationnelle, capable d’évoluer avec leurs jeux de données en croissance.
L’équipe a depuis appliqué les capacités MinHash + LSH à d’autres workflows de prétraitement au-delà du cas d’utilisation initial de déduplication, maximisant le retour sur leur investissement dans l’infrastructure tout en soutenant de nouvelles initiatives de recherche en IA.
Perspectives : faire évoluer l’IA en toute confiance
Avec Zilliz Cloud en place, MiniMax étend désormais son infrastructure vectorielle afin de prendre en charge de nouveaux produits d’IA au-delà de Talkie. L’équipe développe des capacités multimodales, en réutilisant la même fondation native vectorielle pour prendre en charge les embeddings d’images, d’audio et de texte dans différents cas d’utilisation.
Le moteur MinHash + LSH est étendu à d’autres pipelines de données, permettant une itération plus rapide sur l’entraînement des modèles et l’affinement des jeux de données. Alors que MiniMax continue de croître, Zilliz Cloud leur offre la flexibilité nécessaire pour évoluer sans repenser l’architecture, les positionnant pour adopter les futures fonctionnalités de Zilliz avec un minimum de surcharge.
- À propos de MiniMax
- Le défi : quand le succès crée des exigences d’infrastructure impossibles
- La solution : une infrastructure d’IA conçue sur mesure qui gère les deux extrêmes
- Résultats : performances plus rapides, coûts réduits et opérations simplifiées
- Perspectives : faire évoluer l’IA en toute confiance
Contenu
Secteur d'activité
LLM


