Come MiniMax scala l'IA in tempo reale e la deduplicazione su scala di trilioni con Zilliz Cloud

latenza di 30 ms a 5.000+ QPS
per consigli in tempo reale
riduzione dei costi di 3–5×
nei flussi di lavoro di deduplicazione dei dati di training
2× più veloce nella pre-elaborazione dei dati per LLM
rispetto ai sistemi MapReduce legacy
Deduplicazione dei dati su scala petabyte
utilizzando il motore MinHash + LSH nativo
Informazioni su MiniMax
MiniMax è uno dei principali fornitori di modelli linguistici di grandi dimensioni, noto per la creazione di sistemi di IA multimodali e applicazioni reali su scala globale. Il suo prodotto consumer, Talkie, è una piattaforma di IA conversazionale in cui gli utenti possono creare e interagire con agenti virtuali. Con decine di milioni di utenti attivi mensili, Talkie è diventata una delle piattaforme di companion IA più adottate al mondo.
Dietro le quinte, MiniMax investe anche in modo significativo nell’addestramento di modelli di grandi dimensioni e nell’infrastruttura. Con la crescita dell’azienda, è aumentata anche la complessità dei suoi dati, dal supporto a esperienze utente ad alta concorrenza e bassa latenza alla gestione di petabyte di dati di addestramento non strutturati. MiniMax sfrutta Zilliz Cloud per affrontare queste sfide con un’infrastruttura dati capace di scalare in modo efficiente, supportando al contempo sia prestazioni sia flessibilità.
La sfida: quando il successo crea esigenze infrastrutturali impossibili
La crescita di MiniMax ha messo in luce un problema critico nell’infrastruttura di IA: i database e i sistemi di elaborazione dati tradizionali semplicemente non erano progettati per le esigenze uniche delle moderne applicazioni di IA.
Redis non riusciva a gestire la ricerca vettoriale su scala IA
La crescita esplosiva degli utenti di Talkie ha creato requisiti di prestazioni che hanno spinto le soluzioni di caching tradizionali oltre i loro limiti. Con decine di milioni di utenti attivi mensili che si aspettavano raccomandazioni istantanee e personalizzate, la piattaforma doveva eseguire in tempo reale il matching di similarità semantica su milioni di contenuti, come pacchetti vocali, messaggi interattivi e spunti di conversazione.
Il sistema doveva rispondere in meno di 30 millisecondi, anche durante picchi di oltre 5.000 query al secondo. La loro soluzione basata su Redis, che aveva funzionato adeguatamente per migliaia di utenti, non riusciva a garantire risultati su larga scala. L’architettura in-memory di Redis rendeva molto costosa l’archiviazione di milioni di vettori, mentre la mancanza di operazioni vettoriali native costringeva il team a fare affidamento su plugin esterni che introducevano latenza aggiuntiva e complessità operativa.
La deduplicazione di trilioni di token era economicamente impossibile
Nel frattempo, la pipeline di addestramento dati LLM di MiniMax affrontava una crisi di scalabilità completamente diversa. L’elaborazione di dataset di addestramento contenenti decine di trilioni di token richiedeva una deduplicazione sofisticata per garantire la qualità del modello: i contenuti ridondanti causano overfitting e scarsa generalizzazione. Ma a questa scala, i metodi di deduplicazione tradizionali diventavano impraticabili dal punto di vista economico e computazionale.
Gli approcci basati su MapReduce impiegavano settimane o mesi per elaborare singoli dataset, consumando enormi risorse ingegneristiche e ritardando i cicli di addestramento dei modelli. Il matching esatto non riusciva a gestire il carico computazionale, mentre la deduplicazione semantica creava un overhead di elaborazione che rendeva le operazioni su scala di trilioni proibitivamente costose. Man mano che i dataset crescevano verso la scala dei petabyte, il collo di bottiglia del preprocessing minacciava di rendere economicamente impraticabile l’addestramento di modelli avanzati.
La soluzione: infrastruttura IA purpose-built che gestisce entrambi gli estremi
MiniMax richiede un’infrastruttura progettata specificamente per i carichi di lavoro di IA fin dalle fondamenta, anziché sistemi general-purpose adattati con funzionalità di IA. Zilliz Cloud ha fornito esattamente queste capacità: una piattaforma unificata in grado di offrire sia prestazioni di ricerca vettoriale a livello di microsecondi sia efficienza nell’elaborazione batch su scala di trilioni, eliminando la complessità operativa della gestione di sistemi separati per diversi tipi di carichi di lavoro di IA.
Architettare per oltre 5.000 QPS: le operazioni vettoriali native sostituiscono i workaround di Redis
Per supportare il sistema di raccomandazione di Talkie su larga scala, MiniMax ha riprogettato completamente la propria infrastruttura di ricerca vettoriale attorno alle capacità AI-native di Zilliz Cloud. Il nuovo sistema ha implementato otto unità di calcolo con sette repliche, fornendo sia scalabilità orizzontale sia affidabilità a prova di errore durante enormi volumi di traffico concorrente.
A differenza di Redis, che richiedeva plugin esterni e workaround per le operazioni vettoriali, Zilliz Cloud forniva indicizzazione vettoriale nativa e ricerca approssimata dei vicini più prossimi (ANN) progettate specificamente per le applicazioni di IA. Gli embedding esistenti a 32 dimensioni di MiniMax vengono collegati direttamente al sistema senza pre-elaborazione o strumenti esterni. L’intera pipeline di raccomandazione, dall’ingestione degli embedding alla costruzione degli indici fino alla ricerca di similarità in tempo reale, operava tramite API unificate ottimizzate per carichi di lavoro di IA.
Non si trattava semplicemente di una migrazione di database; era un cambiamento fondamentale verso un’infrastruttura costruita appositamente per operazioni su scala IA. La latenza delle query non era più vincolata da limitazioni di memoria o dall’overhead dei plugin: tutto operava nativamente all’interno di un sistema progettato per i requisiti di velocità e scala delle moderne applicazioni di IA.
Motore avanzato MinHash + LSH progettato appositamente per carichi di lavoro su scala trilionaria
Per affrontare la scala e la complessità della sua pipeline di dati di training, MiniMax ha lavorato a stretto contatto con il team di ingegneria di Zilliz per implementare un motore di deduplicazione personalizzato, integrato nativamente all’interno di Zilliz Cloud. La soluzione combinava MinHash e Locality-Sensitive Hashing (LSH), consentendo a MiniMax di rilevare ed eliminare in modo efficiente i contenuti ridondanti su dataset su scala di terabyte e petabyte.
MinHash è stato utilizzato per comprimere ogni documento in una firma compatta, rendendo possibile confrontare miliardi di documenti senza sovraccaricare le risorse di calcolo. LSH ha ridotto drasticamente lo spazio di ricerca raggruppando contenuti simili, consentendo una rapida identificazione dei quasi-duplicati senza richiedere costosi confronti completi a coppie.
Invece di costruire un servizio di deduplicazione separato, il motore MinHash + LSH operava nativamente all’interno del sistema di indicizzazione di Zilliz Cloud, utilizzando le stesse API per l’inserimento degli embedding, la costruzione degli indici e le query approssimate. Questo ha eliminato la complessità della gestione di workflow separati, offrendo al contempo una scalabilità orizzontale distribuita in grado di crescere insieme ai dataset in espansione di MiniMax.
Risultati: prestazioni più rapide, costi inferiori e operazioni più semplici
L’approccio a infrastruttura unificata ha prodotto miglioramenti misurabili in entrambi i carichi di lavoro mission-critical di MiniMax.
Raccomandazioni in tempo reale per Talkie: latenza <30 ms al picco di scala
Dopo l’abbandono di Redis, il motore di raccomandazione di Talkie ha raggiunto costantemente il suo obiettivo di latenza: meno di 30 millisecondi, anche durante picchi di traffico superiori a 5.000 query al secondo. L’architettura vector-native ha fornito una corrispondenza semantica più accurata fin da subito, migliorando la qualità delle raccomandazioni e, in ultima analisi, favorendo un maggiore coinvolgimento degli utenti.
La configurazione multi-replica ha eliminato i problemi di disponibilità e stabilità con cui avevano avuto difficoltà in precedenza. Man mano che Talkie cresceva fino a raggiungere decine di milioni di utenti, il sistema è rimasto stabile senza cali di prestazioni, un aspetto critico per la fidelizzazione degli utenti e la crescita del prodotto.
Rimuovendo i costosi requisiti in-memory di Redis, MiniMax ha inoltre registrato un calo significativo della spesa infrastrutturale. Il modello basato sul calcolo di Zilliz ha dato al team maggiore controllo, consentendo di scalare le risorse verso l’alto o verso il basso secondo necessità, cosa che non era possibile con l’overhead di memoria fisso di Redis.
Deduplicazione dei dati: 2× più veloce, 3–5× più efficiente
L’implementazione personalizzata di MinHash + LSH ha trasformato l’approccio di MiniMax alla gestione dei dati di training. Rispetto ai precedenti sistemi MapReduce, la velocità di elaborazione è migliorata di 2x mentre i costi sono diminuiti di 3-5x, rendendo economicamente sostenibile la deduplicazione di miliardi di documenti per le operazioni di routine.
Ancora più importante, la soluzione ha migliorato la qualità dei dati di training eliminando in modo efficiente i contenuti ridondanti che in precedenza causavano overfitting del modello. Una migliore qualità dei dati si traduce direttamente in prestazioni del modello e capacità di generalizzazione superiori: la misura definitiva del successo per un’organizzazione di ricerca sull’IA.
L'approccio API unificato ha semplificato significativamente le operazioni. Con la deduplicazione completamente integrata nello stesso sistema che gestisce embedding e ricerca per similarità, MiniMax ha eliminato strumenti separati, ridotto la complessità della pipeline e ottenuto una semplicità operativa che scala insieme ai loro dataset in crescita.
Da allora il team ha applicato le funzionalità MinHash + LSH a ulteriori workflow di preprocessing oltre al caso d'uso originale della deduplicazione, massimizzando il ritorno sul loro investimento infrastrutturale e supportando al contempo nuove iniziative di ricerca sull'AI.
Guardando al futuro: scalare l'AI con fiducia
Con Zilliz Cloud in uso, MiniMax sta ora espandendo la propria infrastruttura vettoriale per supportare nuovi prodotti AI oltre Talkie. Il team sta sviluppando funzionalità multimodali, riutilizzando la stessa base vector-native per supportare embedding di immagini, audio e testo in diversi casi d'uso.
Il motore MinHash + LSH viene esteso a ulteriori pipeline di dati, consentendo iterazioni più rapide sull'addestramento dei modelli e sul perfezionamento dei dataset. Mentre MiniMax continua a crescere, Zilliz Cloud offre loro la flessibilità di scalare senza riprogettare l'architettura, mettendoli nella posizione di adottare future funzionalità di Zilliz con un sovraccarico minimo.
- Informazioni su MiniMax
- La sfida: quando il successo crea esigenze infrastrutturali impossibili
- La soluzione: infrastruttura IA purpose-built che gestisce entrambi gli estremi
- Risultati: prestazioni più rapide, costi inferiori e operazioni più semplici
- Guardando al futuro: scalare l'AI con fiducia
Contenuto
Settore
LLM


