Wie MiniMax Echtzeit-KI und Deduplizierung im Billionenmaßstab mit Zilliz Cloud skaliert

30 ms Latenz bei über 5.000 QPS
für Echtzeit-Empfehlungen
3–5-fache Kostensenkung
in Workflows zur Deduplizierung von Trainingsdaten
2× schneller bei der LLM-Datenvorverarbeitung
im Vergleich zu herkömmlichen MapReduce-Systemen
Datendeduplizierung im Petabyte-Maßstab
mit nativer MinHash- + LSH-Engine
Über MiniMax
MiniMax ist einer der führenden Anbieter großer Sprachmodelle und bekannt für die Entwicklung multimodaler KI-Systeme und realer Anwendungen in globalem Maßstab. Sein Verbraucherprodukt Talkie ist eine konversationelle KI-Plattform, auf der Nutzer virtuelle Agenten erstellen und mit ihnen interagieren können. Mit Dutzenden Millionen monatlich aktiven Nutzern ist Talkie zu einer der weltweit am weitesten verbreiteten KI-Companion-Plattformen geworden.
Hinter den Kulissen investiert MiniMax außerdem stark in das Training großer Modelle und in Infrastruktur. Mit dem Wachstum des Unternehmens nahm auch die Komplexität seiner Daten zu, von der Unterstützung hochgradig gleichzeitiger, latenzarmer Nutzererlebnisse bis hin zur Verwaltung von Petabytes unstrukturierter Trainingsdaten. MiniMax nutzt Zilliz Cloud, um diese Herausforderungen mit einer Dateninfrastruktur zu bewältigen, die effizient skalieren kann und zugleich sowohl Leistung als auch Flexibilität unterstützt.
Die Herausforderung: Wenn Erfolg unmögliche Infrastrukturanforderungen schafft
Das Wachstum von MiniMax machte ein kritisches Problem in der KI-Infrastruktur sichtbar: Traditionelle Datenbanken und Datenverarbeitungssysteme wurden schlichtweg nicht für die einzigartigen Anforderungen moderner KI-Anwendungen entwickelt.
Redis konnte Vektorsuche im KI-Maßstab nicht bewältigen
Das explosive Nutzerwachstum von Talkie schuf Leistungsanforderungen, die traditionelle Caching-Lösungen über ihre Grenzen hinaus trieben. Mit Dutzenden Millionen monatlich aktiven Nutzern, die sofortige, personalisierte Empfehlungen erwarten, musste die Plattform semantisches Ähnlichkeitsmatching in Echtzeit für Millionen von Inhaltselementen durchführen, wie etwa Sprachpakete, interaktive Nachrichten und Gesprächseinstiege.
Das System musste selbst bei Spitzen von über 5.000 Abfragen pro Sekunde in unter 30 Millisekunden reagieren. Ihre Redis-basierte Lösung, die für Tausende von Nutzern ausreichend funktioniert hatte, konnte in großem Maßstab nicht liefern. Die In-Memory-Architektur von Redis machte das Speichern von Millionen von Vektoren sehr teuer, während das Fehlen nativer Vektoroperationen das Team zwang, sich auf externe Plugins zu verlassen, die zusätzliche Latenz und operative Komplexität einführten.
Deduplizierung von Billionen von Tokens war wirtschaftlich unmöglich
Gleichzeitig stand die LLM-Datentrainingspipeline von MiniMax vor einer völlig anderen Skalierungskrise. Die Verarbeitung von Trainingsdatensätzen mit Dutzenden Billionen von Tokens erforderte eine ausgefeilte Deduplizierung, um die Modellqualität sicherzustellen—redundante Inhalte verursachen Overfitting und schlechte Generalisierung. Doch in diesem Maßstab wurden traditionelle Deduplizierungsmethoden wirtschaftlich und rechnerisch unpraktikabel.
MapReduce-basierte Ansätze benötigten Wochen oder Monate, um einzelne Datensätze zu verarbeiten, verbrauchten enorme Engineering-Ressourcen und verzögerten Modelltrainingszyklen. Exaktes Matching konnte die Rechenlast nicht bewältigen, während semantische Deduplizierung Verarbeitungsaufwand erzeugte, der Operationen im Billionenmaßstab prohibititv teuer machte. Als die Datensätze in Richtung Petabyte-Maßstab wuchsen, drohte der Preprocessing-Engpass, fortgeschrittenes Modelltraining wirtschaftlich undurchführbar zu machen.
Die Lösung: Zweckentwickelte KI-Infrastruktur, die beide Extreme bewältigt
MiniMax benötigt Infrastruktur, die von Grund auf speziell für KI-Workloads entwickelt wurde, statt Allzwecksysteme, die nachträglich mit KI-Fähigkeiten ausgestattet wurden. Zilliz Cloud stellte genau diese Fähigkeiten bereit: eine einheitliche Plattform, die sowohl Vektorsuchleistung im Mikrosekundenbereich als auch Effizienz bei Batch-Verarbeitung im Billionenmaßstab liefern kann und so die operative Komplexität der Verwaltung separater Systeme für unterschiedliche KI-Workload-Typen beseitigt.
Architektur für 5.000+ QPS: Native Vektoroperationen ersetzen Redis-Workarounds
Um das Empfehlungssystem von Talkie in großem Maßstab zu unterstützen, hat MiniMax seine Vektorsuchinfrastruktur vollständig um die KI-nativen Fähigkeiten von Zilliz Cloud neu konzipiert. Das neue System setzte acht Recheneinheiten mit sieben Replikas ein und bot damit sowohl horizontale Skalierbarkeit als auch kugelsichere Zuverlässigkeit bei massivem gleichzeitigem Traffic.
Im Gegensatz zu Redis, das externe Plugins und Workarounds für Vektoroperationen erforderte, bot Zilliz Cloud native Vektorindizierung und Approximate-Nearest-Neighbor-(ANN)-Suche, die speziell für KI-Anwendungen entwickelt wurden. Die bestehenden 32-dimensionalen Embeddings von MiniMax werden ohne Vorverarbeitung oder externe Tools direkt in das System eingebunden. Die gesamte Empfehlungspipeline – von der Aufnahme der Embeddings über die Indexerstellung bis hin zur Echtzeit-Ähnlichkeitssuche – lief über einheitliche APIs, die für KI-Workloads optimiert sind.
Dies war nicht einfach eine Datenbankmigration; es war ein grundlegender Wandel hin zu einer Infrastruktur, die speziell für KI-Operationen im großen Maßstab entwickelt wurde. Die Abfragelatenz wurde nicht länger durch Speicherbeschränkungen oder Plugin-Overhead begrenzt – alles lief nativ innerhalb eines Systems, das für die Geschwindigkeits- und Skalierungsanforderungen moderner KI-Anwendungen konzipiert ist.
Fortschrittliche MinHash- + LSH-Engine, speziell entwickelt für Workloads im Billionenmaßstab
Um den Umfang und die Komplexität seiner Trainingsdatenpipeline zu bewältigen, arbeitete MiniMax eng mit dem Engineering-Team von Zilliz zusammen, um eine benutzerdefinierte Deduplizierungs-Engine zu implementieren – nativ eingebettet in Zilliz Cloud. Die Lösung kombinierte MinHash und Locality-Sensitive Hashing (LSH), wodurch MiniMax redundante Inhalte in Datensätzen im Terabyte- und Petabyte-Maßstab effizient erkennen und entfernen konnte.
MinHash wurde verwendet, um jedes Dokument in eine kompakte Signatur zu komprimieren, wodurch es möglich wurde, Milliarden von Dokumenten zu vergleichen, ohne die Rechenressourcen zu überlasten. LSH reduzierte den Suchraum drastisch, indem ähnliche Inhalte geclustert wurden, und ermöglichte so die schnelle Identifizierung von Fast-Duplikaten, ohne teure vollständige Paarvergleiche zu erfordern.
Anstatt einen separaten Deduplizierungsdienst aufzubauen, lief die MinHash- + LSH-Engine nativ innerhalb des Indizierungssystems von Zilliz Cloud und nutzte dieselben APIs für das Einfügen von Embeddings, die Indexerstellung und approximative Abfragen. Dadurch entfiel die Komplexität der Verwaltung separater Workflows, während zugleich eine verteilte horizontale Skalierung bereitgestellt wurde, die mit den wachsenden Datensätzen von MiniMax mitwachsen konnte.
Ergebnisse: Schnellere Leistung, niedrigere Kosten und einfachere Abläufe
Der einheitliche Infrastrukturansatz lieferte messbare Verbesserungen bei beiden geschäftskritischen Workloads von MiniMax.
Echtzeit-Empfehlungen für Talkie: <30ms Latenz bei Spitzenauslastung
Nach dem Wechsel von Redis erreichte die Empfehlungs-Engine von Talkie ihr Latenzziel konstant – unter 30 Millisekunden, selbst bei Traffic-Spitzen von über 5.000 Abfragen pro Sekunde. Die vektornative Architektur bot von Anfang an ein präziseres semantisches Matching, verbesserte die Qualität der Empfehlungen und führte letztlich zu höherem Nutzerengagement.
Das Multi-Replica-Setup beseitigte die Verfügbarkeits- und Stabilitätsprobleme, mit denen sie zuvor zu kämpfen hatten. Als Talkie auf mehrere zehn Millionen Nutzer skalierte, blieb das System ohne Leistungseinbußen stabil – entscheidend für Nutzerbindung und Produktwachstum.
Durch den Wegfall der kostspieligen In-Memory-Anforderungen von Redis verzeichnete MiniMax außerdem einen deutlichen Rückgang der Infrastrukturausgaben. Das Compute-basierte Modell von Zilliz gab dem Team mehr Kontrolle und ermöglichte es, Ressourcen je nach Bedarf nach oben oder unten zu skalieren – etwas, das mit Redis’ festem Speicher-Overhead nicht möglich war.
Datendeduplizierung: 2× schneller, 3–5× effizienter
Die benutzerdefinierte MinHash- + LSH-Implementierung veränderte den Ansatz von MiniMax für das Management von Trainingsdaten grundlegend. Im Vergleich zu ihren vorherigen MapReduce-Systemen verbesserte sich die Verarbeitungsgeschwindigkeit um das 2-Fache, während die Kosten um das 3- bis 5-Fache sanken, wodurch die Deduplizierung von Milliarden Dokumenten für Routineabläufe wirtschaftlich machbar wurde.
Noch wichtiger ist, dass die Lösung die Qualität der Trainingsdaten verbesserte, indem sie redundante Inhalte effizient entfernte, die zuvor zu Overfitting der Modelle geführt hatten. Eine bessere Datenqualität führt direkt zu verbesserter Modellleistung und besseren Generalisierungsfähigkeiten – dem ultimativen Erfolgsmaßstab für eine KI-Forschungsorganisation.
Der einheitliche API-Ansatz hat die Abläufe erheblich optimiert. Da die Deduplizierung vollständig in dasselbe System integriert ist, das Embeddings und Ähnlichkeitssuche verarbeitet, konnte MiniMax separate Tools eliminieren, die Pipeline-Komplexität reduzieren und eine operative Einfachheit gewinnen, die mit den wachsenden Datensätzen skaliert.
Das Team hat die MinHash + LSH-Funktionen seitdem auf zusätzliche Preprocessing-Workflows über den ursprünglichen Deduplizierungs-Anwendungsfall hinaus angewendet, wodurch die Rendite der Infrastrukturinvestition maximiert und gleichzeitig neue KI-Forschungsinitiativen unterstützt werden.
Ausblick: KI mit Zuversicht skalieren
Mit Zilliz Cloud kann MiniMax nun seine Vektorinfrastruktur erweitern, um neue KI-Produkte über Talkie hinaus zu unterstützen. Das Team baut multimodale Fähigkeiten aus und nutzt dieselbe vektornative Grundlage erneut, um Bild-, Audio- und Text-Embeddings über verschiedene Anwendungsfälle hinweg zu unterstützen.
Die MinHash + LSH-Engine wird auf zusätzliche Datenpipelines ausgeweitet, was schnellere Iterationen beim Modelltraining und bei der Datensatzverfeinerung ermöglicht. Während MiniMax weiter wächst, bietet Zilliz Cloud ihnen die Flexibilität, ohne Re-Architektur zu skalieren, und versetzt sie in die Lage, zukünftige Zilliz-Funktionen mit minimalem Aufwand zu übernehmen.
- Über MiniMax
- Die Herausforderung: Wenn Erfolg unmögliche Infrastrukturanforderungen schafft
- Die Lösung: Zweckentwickelte KI-Infrastruktur, die beide Extreme bewältigt
- Ergebnisse: Schnellere Leistung, niedrigere Kosten und einfachere Abläufe
- Ausblick: KI mit Zuversicht skalieren
Inhalte
Anwendungsfall
Branche
LLM


