Blog
Caching von LLM-Abfragen für Performance- & Kostenverbesserungen

Caching von LLM-Abfragen für Performance- & Kostenverbesserungen

Apr 11, 20235 min read

Was ist GPTCache? Möchten Sie die Leistung Ihrer Anwendung für große Sprachmodelle (LLM) verbessern und gleichzeitig Kosten senken? Dann ist ein semantischer Cache zum Speichern von LLM-Antworten genau das Richtige. Das Caching von LLM-Antworten kann die Zeit zum Abrufen von Daten erheblich reduzieren, die Kosten für API-Aufrufe senken und die Skalierbarkeit verbessern. Darüber hinaus können Sie den Cache durch Anpassung und Überwachung seiner Leistung optimieren, um ihn effizienter zu machen. In diesem Blog stellen wir GPTCache vor, einen Open-Source-semantischen Cache zum Speichern von LLM-Antworten, und geben Tipps zur Implementierung, um die besten Ergebnisse zu erzielen. Lesen Sie weiter, um mehr darüber zu erfahren, wie das Caching von LLM-Abfragen Ihnen helfen kann, eine bessere Leistung und Kosteneinsparungen zu erzielen.

Warum einen semantischen Cache zum Speichern von LLMs verwenden?

Der Aufbau eines semantischen Caches zum Speichern von Antworten von LLMs (Large Language Models) kann mehrere Vorteile mit sich bringen, wie zum Beispiel:

Verbesserte Leistung: Das Speichern von LLM-Antworten in einem Cache kann die Zeit zum Abrufen der Antwort erheblich reduzieren, insbesondere wenn sie zuvor angefordert wurde und bereits im Cache vorhanden ist. Das Speichern von Antworten in einem Cache kann die Gesamtleistung Ihrer Anwendung verbessern.
Reduzierte Kosten: Die meisten LLM-Dienste berechnen Gebühren auf Grundlage einer Kombination aus der Anzahl der Anfragen und der Token-Anzahl. Das Caching von LLM-Antworten kann die Anzahl der an den Dienst gestellten API-Aufrufe reduzieren, was zu Kosteneinsparungen führt. Caching ist besonders relevant bei hohem Datenverkehrsaufkommen, bei dem die Kosten für API-Aufrufe erheblich sein können.
Bessere Skalierbarkeit: Das Caching von LLM-Antworten kann die Skalierbarkeit Ihrer Anwendung verbessern, indem es die Last auf den LLM-Dienst reduziert. Caching hilft, Engpässe zu vermeiden, und stellt sicher, dass die Anwendung eine wachsende Anzahl von Anfragen bewältigen kann.
Anpassung: Ein semantischer Cache kann so angepasst werden, dass er Antworten auf Grundlage spezifischer Anforderungen speichert, etwa der Art der Eingabe, des Ausgabeformats oder der Länge der Antwort. Dies kann helfen, den Cache zu optimieren und effizienter zu machen.
Reduzierung der Netzwerklatenz: Ein semantischer Cache, der sich näher am Benutzer befindet, reduziert die Zeit, die zum Abrufen von Daten vom LLM-Dienst benötigt wird. Durch die Reduzierung der Netzwerklatenz können Sie die allgemeine Benutzererfahrung verbessern.

Der Aufbau eines semantischen Caches zum Speichern von LLM-Antworten kann mehrere Vorteile mit sich bringen, darunter verbesserte Leistung, reduzierte Kosten, bessere Skalierbarkeit, Anpassung und reduzierte Netzwerklatenz.

Was ist GPTCache?

Beim Aufbau der ChatGPT-Demoanwendung OSS Chat stellten wir fest, dass ihre Leistung nachließ und die Servicegebühren stiegen, je mehr wir sie testeten. Dadurch wurde uns klar, dass wir einen Caching-Mechanismus benötigten, um dem Leistungsabfall und dem Kostenanstieg entgegenzuwirken. Als wir mit dem Aufbau dieser Caching-Schicht begannen, erkannten wir, dass dies für die Community nützlich sein könnte, und entschieden uns daher, dies als GPTCache als Open Source bereitzustellen.

GPTCache ist ein Open-Source-Tool, das entwickelt wurde, um die Effizienz und Geschwindigkeit GPT-basierter Anwendungen zu verbessern, indem ein Cache implementiert wird, der die von Sprachmodellen generierten Antworten speichert. GPTCache ermöglicht es Benutzern, den Cache entsprechend ihren Bedürfnissen anzupassen, einschließlich Optionen für Einbettungsfunktionen, Ähnlichkeitsbewertungsfunktionen, Speicherort und Verdrängung. Darüber hinaus unterstützt GPTCache derzeit die OpenAI ChatGPT-Schnittstelle und die LangChain-Schnittstelle.

Unterstützte Einbettungen

GPTCache bietet außerdem eine Reihe von Optionen zum Extrahieren von Einbettungen aus Anfragen für die Ähnlichkeitssuche. Darüber hinaus bietet das Tool eine generische Schnittstelle, die mehrere Einbettungs-APIs unterstützt, sodass Benutzer diejenige auswählen können, die am besten zu ihren Bedürfnissen passt. Die Liste der unterstützten Einbettungs-APIs umfasst:

OpenAI Einbettungs-API
ONNX mit dem GPTCache/paraphrase-albert-onnx-Modell
Hugging Face Einbettungs-API
Cohere Einbettungs-API
fastText-Einbettungs-API
SentenceTransformers-Einbettungs-API

Diese Optionen bieten Nutzern eine Auswahl an Einbettungsfunktionen, die die Genauigkeit und Effizienz der Ähnlichkeitssuchfunktion in GPTCache beeinflussen können. GPTCache zielt darauf ab, Flexibilität zu bieten und durch die Unterstützung mehrerer APIs ein breiteres Spektrum an Anwendungsfällen abzudecken.

Cache-Speicher

GPTCache bietet Unterstützung für das Speichern zwischengespeicherter Antworten in einer Vielzahl von Datenbankmanagementsystemen. Das Tool unterstützt mehrere beliebte Datenbanken, darunter:

SQLite
PostgreSQL
MySQL
MariaDB
SQL Server
Oracle

Die Unterstützung beliebter Datenbanken bedeutet, dass Nutzer die Datenbank wählen können, die je nach Leistung, Skalierbarkeit und Kosten am besten zu ihren Anforderungen passt. Darüber hinaus bietet GPTCache eine universell zugängliche Schnittstelle zur Erweiterung des Moduls, sodass Nutzer bei Bedarf Unterstützung für verschiedene Datenbanksysteme hinzufügen können.

Vector-Store-Optionen

GPTCache unterstützt ein Vector-Store-Modul, das dabei hilft, die K ähnlichsten Anfragen auf Basis der aus der Eingabeanfrage extrahierten Einbettungen zu finden. Diese Funktionalität kann dabei helfen, die Ähnlichkeit zwischen Anfragen zu bewerten. GPTCache bietet eine benutzerfreundliche Schnittstelle, die verschiedene Vector Stores unterstützt, darunter Milvus, Zilliz Cloud und FAISS.

Diese Optionen bieten Nutzern eine Auswahl an Vector Stores, die die Effizienz und Genauigkeit der Ähnlichkeitssuchfunktion in GPTCache beeinflussen können. GPTCache zielt darauf ab, Flexibilität zu bieten und durch die Unterstützung mehrerer Vector Stores ein breiteres Spektrum an Anwendungsfällen abzudecken. Wir planen außerdem, in naher Zukunft weitere Vektordatenbanken zu unterstützen.

Verwaltung von Eviction-Richtlinien

Der Cache Manager in GPTCache steuert die Operationen sowohl der Cache-Speicher- als auch der Vector-Store-Module. Wenn der Cache voll wird, bestimmt eine Ersetzungsrichtlinie, welche Daten entfernt werden, um Platz für neue Daten zu schaffen. GPTCache unterstützt derzeit zwei grundlegende Optionen:

LRU (Least Recently Used)-Eviction-Richtlinie
FIFO (First In, First Out)-Eviction-Richtlinie

Dies sind beides standardmäßige Eviction-Richtlinien, die in Caching-Systemen verwendet werden.

Ähnlichkeitsbewerter

Das Similarity Evaluator-Modul in GPTCache sammelt Daten aus Cache-Speicher und Vector Store. Es verwendet verschiedene Strategien, um die Ähnlichkeit zwischen der Eingabeanfrage und den Anfragen aus dem Vector Store zu bestimmen. Die Ähnlichkeit bestimmt, ob eine Anfrage mit dem Cache übereinstimmt. GPTCache bietet eine standardisierte Schnittstelle zur Integration verschiedener Ähnlichkeitsstrategien sowie eine Sammlung von Implementierungen. Diese unterschiedlichen Ähnlichkeitsstrategien ermöglichen es GPTCache, Flexibilität bei der Bestimmung von Cache-Treffern auf Grundlage anderer Anwendungsfälle und Anforderungen zu bieten.

Zusammenfassung

GPTCache ist ein Projekt, das darauf abzielt, die Nutzung von Sprachmodellen in GPT-basierten Anwendungen zu optimieren, indem die Notwendigkeit reduziert wird, Antworten wiederholt von Grund auf neu zu generieren, und stattdessen bei Bedarf eine zwischengespeicherte Antwort verwendet wird. GPTCache ist ein Open-Source-Projekt, also schau es dir selbst an. Wir würden uns freuen, dein Feedback zu hören, oder du kannst sogar dazu beitragen, zum Projekt beizutragen!

Mehr erfahren

- Was ist GPTCache?

Aktualisiert am Jul 13, 2026

Chris Churilo
Chris Churilo is the VP of Marketing & Community at Zilliz where she leads all community, developer relations, and marketing efforts. Prior to Zilliz, Chris was a founding member of the InfluxData’s go to market efforts and helped propel the time series database platform to dominance in the market. In earlier roles she defined and designed a SaaS monitoring solution at Centroid, and prior to that she was the VP of product management at iPass and was the LOB for several cloud services that required her to track the business and operational metrics and analytics to help identify and resolve issues.

Weiterlesen

Zilliz Cloud On-Demand Compute: Pay Only for What You Use

The customer case behind Zilliz Cloud On-Demand: how a $10K vector search bill came down to under $500, and the engineering changes that made it possible.

How Zilliz Ended Up at the Center of NVIDIA’s Unstructured Data Story at GTC 2026

If unstructured data is the context of AI, then the ceiling of AI applications will be set not just by models, but by how mature the infrastructure for unstructured data becomes.

Demystifying the Milvus Sizing Tool

Explore how to use the Sizing Tool to select the optimal configuration for your Milvus deployment.