For "Single tenant LAION 100M" below, we refer to the "Laion 100m" (Cliquez pour copier l'URI S3) Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" (Cliquez pour copier l'URI S3) Dataset (1M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.
Lignes de Pareto des coûts
Les lignes de coût de Pareto indiquent le nombre de QPS soutenus que chaque base de données vectorielles en nuage peut fournir pour des dépenses d'exploitation données. Elles combinent des résultats de recherche mesurés avec des modèles de prix publics.
Charge de travail
Locataire unique LAION 100M
Base de coût
Query only
Période de coût
cost.filters.priceOrder
Coût vs. QPS ParetoQuery only - Plus c'est bas, mieux c'est - USD / hour
Notes :Tous les tests sont effectués dans AWS us-west-2. Tous les coûts indiqués ici sont basés sur les frais de chaque produit dans cette région.
Cas CloudInsert
Ce cas mesure le cycle de vie de l'écriture au service : combien de temps il faut pour que les données en vrac finissent d'être insérées, quand elles peuvent être recherchées de manière fiable et quand l'indexation en arrière-plan a complètement rattrapé son retard.
Notes :Pour savoir exactement comment nous avons défini "inséré", "consultable", "entièrement indexé", veuillez consulter le code source de VectorDBBench pour chaque client. Pour l'intuition de base :
CloudPayloadSearchCase & MultitenantSearchCase
Ce cas mesure le comportement des requêtes une fois que les données du nuage sont déjà chargées et consultables. Il compare le QPS maximal simultané, la latence P99 et le rappel pour différentes charges utiles de réponse, la sélectivité du filtre scalaire et les modes de location, de sorte que le graphique montre à la fois le débit et la qualité des résultats au lieu de récompenser uniquement la vitesse.
Mode
Locataire unique LAION 100M
Filtre
non filtré
Charge utile
ids only
Temps de latence
Concurrence maximale Latence P99
Coût de l'affichage
topK = 100
Latence de la recherche vectorielle et QPSnon filtré - ids only - Concurrence maximale P99
ProduitConcurrence maximale Latence P99Concurrence maximale QPSrappel@10Coût de la requête @ max QPS
Zilliz Cloud Capacity 32CU
2,000 octets/requête
158 ms
786.1
rappel@10 0.9728
n/a
Turbopuffer
2,000 octets/requête
2.34 s
395.7
rappel@10 0.9321
n/a
Zilliz Cloud Capacity 12CU
2,000 octets/requête
299 ms
376
rappel@10 0.9723
n/a
Turbopuffer Pinned
2,000 octets/requête
3.30 s
68.2
rappel@10 0.9321
n/a
Zilliz Cloud Tiered 4CU
2,000 octets/requête
5.57 s
49.2
rappel@10 0.9510
n/a
Pinecone Serverless
2,000 octets/requête
4.85 s
4.6
rappel@10 0.9609
n/a
CloudColdCas de latence
Ce cas mesure la première requête après une période d'inactivité à froid par rapport au chemin de requête à l'état stable et réchauffé. Il isole le comportement de démarrage à froid du débit de recherche normal, de sorte que le graphique montre si un produit a une pénalité matérielle de réchauffement après l'inactivité.
Mode
non filtré
Cold / Warm Latencynon filtré
Zilliz Cloud Capacity 12CU
55 / 54 ms
Turbopuffer Pinned
64 / 45 ms
Zilliz Cloud Tiered 4CU
122 / 57 ms
Pinecone Serverless
271 / 60 ms
Turbopuffer
2048 / 322 ms
Rapport froid/chaudplus bas, c'est mieux
Zilliz Cloud Capacity 12CU
1.01×
Turbopuffer Pinned
1.42×
Zilliz Cloud Tiered 4CU
2.16×
Pinecone Serverless
4.52×
Turbopuffer
6.36×
Notes :
Nous notons que si certains produits peuvent présenter un rapport froid/chaud plus spectaculaire au percentile p99, cela indique généralement un problème de secousses du réseau dans les requêtes ultérieures et ne peut pas être entièrement reproduit. Nous nous en tenons donc à la définition la plus fidèle de la latence froide/chaude, c'est-à-dire la première requête de chaque tour.
Le moment où la collection d'un produit devient froide est assez ambigu, car la plupart des produits n'offrent pas d'API publiques pour fournir cette information. Afin de simuler les paramètres de production réels, pour l'analyse comparative de la latence à froid, nous nous assurons d'attendre au moins 24 heures depuis les dernières opérations sur les produits pour que les collections deviennent aussi froides que possible.