Note sur l'ensemble des données :

For "Single tenant LAION 100M" below, we refer to the "Laion 100m" () Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" () Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.

Lignes de Pareto des coûts

Les lignes de coût de Pareto indiquent le nombre de QPS soutenus que chaque base de données vectorielles en nuage peut fournir pour des dépenses d'exploitation données. Elles combinent des résultats de recherche mesurés avec des modèles de prix publics.

Charge de travail

Base de coût

QPS max

Coût maximum

Période de coût

HoraireMensuel

Price order

AscendingDescending

Coût vs. QPS ParetoQuery only - Plus c'est bas, mieux c'est - USD / hour

Notes :Tous les tests sont effectués dans AWS us-west-2. Tous les coûts indiqués ici sont basés sur les frais de chaque produit dans cette région.

Cas CloudInsert

Ce cas mesure le cycle de vie de l'écriture au service : combien de temps il faut pour que les données en vrac finissent d'être insérées, quand elles peuvent être recherchées de manière fiable et quand l'indexation en arrière-plan a complètement rattrapé son retard.

Coût de l'affichage

Ensemble de donnéesLAION 100M

InséréRecherche possibleEntièrement indexéCoût d'écriture

Zilliz Cloud Capacity 12CU

taille du lot = 1,000

2.9 hr

0 ms

7.0 min

$9.12

taille du lot = 5,000

3.1 hr

0 ms

1.8 min

$9.25

taille du lot = 10,000

3.2 hr

0 ms

1.9 min

$9.5

Zilliz Cloud Tiered 4CU

taille du lot = 1,000

4.1 hr

0 ms

10.3 min

$6.3

taille du lot = 5,000

4.1 hr

0 ms

9.6 min

$6.29

taille du lot = 10,000

4.1 hr

0 ms

10.9 min

$6.34

Turbopuffer

taille du lot = 1,000

53.5 hr

0 ms

3.4 min

$304

taille du lot = 5,000

1.9 hr

6.6 hr

2.4 min

$302

taille du lot = 10,000

1.8 hr

6.4 hr

2.0 min

$302

Pinecone Serverless

taille du lot = 1,000

111.7 hr

0 ms

42 ms

$1,180

taille du lot = 5,000

71.4 hr

0 ms

1 ms

$1,180

taille du lot = 10,000

72.4 hr

0 ms

127 ms

$1,180

Notes :Pour savoir exactement comment nous avons défini "inséré", "consultable", "entièrement indexé", veuillez consulter le code source de VectorDBBench pour chaque client. Pour l'intuition de base :

CloudPayloadSearchCase & MultitenantSearchCase

Ce cas mesure le comportement des requêtes une fois que les données du nuage sont déjà chargées et consultables. Il compare le QPS maximal simultané, la latence P99 et le rappel pour différentes charges utiles de réponse, la sélectivité du filtre scalaire et les modes de location, de sorte que le graphique montre à la fois le débit et la qualité des résultats au lieu de récompenser uniquement la vitesse.

Mode

Filtre

Charge utile

Temps de latence

Coût de l'affichage

topK = 100

Latence de la recherche vectorielle et QPSnon filtré - ids only - Concurrence maximale P99

ProduitConcurrence maximale Latence P99Concurrence maximale QPSrappel@10

Zilliz Cloud Capacity 32CU

2,000 octets/requête

158 ms

786.1

rappel@10 0.9728

Turbopuffer

2,000 octets/requête

2.34 s

395.7

rappel@10 0.9321

Zilliz Cloud Capacity 12CU

2,000 octets/requête

299 ms

376

rappel@10 0.9723

Turbopuffer Pinned

2,000 octets/requête

3.30 s

68.2

rappel@10 0.9321

Zilliz Cloud Tiered 4CU

2,000 octets/requête

5.57 s

49.2

rappel@10 0.9510

Pinecone Serverless

2,000 octets/requête

4.85 s

4.6

rappel@10 0.9609

CloudColdCas de latence

Ce cas mesure la première requête après une période d'inactivité à froid par rapport au chemin de requête à l'état stable et réchauffé. Il isole le comportement de démarrage à froid du débit de recherche normal, de sorte que le graphique montre si un produit a une pénalité matérielle de réchauffement après l'inactivité.

Mode

Cold / Warm Latencynon filtré

Zilliz Cloud Capacity 12CU

55 / 54 ms

Turbopuffer Pinned

64 / 45 ms

Zilliz Cloud Tiered 4CU

122 / 57 ms

Pinecone Serverless

271 / 60 ms

Turbopuffer

2048 / 322 ms

Rapport froid/chaudplus bas, c'est mieux

Zilliz Cloud Capacity 12CU

1.01×

Turbopuffer Pinned

1.42×

Zilliz Cloud Tiered 4CU

2.16×

Pinecone Serverless

4.52×

Turbopuffer

6.36×

Notes :

Nous notons que si certains produits peuvent présenter un rapport froid/chaud plus spectaculaire au percentile p99, cela indique généralement un problème de secousses du réseau dans les requêtes ultérieures et ne peut pas être entièrement reproduit. Nous nous en tenons donc à la définition la plus fidèle de la latence froide/chaude, c'est-à-dire la première requête de chaque tour.
Le moment où la collection d'un produit devient froide est assez ambigu, car la plupart des produits n'offrent pas d'API publiques pour fournir cette information. Afin de simuler les paramètres de production réels, pour l'analyse comparative de la latence à froid, nous nous assurons d'attendre au moins 24 heures depuis les dernières opérations sur les produits pour que les collections deviennent aussi froides que possible.

Lignes de Pareto des coûts

Charge de travail

Base de coût

Cas CloudInsert

CloudPayloadSearchCase &amp; MultitenantSearchCase

Mode

Filtre

Charge utile

Temps de latence

CloudColdCas de latence

Mode

CloudPayloadSearchCase & MultitenantSearchCase