Nota sul set di dati:

For "Single tenant LAION 100M" below, we refer to the "Laion 100m" () Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" () Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.

Linee di Pareto dei costi

Le linee di costo di Pareto mostrano la quantità di QPS sostenuta che ciascun database vettoriale cloud può fornire per una determinata spesa operativa. Combinano risultati di ricerca misurati con modelli di prezzo pubblici.

Carico di lavoro

Base di costo

QPS max

Costo massimo

Periodo di costo

OrarioMensile

Price order

AscendingDescending

Costo vs. QPS ParetoQuery only - più basso è meglio - USD / hour

Note:Tutti i test sono stati condotti in AWS us-west-2. Tutti i costi qui indicati si basano sulle tariffe di ciascun prodotto in questa regione.

Caso CloudInsert

Questo caso misura il ciclo di vita write-to-serve: quanto tempo impiegano i dati sfusi per terminare l'inserimento, quando possono essere ricercati in modo affidabile e quando l'indicizzazione in background ha raggiunto il livello massimo.

Costo del display

Set di datiLAION 100M

InseritoRicercabileCompletamente indicizzatoScrivere il costo

Zilliz Cloud Capacity 12CU

dimensione del lotto = 1,000

2.9 hr

0 ms

7.0 min

$9.12

dimensione del lotto = 5,000

3.1 hr

0 ms

1.8 min

$9.25

dimensione del lotto = 10,000

3.2 hr

0 ms

1.9 min

$9.5

Zilliz Cloud Tiered 4CU

dimensione del lotto = 1,000

4.1 hr

0 ms

10.3 min

$6.3

dimensione del lotto = 5,000

4.1 hr

0 ms

9.6 min

$6.29

dimensione del lotto = 10,000

4.1 hr

0 ms

10.9 min

$6.34

Turbopuffer

dimensione del lotto = 1,000

53.5 hr

0 ms

3.4 min

$304

dimensione del lotto = 5,000

1.9 hr

6.6 hr

2.4 min

$302

dimensione del lotto = 10,000

1.8 hr

6.4 hr

2.0 min

$302

Pinecone Serverless

dimensione del lotto = 1,000

111.7 hr

0 ms

42 ms

$1,180

dimensione del lotto = 5,000

71.4 hr

0 ms

1 ms

$1,180

dimensione del lotto = 10,000

72.4 hr

0 ms

127 ms

$1,180

Note:Per sapere esattamente come abbiamo definito "inserito", "ricercabile", "completamente indicizzato", controllate il codice sorgente di VectorDBBench per ogni cliente. Per un'intuizione di base:

CloudPayloadSearchCase e MultitenantSearchCase

Questo caso misura il comportamento delle query dopo che i dati del cloud sono già caricati e ricercabili. Confronta il QPS concomitante di picco, la latenza P99 e il richiamo con diversi payload di risposta, selettività del filtro scalare e modalità di tenancy, in modo che il grafico mostri sia il throughput che la qualità dei risultati invece di premiare solo la velocità.

Modalità

Filtro

Carico utile

Latenza

Costo del display

topK = 100

Latenza di ricerca vettoriale e QPSnon filtrato - ids only - Massima concomitanza P99

ProdottoConcorrenza massima Latenza P99Concorrenza massima QPSrichiamo@10

Zilliz Cloud Capacità 32CU

2,000 byte/query

158 ms

786.1

richiamo@10 0.9728

Turbopuffer

2,000 byte/query

2.34 s

395.7

richiamo@10 0.9321

Zilliz Cloud Capacità 12CU

2,000 byte/query

299 ms

376

richiamo@10 0.9723

Turbopuffer Pinned

2,000 byte/query

3.30 s

68.2

richiamo@10 0.9321

Zilliz Nuvola a strati 4CU

2,000 byte/query

5.57 s

49.2

richiamo@10 0.9510

Pinecone Serverless

2,000 byte/query

4.85 s

4.6

richiamo@10 0.9609

Caso CloudColdLatency

Questo caso misura la prima query dopo un periodo di inattività a freddo rispetto al percorso di query a regime riscaldato. In questo modo si isola il comportamento all'avvio a freddo dal normale throughput di ricerca e il grafico mostra se un prodotto ha una penalizzazione materiale per il riscaldamento dopo l'inattività.

Modalità

Cold / Warm Latencynon filtrato

Zilliz Cloud Capacità 12CU

55 / 54 ms

Turbopuffer Pinned

64 / 45 ms

Zilliz Nuvola a strati 4CU

122 / 57 ms

Pinecone Serverless

271 / 60 ms

Turbopuffer

2048 / 322 ms

Rapporto freddo/caldopiù basso è meglio

Zilliz Cloud Capacità 12CU

1.01×

Turbopuffer Pinned

1.42×

Zilliz Nuvola a strati 4CU

2.16×

Pinecone Serverless

4.52×

Turbopuffer

6.36×

Note:

Notiamo che, mentre alcuni prodotti possono avere un rapporto freddo/caldo più drammatico al p99 percentile, questo di solito indica un problema di agitazione della rete nelle query successive e non può essere completamente riprodotto. Pertanto, ci atteniamo alla definizione più fedele di latenza fredda/calda, ossia la prima interrogazione per ogni round.
Il momento in cui la collezione di un prodotto diventa fredda è piuttosto ambiguo, poiché la maggior parte dei prodotti non offre API pubbliche per fornire tali informazioni. Per simulare le impostazioni di produzione del mondo reale, per il benchmarking della latenza a freddo, ci assicuriamo di attendere almeno 24 ore dalle ultime operazioni sui prodotti affinché le collezioni diventino il più possibile fredde.