For "Single tenant LAION 100M" below, we refer to the "Laion 100m" (Fare clic per copiare l'URI S3) Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" (Fare clic per copiare l'URI S3) Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.
Linee di Pareto dei costi
Le linee di costo di Pareto mostrano la quantità di QPS sostenuta che ciascun database vettoriale cloud può fornire per una determinata spesa operativa. Combinano risultati di ricerca misurati con modelli di prezzo pubblici.
Carico di lavoro
Inquilino singolo LAION 100M
Base di costo
Query only
Periodo di costo
cost.filters.priceOrder
Costo vs. QPS ParetoQuery only - più basso è meglio - USD / hour
Note:Tutti i test sono stati condotti in AWS us-west-2. Tutti i costi qui indicati si basano sulle tariffe di ciascun prodotto in questa regione.
Caso CloudInsert
Questo caso misura il ciclo di vita write-to-serve: quanto tempo impiegano i dati sfusi per terminare l'inserimento, quando possono essere ricercati in modo affidabile e quando l'indicizzazione in background ha raggiunto il livello massimo.
Costo del display
Set di datiLAION 100M
InseritoRicercabileCompletamente indicizzatoScrivere il costo
Zilliz Cloud Capacity 12CU
dimensione del lotto = 1,000
2.9 hr
0 ms
7.0 min
$9.12
dimensione del lotto = 5,000
3.1 hr
0 ms
1.8 min
$9.25
dimensione del lotto = 10,000
3.2 hr
0 ms
1.9 min
$9.5
Zilliz Cloud Tiered 4CU
dimensione del lotto = 1,000
4.1 hr
0 ms
10.3 min
$6.3
dimensione del lotto = 5,000
4.1 hr
0 ms
9.6 min
$6.29
dimensione del lotto = 10,000
4.1 hr
0 ms
10.9 min
$6.34
Turbopuffer
dimensione del lotto = 1,000
53.5 hr
0 ms
3.4 min
$304
dimensione del lotto = 5,000
1.9 hr
6.6 hr
2.4 min
$302
dimensione del lotto = 10,000
1.8 hr
6.4 hr
2.0 min
$302
Pinecone Serverless
dimensione del lotto = 1,000
111.7 hr
0 ms
42 ms
$1,180
dimensione del lotto = 5,000
71.4 hr
0 ms
1 ms
$1,180
dimensione del lotto = 10,000
72.4 hr
0 ms
127 ms
$1,180
Note:Per sapere esattamente come abbiamo definito "inserito", "ricercabile", "completamente indicizzato", controllate il codice sorgente di VectorDBBench per ogni cliente. Per un'intuizione di base:
CloudPayloadSearchCase e MultitenantSearchCase
Questo caso misura il comportamento delle query dopo che i dati del cloud sono già caricati e ricercabili. Confronta il QPS concomitante di picco, la latenza P99 e il richiamo con diversi payload di risposta, selettività del filtro scalare e modalità di tenancy, in modo che il grafico mostri sia il throughput che la qualità dei risultati invece di premiare solo la velocità.
Modalità
Inquilino singolo LAION 100M
Filtro
non filtrato
Carico utile
ids only
Latenza
Massima concomitanza Latenza P99
Costo del display
topK = 100
Latenza di ricerca vettoriale e QPSnon filtrato - ids only - Massima concomitanza P99
ProdottoConcorrenza massima Latenza P99Concorrenza massima QPSrichiamo@10Costo della query @ max QPS
Zilliz Cloud Capacità 32CU
2,000 byte/query
158 ms
786.1
richiamo@10 0.9728
n/a
Turbopuffer
2,000 byte/query
2.34 s
395.7
richiamo@10 0.9321
n/a
Zilliz Cloud Capacità 12CU
2,000 byte/query
299 ms
376
richiamo@10 0.9723
n/a
Turbopuffer Pinned
2,000 byte/query
3.30 s
68.2
richiamo@10 0.9321
n/a
Zilliz Nuvola a strati 4CU
2,000 byte/query
5.57 s
49.2
richiamo@10 0.9510
n/a
Pinecone Serverless
2,000 byte/query
4.85 s
4.6
richiamo@10 0.9609
n/a
Caso CloudColdLatency
Questo caso misura la prima query dopo un periodo di inattività a freddo rispetto al percorso di query a regime riscaldato. In questo modo si isola il comportamento all'avvio a freddo dal normale throughput di ricerca e il grafico mostra se un prodotto ha una penalizzazione materiale per il riscaldamento dopo l'inattività.
Modalità
non filtrato
Cold / Warm Latencynon filtrato
Zilliz Cloud Capacità 12CU
55 / 54 ms
Turbopuffer Pinned
64 / 45 ms
Zilliz Nuvola a strati 4CU
122 / 57 ms
Pinecone Serverless
271 / 60 ms
Turbopuffer
2048 / 322 ms
Rapporto freddo/caldopiù basso è meglio
Zilliz Cloud Capacità 12CU
1.01×
Turbopuffer Pinned
1.42×
Zilliz Nuvola a strati 4CU
2.16×
Pinecone Serverless
4.52×
Turbopuffer
6.36×
Note:
Notiamo che, mentre alcuni prodotti possono avere un rapporto freddo/caldo più drammatico al p99 percentile, questo di solito indica un problema di agitazione della rete nelle query successive e non può essere completamente riprodotto. Pertanto, ci atteniamo alla definizione più fedele di latenza fredda/calda, ossia la prima interrogazione per ogni round.
Il momento in cui la collezione di un prodotto diventa fredda è piuttosto ambiguo, poiché la maggior parte dei prodotti non offre API pubbliche per fornire tali informazioni. Per simulare le impostazioni di produzione del mondo reale, per il benchmarking della latenza a freddo, ci assicuriamo di attendere almeno 24 ore dalle ultime operazioni sui prodotti affinché le collezioni diventino il più possibile fredde.