Nota del conjunto de datos:

For "Single tenant LAION 100M" below, we refer to the "Laion 100m" () Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" () Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.

Líneas de Pareto de costes

Las líneas de coste de Pareto muestran cuántos QPS sostenidos puede ofrecer cada base de datos vectorial en la nube para un gasto operativo determinado. Combinan resultados de búsqueda medidos con modelos de precios públicos.

Carga de trabajo

Base de costes

QPS máx.

Coste máximo

Período de coste

Por horaMensualmente

Price order

AscendingDescending

Coste vs. QPS ParetoQuery only - cuanto más bajo mejor - USD / hour

Notas:Todas las pruebas se realizan en AWS us-west-2. Todos los costes mostrados aquí se basan en los cargos de cada producto en esta región.

Caso CloudInsert

Este caso mide el ciclo de vida de escritura a servicio: cuánto tardan los datos masivos en terminar de insertarse, cuándo pueden buscarse de forma fiable y cuándo la indexación en segundo plano se ha puesto totalmente al día.

Coste de visualización

Conjunto de datosLAION 100M

InsertadoBúsqueda enTotalmente indexadoCoste de escritura

Zilliz Cloud Capacity 12CU

tamaño del lote = 1,000

2.9 hr

0 ms

7.0 min

$9.12

tamaño del lote = 5,000

3.1 hr

0 ms

1.8 min

$9.25

tamaño del lote = 10,000

3.2 hr

0 ms

1.9 min

$9.5

Zilliz Cloud Tiered 4CU

tamaño del lote = 1,000

4.1 hr

0 ms

10.3 min

$6.3

tamaño del lote = 5,000

4.1 hr

0 ms

9.6 min

$6.29

tamaño del lote = 10,000

4.1 hr

0 ms

10.9 min

$6.34

Turbopuffer

tamaño del lote = 1,000

53.5 hr

0 ms

3.4 min

$304

tamaño del lote = 5,000

1.9 hr

6.6 hr

2.4 min

$302

tamaño del lote = 10,000

1.8 hr

6.4 hr

2.0 min

$302

Pinecone Serverless

tamaño del lote = 1,000

111.7 hr

0 ms

42 ms

$1,180

tamaño del lote = 5,000

71.4 hr

0 ms

1 ms

$1,180

tamaño del lote = 10,000

72.4 hr

0 ms

127 ms

$1,180

Notas:Para saber exactamente cómo definimos "insertado", "consultable", "totalmente indexado", consulte el código fuente de VectorDBBench para cada cliente. Para una intuición básica:

CloudPayloadSearchCase y MultitenantSearchCase

Este caso mide el comportamiento de la consulta una vez que los datos de la nube ya están cargados y se pueden buscar. Compara el QPS concurrente máximo, la latencia P99 y la recuperación con diferentes cargas de respuesta, selectividad de filtro escalar y modos de tenencia, de modo que el gráfico muestra tanto el rendimiento como la calidad de los resultados en lugar de recompensar únicamente la velocidad.

Modo

Filtro

Carga útil

Latencia

Coste de visualización

topK = 100

Latencia de búsqueda vectorial y QPSsin filtrar - ids only - Máxima concurrencia P99

ProductoConcurrencia máxima Latencia P99Concurrencia máxima QPSrecall@10

Zilliz Nube Capacidad 32CU

2,000 bytes/consulta

158 ms

786.1

recall@10 0.9728

Turbopuffer

2,000 bytes/consulta

2.34 s

395.7

recall@10 0.9321

Zilliz Nube Capacidad 12CU

2,000 bytes/consulta

299 ms

376

recall@10 0.9723

Turbopuffer Pinned

2,000 bytes/consulta

3.30 s

68.2

recall@10 0.9321

Zilliz Nube Escalonada 4CU

2,000 bytes/consulta

5.57 s

49.2

recall@10 0.9510

Pinecone sin servidor

2,000 bytes/consulta

4.85 s

4.6

recall@10 0.9609

Caso CloudColdLatency

Este caso mide la primera consulta tras un periodo de inactividad en frío en comparación con la ruta de consulta en estado estacionario calentada. Aísla el comportamiento de arranque en frío del rendimiento de búsqueda normal, de modo que el gráfico muestra si un producto tiene una penalización material por calentamiento tras la inactividad.

Modo

Cold / Warm Latencysin filtrar

Zilliz Nube Capacidad 12CU

55 / 54 ms

Turbopuffer Pinned

64 / 45 ms

Zilliz Nube Escalonada 4CU

122 / 57 ms

Pinecone sin servidor

271 / 60 ms

Turbopuffer

2048 / 322 ms

Relación frío / calormás bajo es mejor

Zilliz Nube Capacidad 12CU

1.01×

Turbopuffer Pinned

1.42×

Zilliz Nube Escalonada 4CU

2.16×

Pinecone sin servidor

4.52×

Turbopuffer

6.36×

Notas:

Observamos que, si bien algunos productos pueden presentar una relación frío/caliente más dramática en el percentil p99, esto suele indicar un problema de agitación de la red en las consultas posteriores y no puede reproducirse completamente. Así pues, nos ceñimos a la definición más fiel de latencia fría/caliente, es decir, la primera consulta de cada ronda.
El momento en que la colección de un producto se enfría es bastante ambiguo, ya que la mayoría de los productos no ofrecen API públicas que proporcionen esta información. Con el fin de simular los entornos de producción del mundo real, para la evaluación comparativa de la latencia en frío, nos aseguramos de esperar al menos 24 horas desde las últimas operaciones en los productos para que las colecciones se enfríen lo máximo posible.