For "Single tenant LAION 100M" below, we refer to the "Laion 100m" (Haga clic para copiar S3 URI) Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" (Haga clic para copiar S3 URI) Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.
Líneas de Pareto de costes
Las líneas de coste de Pareto muestran cuántos QPS sostenidos puede ofrecer cada base de datos vectorial en la nube para un gasto operativo determinado. Combinan resultados de búsqueda medidos con modelos de precios públicos.
Carga de trabajo
Arrendatario individual LAION 100M
Base de costes
Query only
Período de coste
cost.filters.priceOrder
Coste vs. QPS ParetoQuery only - cuanto más bajo mejor - USD / hour
Notas:Todas las pruebas se realizan en AWS us-west-2. Todos los costes mostrados aquí se basan en los cargos de cada producto en esta región.
Caso CloudInsert
Este caso mide el ciclo de vida de escritura a servicio: cuánto tardan los datos masivos en terminar de insertarse, cuándo pueden buscarse de forma fiable y cuándo la indexación en segundo plano se ha puesto totalmente al día.
Coste de visualización
Conjunto de datosLAION 100M
InsertadoBúsqueda enTotalmente indexadoCoste de escritura
Zilliz Cloud Capacity 12CU
tamaño del lote = 1,000
2.9 hr
0 ms
7.0 min
$9.12
tamaño del lote = 5,000
3.1 hr
0 ms
1.8 min
$9.25
tamaño del lote = 10,000
3.2 hr
0 ms
1.9 min
$9.5
Zilliz Cloud Tiered 4CU
tamaño del lote = 1,000
4.1 hr
0 ms
10.3 min
$6.3
tamaño del lote = 5,000
4.1 hr
0 ms
9.6 min
$6.29
tamaño del lote = 10,000
4.1 hr
0 ms
10.9 min
$6.34
Turbopuffer
tamaño del lote = 1,000
53.5 hr
0 ms
3.4 min
$304
tamaño del lote = 5,000
1.9 hr
6.6 hr
2.4 min
$302
tamaño del lote = 10,000
1.8 hr
6.4 hr
2.0 min
$302
Pinecone Serverless
tamaño del lote = 1,000
111.7 hr
0 ms
42 ms
$1,180
tamaño del lote = 5,000
71.4 hr
0 ms
1 ms
$1,180
tamaño del lote = 10,000
72.4 hr
0 ms
127 ms
$1,180
Notas:Para saber exactamente cómo definimos "insertado", "consultable", "totalmente indexado", consulte el código fuente de VectorDBBench para cada cliente. Para una intuición básica:
CloudPayloadSearchCase y MultitenantSearchCase
Este caso mide el comportamiento de la consulta una vez que los datos de la nube ya están cargados y se pueden buscar. Compara el QPS concurrente máximo, la latencia P99 y la recuperación con diferentes cargas de respuesta, selectividad de filtro escalar y modos de tenencia, de modo que el gráfico muestra tanto el rendimiento como la calidad de los resultados en lugar de recompensar únicamente la velocidad.
Modo
Arrendatario individual LAION 100M
Filtro
sin filtrar
Carga útil
ids only
Latencia
Máxima concurrencia Latencia P99
Coste de visualización
topK = 100
Latencia de búsqueda vectorial y QPSsin filtrar - ids only - Máxima concurrencia P99
Este caso mide la primera consulta tras un periodo de inactividad en frío en comparación con la ruta de consulta en estado estacionario calentada. Aísla el comportamiento de arranque en frío del rendimiento de búsqueda normal, de modo que el gráfico muestra si un producto tiene una penalización material por calentamiento tras la inactividad.
Modo
sin filtrar
Cold / Warm Latencysin filtrar
Zilliz Nube Capacidad 12CU
55 / 54 ms
Turbopuffer Pinned
64 / 45 ms
Zilliz Nube Escalonada 4CU
122 / 57 ms
Pinecone sin servidor
271 / 60 ms
Turbopuffer
2048 / 322 ms
Relación frío / calormás bajo es mejor
Zilliz Nube Capacidad 12CU
1.01×
Turbopuffer Pinned
1.42×
Zilliz Nube Escalonada 4CU
2.16×
Pinecone sin servidor
4.52×
Turbopuffer
6.36×
Notas:
Observamos que, si bien algunos productos pueden presentar una relación frío/caliente más dramática en el percentil p99, esto suele indicar un problema de agitación de la red en las consultas posteriores y no puede reproducirse completamente. Así pues, nos ceñimos a la definición más fiel de latencia fría/caliente, es decir, la primera consulta de cada ronda.
El momento en que la colección de un producto se enfría es bastante ambiguo, ya que la mayoría de los productos no ofrecen API públicas que proporcionen esta información. Con el fin de simular los entornos de producción del mundo real, para la evaluación comparativa de la latencia en frío, nos aseguramos de esperar al menos 24 horas desde las últimas operaciones en los productos para que las colecciones se enfríen lo máximo posible.