Nota sobre o conjunto de dados:

For "Single tenant LAION 100M" below, we refer to the "Laion 100m" () Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" () Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.

Linhas de Pareto de custos

As linhas de custo de Pareto mostram a quantidade de QPS sustentados que cada base de dados de vectores na nuvem pode fornecer para um determinado gasto operacional. Combinam resultados de pesquisa medidos com modelos de preços públicos.

Carga de trabalho

Base de custos

QPS máximo

Custo máximo

Período de custo

Por horaMensal

Price order

AscendingDescending

Custo vs. QPS ParetoQuery only - mais baixo é melhor - USD / hour

Notas:Todos os testes são efectuados no AWS us-west-2. Todos os custos aqui apresentados baseiam-se nos encargos de cada produto nesta região.

Caso CloudInsert

Este caso mede o ciclo de vida da escrita para servir: quanto tempo é que os dados em massa demoram a ser inseridos, quando podem ser pesquisados de forma fiável e quando a indexação em segundo plano está totalmente concluída.

Custo do ecrã

Conjunto de dadosLAION 100M

InseridoPesquisávelTotalmente indexadoCusto de escrita

Zilliz Cloud Capacity 12CU

tamanho do lote = 1,000

2.9 hr

0 ms

7.0 min

$9.12

tamanho do lote = 5,000

3.1 hr

0 ms

1.8 min

$9.25

tamanho do lote = 10,000

3.2 hr

0 ms

1.9 min

$9.5

Zilliz Cloud Tiered 4CU

tamanho do lote = 1,000

4.1 hr

0 ms

10.3 min

$6.3

tamanho do lote = 5,000

4.1 hr

0 ms

9.6 min

$6.29

tamanho do lote = 10,000

4.1 hr

0 ms

10.9 min

$6.34

Turbopuffer

tamanho do lote = 1,000

53.5 hr

0 ms

3.4 min

$304

tamanho do lote = 5,000

1.9 hr

6.6 hr

2.4 min

$302

tamanho do lote = 10,000

1.8 hr

6.4 hr

2.0 min

$302

Pinecone Serverless

tamanho do lote = 1,000

111.7 hr

0 ms

42 ms

$1,180

tamanho do lote = 5,000

71.4 hr

0 ms

1 ms

$1,180

tamanho do lote = 10,000

72.4 hr

0 ms

127 ms

$1,180

Notas:Para saber exatamente como definimos "inserido", "pesquisável", "totalmente indexado", consulte o código-fonte do VectorDBBench para cada cliente. Para uma intuição básica:

CloudPayloadSearchCase & MultitenantSearchCase

Este caso mede o comportamento da consulta depois que os dados da nuvem já estão carregados e pesquisáveis. Ele compara o pico de QPS simultâneo, a latência P99 e a recuperação sob diferentes cargas de resposta, seletividade de filtro escalar e modos de locação, de modo que o gráfico mostra tanto a taxa de transferência quanto a qualidade do resultado, em vez de recompensar apenas a velocidade.

Modo

Filtro

Carga útil

Latência

Custo do ecrã

topK = 100

Latência da pesquisa vetorial e QPSnão filtrado - ids only - Concorrência máxima P99

ProdutoConcorrência máxima Latência P99Concorrência máxima QPSrecordar@10

Zilliz Cloud Capacidade 32CU

2,000 bytes/consulta

158 ms

786.1

recordar@10 0.9728

Turbopuffer

2,000 bytes/consulta

2.34 s

395.7

recordar@10 0.9321

Zilliz Cloud Capacidade 12CU

2,000 bytes/consulta

299 ms

376

recordar@10 0.9723

Turbopuffer Pinned

2,000 bytes/consulta

3.30 s

68.2

recordar@10 0.9321

Zilliz Cloud Tiered 4CU

2,000 bytes/consulta

5.57 s

49.2

recordar@10 0.9510

Pinecone sem servidor

2,000 bytes/consulta

4.85 s

4.6

recordar@10 0.9609

Caso CloudColdLatency

Este caso mede a primeira consulta após um período de inatividade a frio em comparação com o caminho de consulta aquecido em estado estável. Isola o comportamento de arranque a frio do débito de pesquisa normal, pelo que o gráfico mostra se um produto tem uma penalização de aquecimento de material após inatividade.

Modo

Cold / Warm Latencynão filtrado

Zilliz Cloud Capacidade 12CU

55 / 54 ms

Turbopuffer Pinned

64 / 45 ms

Zilliz Cloud Tiered 4CU

122 / 57 ms

Pinecone sem servidor

271 / 60 ms

Turbopuffer

2048 / 322 ms

Rácio frio / quentemais baixo é melhor

Zilliz Cloud Capacidade 12CU

1.01×

Turbopuffer Pinned

1.42×

Zilliz Cloud Tiered 4CU

2.16×

Pinecone sem servidor

4.52×

Turbopuffer

6.36×

Notas:

Notamos que, embora certos produtos possam ter um rácio frio/quente mais dramático no percentil p99, isto indica normalmente um problema de agitação da rede em consultas posteriores e não pode ser totalmente reproduzido. Assim, mantemos a definição mais fiel de latência fria/quente, ou seja, a primeira consulta de cada ronda.
O momento em que a coleção de um produto se torna fria é bastante ambíguo, uma vez que a maioria dos produtos não oferece APIs públicas para fornecer essa informação. Para simular as configurações de produção do mundo real, para o benchmarking de latência fria, garantimos que esperamos pelo menos 24 horas desde as últimas operações nos produtos para que as colecções se tornem tão frias quanto possível.

Linhas de Pareto de custos

Carga de trabalho

Base de custos

Caso CloudInsert

CloudPayloadSearchCase &amp; MultitenantSearchCase

Modo

Filtro

Carga útil

Latência

Caso CloudColdLatency

Modo

CloudPayloadSearchCase & MultitenantSearchCase