For "Single tenant LAION 100M" below, we refer to the "Laion 100m" (Clique para copiar o S3 URI) Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" (Clique para copiar o S3 URI) Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.
Linhas de Pareto de custos
As linhas de custo de Pareto mostram a quantidade de QPS sustentados que cada base de dados de vectores na nuvem pode fornecer para um determinado gasto operacional. Combinam resultados de pesquisa medidos com modelos de preços públicos.
Carga de trabalho
Locatário único LAION 100M
Base de custos
Query only
Período de custo
Price order
Custo vs. QPS ParetoQuery only - mais baixo é melhor - USD / hour
Notas:Todos os testes são efectuados no AWS us-west-2. Todos os custos aqui apresentados baseiam-se nos encargos de cada produto nesta região.
Caso CloudInsert
Este caso mede o ciclo de vida da escrita para servir: quanto tempo é que os dados em massa demoram a ser inseridos, quando podem ser pesquisados de forma fiável e quando a indexação em segundo plano está totalmente concluída.
Custo do ecrã
Conjunto de dadosLAION 100M
InseridoPesquisávelTotalmente indexadoCusto de escrita
Zilliz Cloud Capacity 12CU
tamanho do lote = 1,000
2.9 hr
0 ms
7.0 min
$9.12
tamanho do lote = 5,000
3.1 hr
0 ms
1.8 min
$9.25
tamanho do lote = 10,000
3.2 hr
0 ms
1.9 min
$9.5
Zilliz Cloud Tiered 4CU
tamanho do lote = 1,000
4.1 hr
0 ms
10.3 min
$6.3
tamanho do lote = 5,000
4.1 hr
0 ms
9.6 min
$6.29
tamanho do lote = 10,000
4.1 hr
0 ms
10.9 min
$6.34
Turbopuffer
tamanho do lote = 1,000
53.5 hr
0 ms
3.4 min
$304
tamanho do lote = 5,000
1.9 hr
6.6 hr
2.4 min
$302
tamanho do lote = 10,000
1.8 hr
6.4 hr
2.0 min
$302
Pinecone Serverless
tamanho do lote = 1,000
111.7 hr
0 ms
42 ms
$1,180
tamanho do lote = 5,000
71.4 hr
0 ms
1 ms
$1,180
tamanho do lote = 10,000
72.4 hr
0 ms
127 ms
$1,180
Notas:Para saber exatamente como definimos "inserido", "pesquisável", "totalmente indexado", consulte o código-fonte do VectorDBBench para cada cliente. Para uma intuição básica:
CloudPayloadSearchCase & MultitenantSearchCase
Este caso mede o comportamento da consulta depois que os dados da nuvem já estão carregados e pesquisáveis. Ele compara o pico de QPS simultâneo, a latência P99 e a recuperação sob diferentes cargas de resposta, seletividade de filtro escalar e modos de locação, de modo que o gráfico mostra tanto a taxa de transferência quanto a qualidade do resultado, em vez de recompensar apenas a velocidade.
Modo
Locatário único LAION 100M
Filtro
não filtrado
Carga útil
ids only
Latência
Concorrência máxima Latência P99
Custo do ecrã
topK = 100
Latência da pesquisa vetorial e QPSnão filtrado - ids only - Concorrência máxima P99
Este caso mede a primeira consulta após um período de inatividade a frio em comparação com o caminho de consulta aquecido em estado estável. Isola o comportamento de arranque a frio do débito de pesquisa normal, pelo que o gráfico mostra se um produto tem uma penalização de aquecimento de material após inatividade.
Modo
não filtrado
Cold / Warm Latencynão filtrado
Zilliz Cloud Capacidade 12CU
55 / 54 ms
Turbopuffer Pinned
64 / 45 ms
Zilliz Cloud Tiered 4CU
122 / 57 ms
Pinecone sem servidor
271 / 60 ms
Turbopuffer
2048 / 322 ms
Rácio frio / quentemais baixo é melhor
Zilliz Cloud Capacidade 12CU
1.01×
Turbopuffer Pinned
1.42×
Zilliz Cloud Tiered 4CU
2.16×
Pinecone sem servidor
4.52×
Turbopuffer
6.36×
Notas:
Notamos que, embora certos produtos possam ter um rácio frio/quente mais dramático no percentil p99, isto indica normalmente um problema de agitação da rede em consultas posteriores e não pode ser totalmente reproduzido. Assim, mantemos a definição mais fiel de latência fria/quente, ou seja, a primeira consulta de cada ronda.
O momento em que a coleção de um produto se torna fria é bastante ambíguo, uma vez que a maioria dos produtos não oferece APIs públicas para fornecer essa informação. Para simular as configurações de produção do mundo real, para o benchmarking de latência fria, garantimos que esperamos pelo menos 24 horas desde as últimas operações nos produtos para que as colecções se tornem tão frias quanto possível.