For "Single tenant LAION 100M" below, we refer to the "Laion 100m" (S3 URI를 복사하려면 클릭하세요.) Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" (S3 URI를 복사하려면 클릭하세요.) Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.
비용 파레토 라인
파레토 비용 라인은 각 클라우드 벡터 데이터베이스가 주어진 운영 비용에 대해 얼마나 많은 지속적인 QPS를 제공할 수 있는지를 보여줍니다. 이 선은 측정된 검색 결과와 공개 가격 모델을 결합합니다.
워크로드
싱글 테넌트 LAION 100M
비용 기준
Query only
비용 기간
cost.filters.priceOrder
비용 대비 QPS 파레토Query only - 낮을수록 좋습니다 - USD / hour
참고:모든 테스트는 AWS us-west-2에서 수행되었습니다. 여기에 표시된 모든 비용은 이 지역의 각 제품 요금을 기준으로 합니다.
클라우드인서트 케이스
이 사례는 대량 데이터 삽입을 완료하는 데 걸리는 시간, 안정적으로 검색할 수 있는 시기, 백그라운드 인덱싱이 완전히 따라잡힌 시기 등 쓰기-서브 수명 주기를 측정합니다.
디스플레이 비용
데이터 세트LAION 100M
삽입됨검색 가능완전 색인화쓰기 비용
Zilliz Cloud Capacity 12CU
배치 크기 = 1,000
2.9 hr
0 ms
7.0 min
$9.12
배치 크기 = 5,000
3.1 hr
0 ms
1.8 min
$9.25
배치 크기 = 10,000
3.2 hr
0 ms
1.9 min
$9.5
Zilliz Cloud Tiered 4CU
배치 크기 = 1,000
4.1 hr
0 ms
10.3 min
$6.3
배치 크기 = 5,000
4.1 hr
0 ms
9.6 min
$6.29
배치 크기 = 10,000
4.1 hr
0 ms
10.9 min
$6.34
Turbopuffer
배치 크기 = 1,000
53.5 hr
0 ms
3.4 min
$304
배치 크기 = 5,000
1.9 hr
6.6 hr
2.4 min
$302
배치 크기 = 10,000
1.8 hr
6.4 hr
2.0 min
$302
Pinecone Serverless
배치 크기 = 1,000
111.7 hr
0 ms
42 ms
$1,180
배치 크기 = 5,000
71.4 hr
0 ms
1 ms
$1,180
배치 크기 = 10,000
72.4 hr
0 ms
127 ms
$1,180
참고:"삽입됨", "검색 가능", "완전 색인"을 어떻게 정의했는지는 각 클라이언트에 대한 VectorDBBench 소스 코드를 확인하시기 바랍니다. 기본적인 직관력을 위해:
클라우드 페이로드 검색 사례 및 멀티테넌트 검색 사례
이 사례는 클라우드 데이터가 이미 로드되어 검색이 가능한 이후의 쿼리 동작을 측정합니다. 다양한 응답 페이로드, 스칼라 필터 선택성, 테넌시 모드에서 최대 동시 QPS, P99 지연 시간, 리콜을 비교하므로 차트에 속도만 표시하는 것이 아니라 처리량과 결과 품질을 모두 표시합니다.
모드
싱글 테넌트 LAION 100M
필터
필터링되지 않음
페이로드
ids only
지연 시간
최대 동시성 P99 지연 시간
디스플레이 비용
topK = 100
벡터 검색 지연 시간 및 QPS필터링되지 않음 - ids only - 최대 동시성 P99
제품최대 동시성 P99 지연 시간최대 동시성 QPSRECALL@10쿼리 비용 @ 최대 QPS
질리즈 클라우드 용량 32CU
2,000 바이트/쿼리
158 ms
786.1
RECALL@10 0.9728
n/a
Turbopuffer
2,000 바이트/쿼리
2.34 s
395.7
RECALL@10 0.9321
n/a
질리즈 클라우드 용량 12CU
2,000 바이트/쿼리
299 ms
376
RECALL@10 0.9723
n/a
Turbopuffer Pinned
2,000 바이트/쿼리
3.30 s
68.2
RECALL@10 0.9321
n/a
질리즈 클라우드 계층형 4CU
2,000 바이트/쿼리
5.57 s
49.2
RECALL@10 0.9510
n/a
Pinecone 서버리스
2,000 바이트/쿼리
4.85 s
4.6
RECALL@10 0.9609
n/a
클라우드 콜드 레이턴시 사례
이 사례는 예열된 정상 상태 쿼리 경로에 대해 유휴 콜드 기간 이후의 첫 번째 쿼리를 측정합니다. 이는 콜드 스타트 동작을 정상적인 검색 처리량과 분리하여 차트에 비활성 후 제품에 중요한 워밍업 페널티가 있는지 여부를 표시합니다.
모드
필터링되지 않음
Cold / Warm Latency필터링되지 않음
질리즈 클라우드 용량 12CU
55 / 54 ms
Turbopuffer Pinned
64 / 45 ms
질리즈 클라우드 계층형 4CU
122 / 57 ms
Pinecone 서버리스
271 / 60 ms
Turbopuffer
2048 / 322 ms
차가운/따뜻한 비율낮을수록 좋습니다.
질리즈 클라우드 용량 12CU
1.01×
Turbopuffer Pinned
1.42×
질리즈 클라우드 계층형 4CU
2.16×
Pinecone 서버리스
4.52×
Turbopuffer
6.36×
참고:
특정 제품은 p99 백분위수에서 콜드/웜 비율이 더 극적일 수 있지만, 이는 일반적으로 이후 쿼리에서 네트워크 흔들림 문제를 나타내며 완전히 재현할 수 없다는 점에 유의하세요. 따라서 저희는 각 라운드의 첫 번째 쿼리, 즉 콜드/웜 지연 시간에 대한 보다 충실한 정의를 고수하고 있습니다.
대부분의 제품이 이러한 정보를 제공하는 공개 API를 제공하지 않기 때문에 제품의 컬렉션이 콜드 상태가 되는 시기는 다소 모호합니다. 실제 프로덕션 환경을 시뮬레이션하기 위해 콜드 레이턴시 벤치마킹에서는 제품에 대한 마지막 작업 후 컬렉션이 가능한 한 콜드 상태가 될 때까지 최소 24시간을 기다립니다.