데이터 세트 노트:

For "Single tenant LAION 100M" below, we refer to the "Laion 100m" () Dataset (100M * 768 float dense vectors).
For "Multitenant Cohere 10M" Dataset below, we refer to the "Cohere Large" () Dataset (10M * 768 float dense vectors). All data are randomly splitted across 1000 tenants.

비용 파레토 라인

파레토 비용 라인은 각 클라우드 벡터 데이터베이스가 주어진 운영 비용에 대해 얼마나 많은 지속적인 QPS를 제공할 수 있는지를 보여줍니다. 이 선은 측정된 검색 결과와 공개 가격 모델을 결합합니다.

워크로드

비용 기준

최대 QPS

최대 비용

비용 기간

시간별월간

Price order

AscendingDescending

비용 대비 QPS 파레토Query only - 낮을수록 좋습니다 - USD / hour

참고:모든 테스트는 AWS us-west-2에서 수행되었습니다. 여기에 표시된 모든 비용은 이 지역의 각 제품 요금을 기준으로 합니다.

클라우드인서트 케이스

이 사례는 대량 데이터 삽입을 완료하는 데 걸리는 시간, 안정적으로 검색할 수 있는 시기, 백그라운드 인덱싱이 완전히 따라잡힌 시기 등 쓰기-서브 수명 주기를 측정합니다.

디스플레이 비용

데이터 세트LAION 100M

삽입됨검색 가능완전 색인화쓰기 비용

Zilliz Cloud Capacity 12CU

배치 크기 = 1,000

2.9 hr

0 ms

7.0 min

$9.12

배치 크기 = 5,000

3.1 hr

0 ms

1.8 min

$9.25

배치 크기 = 10,000

3.2 hr

0 ms

1.9 min

$9.5

Zilliz Cloud Tiered 4CU

배치 크기 = 1,000

4.1 hr

0 ms

10.3 min

$6.3

배치 크기 = 5,000

4.1 hr

0 ms

9.6 min

$6.29

배치 크기 = 10,000

4.1 hr

0 ms

10.9 min

$6.34

Turbopuffer

배치 크기 = 1,000

53.5 hr

0 ms

3.4 min

$304

배치 크기 = 5,000

1.9 hr

6.6 hr

2.4 min

$302

배치 크기 = 10,000

1.8 hr

6.4 hr

2.0 min

$302

Pinecone Serverless

배치 크기 = 1,000

111.7 hr

0 ms

42 ms

$1,180

배치 크기 = 5,000

71.4 hr

0 ms

1 ms

$1,180

배치 크기 = 10,000

72.4 hr

0 ms

127 ms

$1,180

참고:"삽입됨", "검색 가능", "완전 색인"을 어떻게 정의했는지는 각 클라이언트에 대한 VectorDBBench 소스 코드를 확인하시기 바랍니다. 기본적인 직관력을 위해:

클라우드 페이로드 검색 사례 및 멀티테넌트 검색 사례

이 사례는 클라우드 데이터가 이미 로드되어 검색이 가능한 이후의 쿼리 동작을 측정합니다. 다양한 응답 페이로드, 스칼라 필터 선택성, 테넌시 모드에서 최대 동시 QPS, P99 지연 시간, 리콜을 비교하므로 차트에 속도만 표시하는 것이 아니라 처리량과 결과 품질을 모두 표시합니다.

모드

필터

페이로드

지연 시간

디스플레이 비용

topK = 100

벡터 검색 지연 시간 및 QPS필터링되지 않음 - ids only - 최대 동시성 P99

제품최대 동시성 P99 지연 시간최대 동시성 QPSRECALL@10

질리즈 클라우드 용량 32CU

2,000 바이트/쿼리

158 ms

786.1

RECALL@10 0.9728

Turbopuffer

2,000 바이트/쿼리

2.34 s

395.7

RECALL@10 0.9321

질리즈 클라우드 용량 12CU

2,000 바이트/쿼리

299 ms

376

RECALL@10 0.9723

Turbopuffer Pinned

2,000 바이트/쿼리

3.30 s

68.2

RECALL@10 0.9321

질리즈 클라우드 계층형 4CU

2,000 바이트/쿼리

5.57 s

49.2

RECALL@10 0.9510

Pinecone 서버리스

2,000 바이트/쿼리

4.85 s

4.6

RECALL@10 0.9609

클라우드 콜드 레이턴시 사례

이 사례는 예열된 정상 상태 쿼리 경로에 대해 유휴 콜드 기간 이후의 첫 번째 쿼리를 측정합니다. 이는 콜드 스타트 동작을 정상적인 검색 처리량과 분리하여 차트에 비활성 후 제품에 중요한 워밍업 페널티가 있는지 여부를 표시합니다.

모드

Cold / Warm Latency필터링되지 않음

질리즈 클라우드 용량 12CU

55 / 54 ms

Turbopuffer Pinned

64 / 45 ms

질리즈 클라우드 계층형 4CU

122 / 57 ms

Pinecone 서버리스

271 / 60 ms

Turbopuffer

2048 / 322 ms

차가운/따뜻한 비율낮을수록 좋습니다.

질리즈 클라우드 용량 12CU

1.01×

Turbopuffer Pinned

1.42×

질리즈 클라우드 계층형 4CU

2.16×

Pinecone 서버리스

4.52×

Turbopuffer

6.36×

참고:

특정 제품은 p99 백분위수에서 콜드/웜 비율이 더 극적일 수 있지만, 이는 일반적으로 이후 쿼리에서 네트워크 흔들림 문제를 나타내며 완전히 재현할 수 없다는 점에 유의하세요. 따라서 저희는 각 라운드의 첫 번째 쿼리, 즉 콜드/웜 지연 시간에 대한 보다 충실한 정의를 고수하고 있습니다.
대부분의 제품이 이러한 정보를 제공하는 공개 API를 제공하지 않기 때문에 제품의 컬렉션이 콜드 상태가 되는 시기는 다소 모호합니다. 실제 프로덕션 환경을 시뮬레이션하기 위해 콜드 레이턴시 벤치마킹에서는 제품에 대한 마지막 작업 후 컬렉션이 가능한 한 콜드 상태가 될 때까지 최소 24시간을 기다립니다.