Bosch, Milvus로 80% 비용 절감 및 검색 효율 최적화 달성

80%
데이터 수집 비용 절감
~140만 달러
연간 스토리지 비용 절감
밀리초 수준
확장 가능한 아키텍처로 수십억 개의 데이터 포인트 검색
When we identify a need for specific data, we can often find the required data in our database the same day using text or image search with Milvus. This greatly improves our data processing efficiency and has a positive effect on our business operations.
Mr. Zhang
BOSCH 소개
독일에 본사를 둔 BOSCH는 자동차 기술 및 부품 분야의 글로벌 선도 기업으로, 자율주행 분야의 선구적인 혁신과 오랜 전문성으로 잘 알려져 있습니다. 이들은 적응형 크루즈 컨트롤, 차선 유지 보조, 자동 주차 시스템과 같은 첨단 운전자 보조 시스템(ADAS)을 포함한 최첨단 자율주행 솔루션을 제공하며, 전 세계 주요 자동차 제조업체들의 신뢰를 받고 있습니다.
과제: 코너 케이스를 위한 이미지 데이터셋 확보
자율주행에서 "코너 케이스"란 갑작스러운 짙은 안개, 폭우, 눈보라 또는 보행자, 동물, 특수 차량과 같은 예상치 못한 장애물처럼 드물고, 예상 밖이거나, 극단적인 상황을 의미합니다. 이러한 상황은 레이더, 카메라, LiDAR를 포함한 자율주행차의 인식 시스템에 중대한 과제를 제기합니다.
자동차 엔지니어는 자율주행 시스템이 이러한 엣지 케이스를 안전하고 안정적으로 주행할 수 있도록 보장해야 합니다. 그러나 이러한 복잡한 상황을 정확하게 나타내는 이미지 데이터셋을 확보하는 것은 문제가 됩니다. 그러한 사례는 자주 발생하지 않으며, 재현하려면 전문적인 조건이나 환경이 필요한 경우가 많기 때문입니다. 전통적인 데이터 수집 방법으로 이러한 "코너 케이스" 이미지 데이터셋을 수집하는 것은 시간이 많이 걸리고 비용도 많이 들며, 자율주행차의 안전성과 신뢰성을 향상시키려는 개발자들에게 중대한 장애물이 됩니다.
BOSCH의 Intelligent Drive Control 팀은 바로 이러한 과제에 직면했습니다. 이들은 이러한 어려운 상황을 정확하게 묘사할 수 있는 이미지 데이터셋을 효율적이고 비용 효율적으로 수집할 방법을 찾아야 했습니다. 이러한 데이터가 없다면 모든 조건에서 안전하게 작동하도록 자율주행 시스템을 철저히 테스트하고 개선하는 것은 불가능했을 것입니다.
AI 솔루션 탐색: LLM과 벡터 데이터베이스 통합
과제를 해결하기 위해 BOSCH의 Intelligent Drive Control 팀은 수년간 다양한 전략을 탐색해 왔습니다.
처음에 팀은 코너 케이스에 대한 데이터를 수동으로 수집했습니다. 이 접근 방식은 이러한 드문 시나리오를 기다리고 데이터를 수집하기 위해 대규모 차량 fleet과 상당한 인력이 필요했습니다. 시간이 많이 걸리고 비효율적이며, 원하는 조건을 우연히 마주치는 것에 의존했기 때문에 프로젝트 일정이 길어졌습니다.
다음으로 팀은 특정 속성이나 분류로 데이터 포인트에 레이블을 지정하기 위해 지식 그래프(KG)를 활용했습니다. 이 접근 방식은 데이터를 구성, 검색, 분석하기 더 쉽게 만들었지만, 코너 케이스의 종류가 너무 다양해 각각을 고유하게 레이블링하는 작업이 막대한 과제가 되었습니다.
두 방법 모두 높은 비용, 낮은 효율성, 제한된 커버리지 등 단점이 있었습니다.
AI 기술, 특히 ChatGPT와 같은 대규모 언어 모델 (LLMs), 벡터 데이터베이스, 검색 증강 생성(RAG)의 발전과 함께, BOSCH는 과제를 해결하기 위한 더 효율적인 솔루션을 모색하기 시작했습니다. 이들은 대규모 비전 모델(LVMs)과 대규모 멀티모달 모델(LMMs)을 활용해 수집된 이미지를 벡터 임베딩으로 변환했습니다. 벡터 데이터베이스를 사용함으로써 매우 효율적인 텍스트-이미지 또는 이미지-이미지 검색을 수행할 수 있었습니다.
팀은 이미지 임베딩에 적합한 LMM 및 LVM 모델을 빠르게 파악했습니다. 하지만 진정한 과제는 벡터 유사도 검색을 확장하는 것이었으며, 이로 인해 벡터 데이터베이스는 이 혁신적인 솔루션의 핵심 구성 요소가 되었습니다.
유사도 검색 솔루션으로 Milvus를 선택하기까지의 여정
BOSCH는 수십억 개의 매개변수와 1,000개가 넘는 특징 차원을 가진 사전 학습된 AI 모델에 의존합니다. 예를 들어, 1,024차원 특징 벡터의 경우 각 부동소수점 값(4바이트)은 약 4KB의 메모리를 필요로 합니다. 대규모 데이터셋을 처리할 때 이러한 스토리지 요구사항은 막대한 리소스 소비로 이어져 스토리지 및 컴퓨팅 비용을 모두 증가시킬 수 있습니다.
BOSCH의 이미지 데이터 규모는 엄청납니다. 현재 수백억 개에 달하며 여전히 증가하고 있습니다. 클러스터링과 중복 제거 후에도 벡터 데이터베이스에서 유사도 검색에 필요한 데이터는 여전히 수십억 개에 이릅니다.
이 과제를 해결하기 위해 BOSCH는 리소스 사용을 최소화하고 데이터 처리 효율을 높이기 위해 양자화 인덱싱 및 샤딩 기술을 구현했습니다. 양자화 인덱싱은 대규모 데이터를 효율적으로 저장하고 고차원 특징을 인덱싱하는 데 이상적입니다. 샤딩은 증가하는 데이터 볼륨을 처리하여 대규모 실시간 검색을 가능하게 하고 컴퓨팅 리소스 사용을 최적화합니다. 팀은 여러 접근 방식을 검토했습니다:
HNSW(Hierarchical Navigable Small Worlds) 그래프 인덱싱: 많은 질의응답 시스템이 자연어 처리(NLP) 작업에 HNSW 그래프 인덱싱을 사용합니다. 이는 널리 사용되고 간단한 방법이지만, HNSW는 고차원 특징을 알고리즘 라이브러리에 직접 저장해야 하므로 리소스 소비와 비용이 높아집니다.
기존 데이터베이스 위의 벡터 검색 플러그인: 기존 관계형 데이터베이스에 ****벡터 필드를 추가하는 것은 사용 가능한 벡터 검색 솔루션 중 하나입니다. 그러나 양자화 인덱스 알고리즘의 경우 샤딩 업데이트에는 코드북 재학습이 필요하여 복잡성이 증가합니다. 그 결과, 벡터 검색 기능을 갖춘 기존 데이터베이스는 일반적으로 HNSW 인덱싱만 지원하며, 이는 BOSCH의 대규모 벡터 데이터 처리 및 검색 요구사항을 충족하지 못합니다.
BOSCH의 수석 소프트웨어 엔지니어인 Zhang 엔지니어는 “우리는 복잡한 검색 요구사항과 생성형 모델을 처리하고, 학습 비용을 줄이며, 업데이트 효율성을 개선하고, 변화하는 데이터 및 쿼리 요구사항에 유연하게 적응할 수 있는 인덱싱 기술이 필요합니다.”라고 설명했습니다.
전문 벡터 데이터베이스는 BOSCH의 요구사항에 가장 적합한 솔루션으로 떠올랐습니다. 다양한 옵션을 평가한 후 BOSCH는 벡터 검색 솔루션으로 Milvus를 선택했습니다.
결과: 80% 비용 절감 및 검색 효율 최적화
Milvus는 수십억 개의 벡터를 밀리초 단위로 저장, 인덱싱, 검색할 수 있는 오픈 소스 벡터 데이터베이스입니다. BOSCH의 방대하고 계속 확장되는 데이터 규모에도 불구하고 Milvus는 초고성능을 유지합니다. 무엇보다도 Milvus의 양자화 인덱싱 기술은 스토리지 및 컴퓨팅 리소스 소비를 크게 줄여 BOSCH가 대규모 데이터셋을 더 쉽게 관리할 수 있도록 합니다.
데이터 수집 비용 80% 절감
Milvus의 효율적인 유사도 검색 기능을 통해 BOSCH는 필요한 코너 케이스 데이터의 70%-80%를 기존 데이터베이스에서 검색할 수 있어 신규 데이터 수집의 필요성을 줄일 수 있습니다. 또한 Milvus는 필요한 데이터가 이미 데이터베이스에 있는 경우 거의 즉각적인 검색을 가능하게 하여 데이터 마이닝 효율을 크게 향상시킵니다.
Zhang은 “특정 코너 케이스 데이터가 필요하다는 것을 확인하면, Milvus를 사용한 텍스트 또는 이미지 검색을 통해 필요한 데이터를 당일에 데이터베이스에서 찾을 수 있는 경우가 많습니다. 이는 데이터 처리 효율을 크게 향상시키며 비즈니스 운영에 긍정적인 영향을 줍니다.”라고 설명했습니다.
연간 스토리지 비용 약 140만 달러 절감
외부 데이터 수집의 필요성을 줄임으로써 스토리지 비용도 크게 낮아졌습니다. Zhang은 “외부 데이터 수집에만 의존하면 연간 거의 140만 달러의 비용이 들 수 있습니다.”라고 덧붙였습니다.
최적화된 검색 효율성
Milvus의 양자화 인덱싱 기술은 스토리지 및 컴퓨팅 리소스 소비를 크게 줄입니다. BOSCH는 이제 데이터를 더 유연하고 효율적으로 처리하여 기존 데이터베이스의 성능 한계를 극복할 수 있습니다. Milvus는 또한 세그먼트화 및 샤딩 검색 방식을 제공하여 효율성을 높이고 대규모 및 고차원 데이터와 관련된 현재의 과제를 해결합니다.
확장 가능한 아키텍처로 수십억 개 데이터 포인트에 대한 밀리초 수준 검색
BOSCH의 자율주행 사업은 클라우드 기반입니다. Milvus의 클라우드 네이티브 아키텍처는 배포와 확장을 단순화합니다. 이는 뛰어난 확장성을 제공하며, 이는 BOSCH의 10억 단위 데이터 운영에 매우 중요합니다. 데이터셋이 확장되면 팀은 클릭 한 번으로 필요한 리소스를 확장하기만 하면 됩니다. Zhang은 “수많은 동시 검색이 있어도 검색 속도 저하는 전혀 느끼지 못했습니다.”라고 언급했습니다.
활발한 커뮤니티 지원
Milvus는 전 세계적으로 크고 활발한 사용자 및 개발자 커뮤니티를 보유한, 가장 인기 있고 빠르게 발전하며 성숙한 오픈소스 벡터 데이터베이스 중 하나입니다. Zhang은 “Milvus 커뮤니티는 매우 활발합니다. 문제가 있을 때마다 커뮤니티로부터 신속한 응답을 받았습니다.”라고 말했습니다.
향후 계획: Milvus의 하이브리드 검색 기능 탐색
데이터 다양성을 보장하려면 수천 장의 샘플 이미지가 필요합니다. 현재 BOSCH는 텍스트-이미지 검색을 우선시하고, 텍스트 결과가 충분히 좋지 않을 때 이미지-이미지 검색을 사용합니다. Milvus의 멀티 벡터 컬럼 및 하이브리드 검색 지원은 온디맨드 이미지-이미지 검색을 더 실현 가능하게 만듭니다. 예를 들어, 날씨 이미지와 콘 이미지를 결합하면 콘이 포함된 다양한 기상 조건을 검색하는 데 도움이 되며, 삼각형 도로 표지판에 설명 텍스트를 오버레이하면 다양한 경고 기능을 검색할 수 있습니다. 이는 BOSCH와 Milvus가 함께 계속 탐구해 나갈 방향입니다.
자율주행에서 Milvus의 잠재력 최대한 활용하기
Milvus는 단순한 도구가 아니라 자율주행 분야에서 BOSCH의 전략적 동반자입니다. Milvus를 통해 BOSCH는 데이터를 더 깊이 탐구하고 그 힘을 활용하여 더 스마트하고 안전한 주행을 추구하는 데 중요한 우위를 확보할 수 있습니다. Milvus 도입은 BOSCH가 데이터를 처리하는 방식을 변화시켜, 수집부터 처리, 적용에 이르기까지 모든 단계를 더 효율적이고 정확하게 만들었습니다.
BOSCH는 미래를 내다보며 Milvus의 최첨단 기능을 더 많이 탐색하고, 더 안전하고 스마트하며 편리한 차세대 주행 경험을 향해 나아가기를 기대하고 있습니다.
Even with numerous concurrent searches, we didn’t notice any slowdown in search speed with Milvus.
Mr. Zhang


