Bosch alcança redução de custos de 80% e eficiência de busca otimizada com Milvus

80%
Redução nos custos de coleta de dados
~US$ 1,4 mi
Redução nos Custos Anuais de Armazenamento
Nível de milissegundos
Recuperação de Bilhões de Pontos de Dados com uma Arquitetura Escalável
When we identify a need for specific data, we can often find the required data in our database the same day using text or image search with Milvus. This greatly improves our data processing efficiency and has a positive effect on our business operations.
Mr. Zhang
Sobre a BOSCH
Com sede na Alemanha, a BOSCH é líder global em tecnologias e componentes automotivos, reconhecida por suas inovações pioneiras e sua expertise de longa data em direção autônoma. Ela fornece soluções de direção autônoma de ponta, incluindo sistemas avançados de assistência ao motorista (ADAS), como controle de cruzeiro adaptativo, assistência de manutenção de faixa e sistemas de estacionamento automatizado, que contam com a confiança dos principais fabricantes automotivos em todo o mundo.
O desafio: adquirir conjuntos de dados de imagens para casos extremos
Na direção autônoma, "casos extremos" referem-se a situações raras, inesperadas ou extremas, como neblina densa repentina, chuva forte, tempestades de neve ou obstáculos inesperados, como pedestres, animais ou veículos não convencionais. Essas situações representam desafios significativos para os sistemas de percepção dos veículos autônomos, incluindo radar, câmeras e LiDAR.
Engenheiros automotivos devem garantir que os sistemas de direção autônoma possam navegar por esses casos extremos com segurança e confiabilidade. No entanto, adquirir conjuntos de dados de imagens que representem com precisão essas situações complexas é problemático, porque tais casos não ocorrem com frequência e frequentemente exigem condições ou ambientes especializados para serem reproduzidos. Coletar esse conjunto de dados de imagens de "casos extremos" com métodos tradicionais de coleta de dados é demorado e caro, representando um obstáculo significativo para desenvolvedores que buscam aumentar a segurança e a confiabilidade dos veículos autônomos.
A equipe de Intelligent Drive Control da BOSCH encontrou exatamente esse desafio. Eles precisavam encontrar uma forma de reunir, de maneira eficiente e econômica, conjuntos de dados de imagens que pudessem retratar com precisão essas situações difíceis. Sem esses dados, seria impossível testar e refinar minuciosamente os sistemas autônomos para que funcionem com segurança em todas as condições.
Explorando soluções de IA: integrando LLMs e bancos de dados vetoriais
Para enfrentar seus desafios, a equipe de Intelligent Drive Control da BOSCH explorou várias estratégias ao longo dos anos.
Inicialmente, a equipe coletava dados para casos extremos manualmente. Essa abordagem exigia uma grande frota de veículos e muita mão de obra para aguardar esses cenários raros e coletar dados. Era demorada, ineficiente e dependente de encontros casuais com as condições desejadas, levando a cronogramas de projeto prolongados.
Em seguida, a equipe recorreu a grafos de conhecimento (KGs) para rotular pontos de dados com atributos ou classificações específicos. Embora essa abordagem tenha facilitado a organização, a recuperação e a análise dos dados, a enorme variedade de casos extremos tornou a tarefa de rotular cada um de forma única gigantesca.
Ambos os métodos tinham desvantagens, incluindo altos custos, baixa eficiência e cobertura limitada.
Com os avanços nas tecnologias de IA, particularmente grandes modelos de linguagem (LLMs), como ChatGPT, bancos de dados vetoriais e geração aumentada por recuperação (RAG), a BOSCH começou a explorar soluções mais eficientes para enfrentar seus desafios. Eles aproveitaram grandes modelos de visão (LVMs) e grandes modelos multimodais (LMMs) para converter imagens coletadas em embeddings vetoriais. Ao usar um banco de dados vetorial, eles poderiam realizar buscas de texto para imagem ou de imagem para imagem altamente eficientes.
A equipe identificou rapidamente modelos LMM e LVM adequados para embedding de imagens. No entanto, o verdadeiro desafio era escalar a busca por similaridade vetorial, tornando os bancos de dados vetoriais um componente crucial dessa solução inovadora.
A jornada para escolher o Milvus como a solução de busca por similaridade
A BOSCH depende de modelos de IA pré-treinados com bilhões de parâmetros e dimensões de características superiores a 1.000. Por exemplo, com um vetor de características de 1.024 dimensões, cada valor de ponto flutuante (4 bytes) requer cerca de 4KB de memória. Ao lidar com conjuntos de dados massivos, esse requisito de armazenamento pode levar a um enorme consumo de recursos, elevando tanto os custos de armazenamento quanto os computacionais.
O volume de dados de imagem da BOSCH é imenso—atualmente na casa das dezenas de bilhões e ainda crescendo. Após o agrupamento e a deduplicação, os dados necessários para recuperação por similaridade em um banco de dados vetorial ainda chegam à casa dos bilhões.
Para enfrentar esse desafio, a BOSCH implementou tecnologias de indexação por quantização e sharding para minimizar o uso de recursos e aumentar a eficiência do processamento de dados. A indexação por quantização é ideal para armazenar dados em larga escala com eficiência e indexar características de alta dimensionalidade. O sharding lida com volumes crescentes de dados, tornando possível a recuperação em tempo real em larga escala e otimizando o uso de recursos computacionais. A equipe explorou várias abordagens:
Indexação por grafos HNSW (Hierarchical Navigable Small Worlds): Muitos sistemas de perguntas e respostas usam indexação por grafos HNSW para tarefas de processamento de linguagem natural (NLP). Embora seja um método popular e direto, o HNSW exige armazenar características de alta dimensionalidade diretamente na biblioteca do algoritmo, levando a alto consumo de recursos e custos elevados.
Plugins de busca vetorial sobre bancos de dados tradicionais: Adicionar ****campos vetoriais a bancos de dados relacionais tradicionais é uma das soluções de busca vetorial disponíveis. No entanto, para algoritmos de índice por quantização, as atualizações de sharding exigem o retreinamento de codebooks, o que adiciona complexidade. Consequentemente, bancos de dados tradicionais com funcionalidade de busca vetorial geralmente oferecem suporte apenas à indexação HNSW, que não atende às necessidades da BOSCH de processamento e recuperação de dados vetoriais em larga escala.
O engenheiro Zhang, principal engenheiro de software da BOSCH, explicou: “Precisamos de uma tecnologia de indexação que consiga lidar com requisitos de busca complexos e modelos generativos, reduzir custos de treinamento, melhorar a eficiência das atualizações e se adaptar de forma flexível às necessidades em evolução de dados e consultas.”
Um banco de dados vetorial especializado surgiu como a melhor solução para as necessidades da BOSCH. Após avaliar várias opções, a BOSCH escolheu o Milvus como sua solução de busca vetorial.
Os resultados: redução de custos de 80% e eficiência de busca otimizada
Milvus é um banco de dados vetorial de código aberto capaz de armazenar, indexar e recuperar bilhões de vetores em milissegundos. Mesmo com os volumes de dados vastos e em expansão da BOSCH, o Milvus mantém desempenho extremamente alto. Mais importante ainda, a tecnologia de indexação por quantização do Milvus reduz significativamente o consumo de recursos de armazenamento e computacionais, facilitando para a BOSCH o gerenciamento de conjuntos de dados em larga escala.
Redução de 80% nos custos de coleta de dados
Os recursos eficientes de busca por similaridade do Milvus permitem que a BOSCH recupere 70%-80% dos dados de casos extremos necessários a partir de bancos de dados existentes, reduzindo a necessidade de nova coleta de dados. Além disso, o Milvus possibilita recuperação quase instantânea se os dados necessários já estiverem no banco de dados, melhorando muito a eficiência da mineração de dados.
Zhang explicou: “Quando identificamos a necessidade de dados específicos de casos extremos, muitas vezes conseguimos encontrar os dados necessários em nosso banco de dados no mesmo dia usando busca por texto ou imagem com o Milvus. Isso melhora muito nossa eficiência no processamento de dados e tem um efeito positivo em nossas operações de negócios.”
Redução de quase US$ 1,4 milhão nos custos anuais de armazenamento
Reduzir a necessidade de coleta de dados externa também diminuiu substancialmente os custos de armazenamento. Zhang acrescentou: “Depender exclusivamente da coleta de dados externa poderia custar quase 1,4 milhão de dólares por ano.”
Eficiência de Busca Otimizada
A tecnologia de indexação por quantização do Milvus reduz significativamente o consumo de recursos de armazenamento e computação. A BOSCH agora pode processar dados de forma mais flexível e eficiente, superando as limitações de desempenho dos bancos de dados tradicionais. O Milvus também oferece métodos de busca segmentada e fragmentada, aumentando a eficiência e enfrentando os desafios atuais com dados em grande escala e de alta dimensionalidade.
Recuperação em Nível de Milissegundos para Bilhões de Pontos de Dados com uma Arquitetura Escalável
O negócio de direção autônoma da BOSCH é baseado na nuvem. A arquitetura nativa da nuvem do Milvus simplifica sua implantação e escalabilidade. Ela oferece excelente escalabilidade, o que é crucial para as operações de dados em nível de bilhões da BOSCH. Quando seu conjunto de dados se expande, a equipe precisa de apenas um clique para escalar os recursos necessários. Zhang mencionou: “Mesmo com inúmeras buscas simultâneas, não percebemos nenhuma redução na velocidade de busca.”
Suporte Ativo da Comunidade
O Milvus é um dos bancos de dados vetoriais open-source mais populares, em rápida evolução e maduros, com uma grande e ativa comunidade de usuários e desenvolvedores no mundo todo. Zhang comentou: “A comunidade do Milvus é muito ativa. Sempre que tivemos problemas, recebemos respostas rápidas da comunidade.”
Planos Futuros: Explorar a Capacidade de Busca Híbrida do Milvus
Para garantir a diversidade dos dados, são necessárias milhares de imagens de amostra. Atualmente, a BOSCH prioriza buscas de texto para imagem, recorrendo a buscas de imagem para imagem quando os resultados de texto não são bons o suficiente. O suporte do Milvus a colunas multi-vetoriais e buscas híbridas torna mais viáveis as buscas de imagem para imagem sob demanda. Por exemplo, combinar imagens de clima com imagens de cones ajuda a buscar várias condições climáticas envolvendo cones, ou sobrepor sinais de trânsito triangulares com texto descritivo para buscar diferentes funções de alerta. Esta é uma direção que a BOSCH e o Milvus continuarão a explorar juntos.
Desbloqueando Todo o Potencial do Milvus na Direção Autônoma
O Milvus não é apenas uma ferramenta — é um aliado estratégico para a BOSCH no campo da direção autônoma. Com o Milvus, a BOSCH pode mergulhar mais fundo nos dados e aproveitar seu poder, obtendo uma vantagem crucial na busca por uma direção mais inteligente e segura. A adoção do Milvus transformou a forma como a BOSCH lida com dados, tornando cada etapa — da coleta ao processamento e à aplicação — mais eficiente e precisa.
Ao olhar para o futuro, a BOSCH está ansiosa para explorar mais recursos de ponta do Milvus, impulsionando a próxima geração de experiências de direção mais seguras, inteligentes e convenientes.
- Sobre a BOSCH
- O desafio: adquirir conjuntos de dados de imagens para casos extremos
- Explorando soluções de IA: integrando LLMs e bancos de dados vetoriais
- A jornada para escolher o Milvus como a solução de busca por similaridade
- Os resultados: redução de custos de 80% e eficiência de busca otimizada
- Planos Futuros: Explorar a Capacidade de Busca Híbrida do Milvus
- Desbloqueando Todo o Potencial do Milvus na Direção Autônoma
Conteúdo
Indústria
Automotivo
Even with numerous concurrent searches, we didn’t notice any slowdown in search speed with Milvus.
Mr. Zhang


