Bosch logra una reducción de costos del 80 % y una eficiencia de búsqueda optimizada con Milvus

80 %
Reducción de los costos de recopilación de datos
~1,4 M$
Reducción de los costos anuales de almacenamiento
Nivel de milisegundos
Recuperación de miles de millones de puntos de datos con una arquitectura escalable
When we identify a need for specific data, we can often find the required data in our database the same day using text or image search with Milvus. This greatly improves our data processing efficiency and has a positive effect on our business operations.
Mr. Zhang
Acerca de BOSCH
Con sede en Alemania, BOSCH es un líder mundial en tecnologías y componentes automotrices, reconocido por sus innovaciones pioneras y su amplia experiencia en conducción autónoma. Ofrece soluciones de conducción autónoma de vanguardia, incluidos sistemas avanzados de asistencia al conductor (ADAS) como control de crucero adaptativo, asistencia de mantenimiento de carril y sistemas de estacionamiento automatizado, en los que confían los principales fabricantes de automóviles de todo el mundo.
El desafío: adquirir conjuntos de datos de imágenes para casos límite
En la conducción autónoma, los "casos límite" se refieren a situaciones raras, inesperadas o extremas, como niebla densa repentina, lluvia intensa, tormentas de nieve u obstáculos inesperados como peatones, animales o vehículos no convencionales. Estas situaciones plantean desafíos significativos para los sistemas de percepción de los vehículos autónomos, incluidos el radar, las cámaras y el LiDAR.
Los ingenieros automotrices deben asegurarse de que los sistemas de conducción autónoma puedan navegar de forma segura y fiable en estos casos extremos. Sin embargo, adquirir conjuntos de datos de imágenes que representen con precisión estas situaciones complejas es problemático porque dichos casos no ocurren con frecuencia y a menudo requieren condiciones o entornos especializados para reproducirse. Recopilar este conjunto de datos de imágenes de "casos límite" con métodos tradicionales de recolección de datos consume mucho tiempo y es costoso, lo que representa un obstáculo significativo para los desarrolladores que buscan mejorar la seguridad y la fiabilidad de los vehículos autónomos.
El equipo de Intelligent Drive Control de BOSCH se encontró con este desafío exacto. Necesitaban encontrar una manera de recopilar de forma eficiente y rentable conjuntos de datos de imágenes que pudieran representar con precisión estas situaciones difíciles. Sin esos datos, sería imposible probar y perfeccionar exhaustivamente los sistemas autónomos para que funcionen de manera segura en todas las condiciones.
Explorando soluciones de IA: integración de LLMs y bases de datos vectoriales
Para abordar sus desafíos, el equipo de Intelligent Drive Control de BOSCH ha explorado diversas estrategias a lo largo de los años.
Inicialmente, el equipo recopiló datos para casos límite manualmente. Este enfoque requería una gran flota de vehículos y una cantidad significativa de personal para esperar estos escenarios raros y recopilar datos. Consumía mucho tiempo, era ineficiente y dependía de encuentros fortuitos con las condiciones deseadas, lo que daba lugar a plazos de proyecto prolongados.
Luego, el equipo recurrió a los grafos de conocimiento (KGs) para etiquetar puntos de datos con atributos o clasificaciones específicos. Si bien este enfoque facilitó la organización, recuperación y análisis de datos, la enorme variedad de casos límite hizo que etiquetar cada uno de forma única fuera una tarea enorme.
Ambos métodos tenían inconvenientes, incluidos altos costos, baja eficiencia y cobertura limitada.
Con los avances en las tecnologías de IA, en particular los modelos de lenguaje grandes (LLMs) como ChatGPT, las bases de datos vectoriales y la generación aumentada por recuperación (RAG), BOSCH comenzó a explorar soluciones más eficientes para abordar sus desafíos. Aprovecharon los modelos de visión grandes (LVMs) y los modelos multimodales grandes (LMMs) para convertir las imágenes recopiladas en incrustaciones vectoriales. Al utilizar una base de datos vectorial, podían realizar búsquedas de texto a imagen o de imagen a imagen altamente eficientes.
El equipo identificó rápidamente modelos LMM y LVM adecuados para la incrustación de imágenes. Sin embargo, el verdadero desafío era escalar la búsqueda por similitud vectorial, lo que convierte a las bases de datos vectoriales en un componente crucial de esta solución innovadora.
El camino hacia la elección de Milvus como solución de búsqueda por similitud
BOSCH depende de modelos de IA preentrenados con miles de millones de parámetros y dimensiones de características que superan las 1.000. Por ejemplo, con un vector de características de 1.024 dimensiones, cada valor de punto flotante (4 bytes) requiere aproximadamente 4KB de memoria. Al trabajar con conjuntos de datos masivos, este requisito de almacenamiento puede provocar un enorme consumo de recursos, elevando tanto los costos de almacenamiento como los computacionales.
El volumen de datos de imágenes de BOSCH es inmenso: actualmente se cuenta por decenas de miles de millones y sigue creciendo. Después de la agrupación y la deduplicación, los datos necesarios para la recuperación por similitud en una base de datos vectorial aún se cuentan por miles de millones.
Para abordar este desafío, BOSCH implementó tecnologías de indexación por cuantización y particionamiento para minimizar el uso de recursos y mejorar la eficiencia del procesamiento de datos. La indexación por cuantización es ideal para almacenar eficientemente datos a gran escala e indexar características de alta dimensión. El particionamiento gestiona volúmenes de datos crecientes, haciendo posible la recuperación en tiempo real a gran escala y optimizando el uso de recursos computacionales. El equipo exploró varios enfoques:
Indexación de grafos HNSW (Hierarchical Navigable Small Worlds): Muchos sistemas de preguntas y respuestas utilizan la indexación de grafos HNSW para tareas de procesamiento del lenguaje natural (NLP). Aunque es un método popular y sencillo, HNSW requiere almacenar características de alta dimensión directamente en la biblioteca del algoritmo, lo que genera un alto consumo de recursos y costos elevados.
Plugins de búsqueda vectorial sobre bases de datos tradicionales: Añadir ****campos vectoriales a bases de datos relacionales tradicionales es una de las soluciones de búsqueda vectorial disponibles. Sin embargo, para los algoritmos de índices de cuantización, las actualizaciones de particionamiento requieren reentrenar los libros de códigos, lo que añade complejidad. En consecuencia, las bases de datos tradicionales con funcionalidad de búsqueda vectorial suelen admitir solo la indexación HNSW, que no satisface las necesidades de BOSCH para el procesamiento y la recuperación de datos vectoriales a gran escala.
El ingeniero Zhang, ingeniero principal de software de BOSCH, explicó: “Necesitamos una tecnología de indexación que pueda manejar requisitos de búsqueda complejos y modelos generativos, reducir los costos de entrenamiento, mejorar la eficiencia de las actualizaciones y adaptarse con flexibilidad a las necesidades cambiantes de datos y consultas.”
Una base de datos vectorial especializada surgió como la mejor solución para las necesidades de BOSCH. Después de evaluar varias opciones, BOSCH eligió Milvus como su solución de búsqueda vectorial.
Los resultados: reducción de costos del 80% y eficiencia de búsqueda optimizada
Milvus es una base de datos vectorial de código abierto que puede almacenar, indexar y recuperar miles de millones de vectores en milisegundos. Incluso con los enormes y crecientes volúmenes de datos de BOSCH, Milvus mantiene un rendimiento extraordinariamente alto. Lo más importante es que la tecnología de indexación por cuantización de Milvus reduce significativamente el consumo de recursos de almacenamiento y computación, facilitando a BOSCH la gestión de conjuntos de datos a gran escala.
Reducción del 80% en los costos de recopilación de datos
Las eficientes capacidades de búsqueda por similitud de Milvus permiten a BOSCH recuperar entre el 70% y el 80% de los datos de casos límite necesarios desde bases de datos existentes, reduciendo la necesidad de recopilar nuevos datos. Además, Milvus permite una recuperación casi instantánea si los datos requeridos ya están en la base de datos, mejorando enormemente la eficiencia de la minería de datos.
Zhang explicó: “Cuando identificamos la necesidad de datos específicos de casos límite, a menudo podemos encontrar los datos requeridos en nuestra base de datos el mismo día usando búsqueda de texto o imágenes con Milvus. Esto mejora enormemente nuestra eficiencia en el procesamiento de datos y tiene un efecto positivo en nuestras operaciones comerciales.”
Reducción de casi 1,4 millones de dólares en costos anuales de almacenamiento
Reducir la necesidad de recopilar datos externos también ha reducido sustancialmente los costos de almacenamiento. Zhang añadió: “Depender únicamente de la recopilación de datos externos podría costar casi 1,4 millones de dólares al año.”
Eficiencia de búsqueda optimizada
La tecnología de indexación por cuantización de Milvus reduce considerablemente el consumo de recursos de almacenamiento y computación. BOSCH ahora puede procesar datos de forma más flexible y eficiente, superando las limitaciones de rendimiento de las bases de datos tradicionales. Milvus también ofrece métodos de búsqueda segmentada y fragmentada, lo que mejora la eficiencia y aborda los desafíos actuales con datos a gran escala y de alta dimensionalidad.
Recuperación a nivel de milisegundos para miles de millones de puntos de datos con una arquitectura escalable
El negocio de conducción autónoma de BOSCH está basado en la nube. La arquitectura nativa de la nube de Milvus simplifica su despliegue y escalado. Proporciona una excelente escalabilidad, lo cual es crucial para las operaciones de datos a nivel de miles de millones de BOSCH. Cuando su conjunto de datos se amplía, el equipo solo necesita un clic para escalar los recursos necesarios. Zhang mencionó: “Incluso con numerosas búsquedas concurrentes, no notamos ninguna ralentización en la velocidad de búsqueda.”
Soporte activo de la comunidad
Milvus es una de las bases de datos vectoriales de código abierto más populares, de rápida evolución y maduras, con una gran y activa comunidad de usuarios y desarrolladores en todo el mundo. Zhang comentó: “La comunidad de Milvus es muy activa. Siempre que tuvimos problemas, recibimos respuestas rápidas de la comunidad.”
Planes futuros: Explorar la capacidad de búsqueda híbrida de Milvus
Para garantizar la diversidad de los datos, se necesitan miles de imágenes de muestra. Actualmente, BOSCH prioriza las búsquedas de texto a imagen, recurriendo a búsquedas de imagen a imagen cuando los resultados de texto no son lo suficientemente buenos. El soporte de Milvus para columnas multivectoriales y búsquedas híbridas hace que las búsquedas de imagen a imagen bajo demanda sean más viables. Por ejemplo, combinar imágenes meteorológicas con imágenes de conos ayuda a buscar diversas condiciones meteorológicas que involucren conos, o superponer señales de tráfico triangulares con texto descriptivo para buscar diferentes funciones de advertencia. Esta es una dirección que BOSCH y Milvus seguirán explorando juntos.
Desbloqueando todo el potencial de Milvus en la conducción autónoma
Milvus no es solo una herramienta: es un aliado estratégico para BOSCH en el ámbito de la conducción autónoma. Con Milvus, BOSCH puede profundizar más en los datos y aprovechar su poder, lo que les da una ventaja crucial en la búsqueda de una conducción más inteligente y segura. La adopción de Milvus ha transformado la forma en que BOSCH maneja los datos, haciendo que cada paso —desde la recopilación hasta el procesamiento y la aplicación— sea más eficiente y preciso.
A medida que BOSCH mira hacia el futuro, están deseosos de explorar más capacidades de vanguardia de Milvus, impulsando la próxima generación de experiencias de conducción más seguras, inteligentes y convenientes.
- Acerca de BOSCH
- El desafío: adquirir conjuntos de datos de imágenes para casos límite
- Explorando soluciones de IA: integración de LLMs y bases de datos vectoriales
- El camino hacia la elección de Milvus como solución de búsqueda por similitud
- Los resultados: reducción de costos del 80% y eficiencia de búsqueda optimizada
- Planes futuros: Explorar la capacidad de búsqueda híbrida de Milvus
- Desbloqueando todo el potencial de Milvus en la conducción autónoma
Contenido
Industria
Automotriz
Even with numerous concurrent searches, we didn’t notice any slowdown in search speed with Milvus.
Mr. Zhang


