vLLM
Zilliz Cloud and vLLM enable efficient RAG systems with vector search and LLM inference.
Utilice esta integración de forma gratuitaAcerca de vLLM
vLLM es una biblioteca de código abierto para la inferencia y el servicio de grandes modelos lingüísticos (LLM) desarrollada en UC Berkeley SkyLab. La tecnología PagedAttention de vLLM mejora el rendimiento del servicio hasta 24 veces y reduce el uso de memoria de la GPU a la mitad en comparación con los métodos tradicionales.
Por qué Zilliz Cloud y vLLM
La combinación de Zilliz Cloud y vLLM crea una potente solución para construir sistemas Retrieval Augmented Generation (RAG) de alto rendimiento. Zilliz Cloud, basada en la base de datos vectorial Milvus, proporciona almacenamiento vectorial eficiente y capacidades de recuperación esenciales para las aplicaciones RAG. vLLM complementa esto ofreciendo inferencia y servicio LLM optimizados.
Esta integración permite a los desarrolladores crear sistemas RAG que pueden recuperar de forma eficiente información relevante de grandes conjuntos de datos almacenados en Zilliz Cloud y generar respuestas de alta calidad utilizando el servicio LLM optimizado de vLLM. La combinación aborda retos comunes en aplicaciones de IA, como las alucinaciones de IA, al basar las respuestas LLM en información precisa y recuperada.
Funcionamiento de Zilliz Cloud y vLLM
La integración de Zilliz Cloud y vLLM funciona aprovechando los puntos fuertes de ambas tecnologías en un sistema RAG. En primer lugar, los datos de texto se incrustan y almacenan como incrustaciones vectoriales en Zilliz Cloud. Cuando se recibe una consulta del usuario, Zilliz Cloud realiza una búsqueda eficiente de similitud vectorial para recuperar los trozos de texto más relevantes de su base de conocimientos.
Estos fragmentos de texto recuperados se pasan a vLLM, que los utiliza para aumentar el contexto para el LLM (como Meta's Llama 3.1). La tecnología de servicio optimizada de vLLM, que incluye PagedAttention para una gestión eficiente de la memoria, permite una inferencia LLM rápida y eficiente de los recursos. A continuación, el LLM genera una respuesta basada tanto en la consulta del usuario como en el contexto recuperado, lo que se traduce en respuestas más precisas y relevantes desde el punto de vista contextual.
Aprenda
La mejor manera de empezar es con un tutorial práctico. Este tutorial le mostrará cómo crear una aplicación de modelo lingüístico de gran tamaño con vLLM y Zilliz Cloud.
Tutorial: [Build and Perform RAG-Retrieval with Milvus and vLLM ](https://milvus.io/docs/milvus_rag_with_vllm.md
Y aquí hay algunos recursos más:
- Blog: Construir RAG con Milvus, vLLM y Llama 3.1
- Repositorio GitHub de vLLM ](https://github.com/vllm-project/vllm y página del modelo)
- 2023 vLLM paper on Paged Attention](https://arxiv.org/pdf/2309.06180)
- 2023 Presentación de vLLM en Ray Summit](https://www.youtube.com/watch?v=80bIUggRJf4)
- Blog de vLLM: vLLM: Servicio LLM fácil, rápido y barato con PagedAttention](https://blog.vllm.ai/2023/06/20/vllm.html)
- Blog útil sobre la ejecución del servidor vLLM: Despliegue de vLLM: guía paso a paso
- La manada de modelos Llama 3](https://ai.meta.com/research/publications/the-llama-3-herd-of-models/)| Investigación - AI en Meta