vLLM
Zilliz Cloud and vLLM enable efficient RAG systems with vector search and LLM inference.
Utilize esta integração gratuitamenteSobre a vLLM
A vLLM é uma biblioteca de código aberto para inferência e serviço de modelos de linguagem grandes (LLM), desenvolvida no SkyLab da UC Berkeley. Ela se concentra na otimização do desempenho do serviço de LLM por meio de gerenciamento eficiente de memória, lotes contínuos e kernels CUDA otimizados. A tecnologia PagedAttention da vLLM melhora o desempenho do serviço em até 24x, reduzindo o uso de memória GPU pela metade em comparação com os métodos tradicionais.
Porquê o Zilliz Cloud e o vLLM
A combinação do Zilliz Cloud e do vLLM cria uma solução poderosa para a construção de sistemas de alto desempenho Retrieval Augmented Generation (RAG). O Zilliz Cloud, baseado na base de dados vetorial Milvus, fornece capacidades eficientes de armazenamento e recuperação de vectores, essenciais para as aplicações RAG. O vLLM complementa-o oferecendo inferência e serviço LLM optimizados.
Essa integração permite que os desenvolvedores criem sistemas RAG que podem recuperar com eficiência informações relevantes de grandes conjuntos de dados armazenados no Zilliz Cloud e gerar respostas de alta qualidade usando o serviço LLM otimizado do vLLM. A combinação aborda desafios comuns em aplicações de IA, tais como [AI hallucinations] (https://zilliz.com/glossary/ai-hallucination), baseando as respostas LLM em informações precisas e recuperadas.
Como funciona o Zilliz Cloud e o vLLM
A integração do [Zilliz Cloud] (https://zilliz.com/cloud) e do vLLM funciona tirando partido dos pontos fortes de ambas as tecnologias num sistema RAG. Em primeiro lugar, os dados de texto são incorporados e armazenados como vectores de incorporação no Zilliz Cloud. Quando é recebida uma consulta do utilizador, o Zilliz Cloud efectua uma pesquisa eficiente de semelhanças vectoriais para recuperar os pedaços de texto mais relevantes da sua base de conhecimentos.
Esses trechos de texto recuperados são então passados para o vLLM, que os usa para aumentar o contexto do LLM (como o Llama 3.1 da Meta). A tecnologia de serviço otimizada do vLLM, incluindo o PagedAttention para gerenciamento eficiente de memória, permite uma inferência LLM rápida e eficiente em termos de recursos. O LLM gera então uma resposta baseada tanto na consulta do utilizador como no contexto recuperado, resultando em respostas mais precisas e contextualmente relevantes.
Aprender
A melhor maneira de começar é com um tutorial prático. Este tutorial irá guiá-lo através de como construir uma grande aplicação de modelo de linguagem com vLLM & Zilliz Cloud.
Tutorial: [Construir e executar recuperação RAG com Milvus e vLLM ](https://milvus.io/docs/milvus_rag_with_vllm.md
E aqui estão mais alguns recursos:
- Blogue: Construindo RAG com Milvus, vLLM e Llama 3.1
- [Repositório GitHub do vLLM ](https://github.com/vllm-project/vllm e página do modelo)
- Artigo do vLLM de 2023 sobre Atenção em página](https://arxiv.org/pdf/2309.06180)
- Apresentação do vLLM de 2023 na Ray Summit
- Blogue vLLM: vLLM: Serviço LLM fácil, rápido e barato com PagedAttention
- Blog útil sobre como executar o servidor vLLM: Implantando o vLLM: um Guia Passo-a-Passo
- O rebanho de modelos do Llama 3| Pesquisa - IA no Meta