vLLM
Zilliz Cloud and vLLM enable efficient RAG systems with vector search and LLM inference.
Используйте эту интеграцию бесплатноО vLLM
vLLM - библиотека с открытым исходным кодом для вывода и обслуживания больших языковых моделей (LLM), разработанная в UC Berkeley SkyLab. Она ориентирована на оптимизацию производительности обслуживания LLM за счет эффективного управления памятью, непрерывного пакетирования и оптимизированных ядер CUDA. Технология vLLM PagedAttention повышает производительность обслуживания до 24 раз при сокращении использования памяти GPU в два раза по сравнению с традиционными методами.
Почему Zilliz Cloud и vLLM
Объединение Zilliz Cloud и vLLM создает мощное решение для построения высокопроизводительных систем Retrieval Augmented Generation (RAG). Zilliz Cloud, основанная на векторной базе данных Milvus, обеспечивает эффективное хранение и поиск векторов, необходимых для RAG-приложений. vLLM дополняет это решение, предлагая оптимизированный вывод и обслуживание LLM.
Эта интеграция позволяет разработчикам создавать RAG-системы, которые могут эффективно извлекать релевантную информацию из больших наборов данных, хранящихся в Zilliz Cloud, и генерировать высококачественные ответы с помощью оптимизированного обслуживания LLM в vLLM. Эта комбинация решает общие проблемы приложений ИИ, такие как [AI hallucinations] (https://zilliz.com/glossary/ai-hallucination), путем обоснования ответов LLM на точной, полученной информации.
Как работает Zilliz Cloud и vLLM
Интеграция Zilliz Cloud и vLLM работает за счет использования сильных сторон обеих технологий в системе RAG. Сначала текстовые данные встраиваются и хранятся в виде векторных вкраплений в Zilliz Cloud. Когда поступает запрос от пользователя, Zilliz Cloud выполняет эффективный поиск по векторному подобию, чтобы извлечь наиболее релевантные фрагменты текста из своей базы знаний.
Эти извлеченные фрагменты текста затем передаются в vLLM, который использует их для дополнения контекста для LLM (например, Meta's Llama 3.1). Оптимизированная технология обслуживания vLLM, включая PagedAttention для эффективного управления памятью, обеспечивает быстрое и ресурсосберегающее умозаключение LLM. Затем LLM генерирует ответ, основываясь как на запросе пользователя, так и на извлеченном контексте, что позволяет получить более точные и контекстуально релевантные ответы.
Узнать
Лучше всего начать с практического руководства. В этом уроке мы расскажем вам о том, как создать большое приложение языковой модели с помощью vLLM и Zilliz Cloud.
Учебное пособие: Создание и выполнение RAG-поиска с помощью Milvus и vLLM
А вот еще несколько ресурсов:
- Блог: Building RAG with Milvus, vLLM, and Llama 3.1
- [vLLM GitHub Repository ](https://github.com/vllm-project/vllm и страница модели)
- 2023 vLLM paper on Paged Attention
- 2023 vLLM presentation at Ray Summit
- блог vLLM: vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
- Полезный блог о запуске сервера vLLM: Deploying vLLM: a Step-by-Step Guide
- The Llama 3 Herd of Models | Research - AI at Meta