TrialHub расширяет возможности аналитики клинических исследований с помощью Zilliz Cloud

250 млн+
Векторы
Высокая производительность
Поиск в масштабе
Экономичный
Бессерверное развертывание в продакшене
Гибкая инфраструктура
для поддержки будущего роста
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
О TrialHub
TrialHub — это платформа аналитики данных, предназначенная для оптимизации клинических исследований и повышения их доступности и эффективности. Платформа предоставляет спонсорам исследований и контрактным исследовательским организациям мощные аналитические сведения о прошлых клинических исследованиях, страновых ландшафтах возмещения стоимости лекарственных препаратов и маршрутах лечения пациентов, извлекая данные из более чем 80 000 источников, включая PubMed. Одно из ее ключевых предложений — "IQ", инструмент Retrieval-Augmented Generation (RAG), который позволяет клиентам задавать вопросы на естественном языке об исследованиях и пациентах, чтобы информировать разработку новых исследований и операционные стратегии.
Задача: создание масштабируемой и надежной RAG-системы
Когда Тодор Войников, Data Engineer в TrialHub, присоединился к команде, ему было поручено создать надежную RAG-систему с нуля. Не имея предыдущего опыта работы с RAG или векторными базами данных, он быстро погрузился в изучение архитектуры. Он оценил несколько векторных баз данных, включая Pinecone, Qdrant, Milvus и другие, на предмет их способности справляться с крупномасштабными задачами поиска.
Ставки были высоки: TrialHub необходимо было обрабатывать и извлекать аналитические сведения из огромных наборов данных — потенциально до миллиарда векторов — при строгих требованиях к надежности и релевантности. Текст поступал из структурированных и неструктурированных источников, включая разобранные PDF-файлы со сложным форматированием.
Путь к Zilliz Cloud
Тодор начал с запуска собственных пользовательских бенчмарков на реальных данных, оценивая несколько решений векторных баз данных по производительности, масштабируемости и точности поиска. Хотя другие платформы были сопоставимы в отдельных областях, Milvus выделялся производительностью поиска в масштабе.
"Milvus действительно хорошо масштабировался с пакетами от 1 000 до миллионов записей. Это меня действительно впечатлило", — сказал Тодор. "Разница в производительности была значительной, особенно в задачах поиска."
После подтверждения результатов внутренними тестами и их представления остальной команде TrialHub Тодор решил двигаться дальше с Zilliz Cloud, хостинговой версией Milvus.
Почему TrialHub выбрала Zilliz Cloud
Масштабируемая производительность поиска: Zilliz Cloud обеспечивала стабильно быстрый поиск даже при росте объемов векторов до сотен миллионов.
Валидация пользовательскими бенчмарками: Тодор разработал индивидуальный процесс бенчмаркинга с медицинскими данными TrialHub, чтобы проверить производительность Vector DB перед принятием решения.
Serverless, готовый к продакшену: Несмотря на то что обычно Zilliz Cloud используется для прототипирования, ее serverless-уровень обеспечивает работу продакшен-RAG-системы TrialHub с минимальными проблемами.
Простота использования и стабильность: Python-клиент и API обеспечили плавную интеграцию со стеком TrialHub на основе LangChain, а поддержка команды Zilliz гарантировала стабильность.
Как TrialHub использует Zilliz Cloud
RAG-система TrialHub помогает фармацевтическим компаниям разрабатывать более успешные клинические исследования. Благодаря интеграции с LangChain и ChatGPT API система позволяет пользователям выполнять запросы к курируемым источникам, таким как PubMed. Эмбеддинги генерируются с использованием доменно-специфичных медицинских моделей, переобученных на основе BERT и оптимизированных для клинических данных. Эти эмбеддинги хранятся и запрашиваются в Zilliz Cloud, обеспечивая быстрый и релевантный поиск.
Сегодня система TrialHub управляет более чем 250 миллионами векторов. Производительность поиска критически важна для успеха, и способность Milvus поддерживать ответы с низкой задержкой на растущих наборах данных — одна из основных причин, по которым команда продолжает полагаться на Zilliz Cloud.
Планы на будущее
По мере того как команда добавляет новые источники данных и далее масштабирует RAG-систему, TrialHub ожидает существенного увеличения объемов векторов. Команда изучает дедупликацию эмбеддингов и с нетерпением ждет будущих функций в Milvus 2.6, которые упростят этот процесс. Кроме того, инженерная команда рассматривает возможность миграции на выделенный уровень для большего контроля по мере роста требований к системе.
Заключение
Опыт TrialHub подчеркивает, как специализированная векторная база данных, такая как Zilliz Cloud, может поддерживать критически важные AI-приложения в регулируемых отраслях. От внедрения на основе бенчмарков до бессерверного развертывания в production — Zilliz Cloud помогла TrialHub предоставить более умное, быстрое и масштабируемое решение для оптимизации клинических исследований.
Пример использования
Отрасль
Профессиональные услуги
Используемая технология


