TrialHub mejora la inteligencia de ensayos clínicos con Zilliz Cloud

250M+
Vectores
Alto rendimiento
Recuperación a escala
Eficiente en costos
Implementación sin servidor en producción
Infraestructura flexible
para apoyar el crecimiento futuro
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
Acerca de TrialHub
TrialHub es una plataforma de inteligencia de datos dedicada a optimizar los ensayos clínicos y hacerlos más accesibles y eficientes. La plataforma proporciona a los patrocinadores de ensayos y a las organizaciones de investigación clínica potentes perspectivas sobre ensayos clínicos anteriores, panoramas de reembolso de medicamentos específicos por país y vías de tratamiento de pacientes, extrayendo datos de más de 80.000 fuentes, incluido PubMed. Una de sus ofertas clave es "IQ," una herramienta de generación aumentada por recuperación (RAG) que permite a los clientes hacer preguntas en lenguaje natural sobre ensayos y pacientes para fundamentar nuevos diseños de estudios y estrategias operativas.
El desafío: crear un sistema RAG escalable y fiable
Cuando Todor Voynikov, Data Engineer en TrialHub, se incorporó al equipo, se le encomendó la tarea de crear un sistema RAG robusto desde cero. Sin experiencia previa en RAG ni en bases de datos vectoriales, se sumergió rápidamente en la investigación de la arquitectura. Evaluó múltiples bases de datos vectoriales, incluidas Pinecone, Qdrant, Milvus y otras, por su capacidad para manejar tareas de recuperación a gran escala.
Había mucho en juego: TrialHub necesitaba procesar y recuperar perspectivas de conjuntos de datos masivos —potencialmente de hasta mil millones de vectores— con estrictos requisitos de fiabilidad y relevancia. El texto provenía de fuentes estructuradas y no estructuradas, incluidos PDF analizados con formatos complejos.
El recorrido hacia Zilliz Cloud
Todor comenzó ejecutando sus propios benchmarks personalizados con datos reales, evaluando múltiples soluciones de bases de datos vectoriales en cuanto a rendimiento, escalabilidad y precisión de recuperación. Aunque otras plataformas eran comparables en ciertas áreas, Milvus destacó por su rendimiento de recuperación a escala.
"Milvus escaló realmente bien con lotes que iban desde 1.000 hasta millones de registros. Eso me impresionó mucho," dijo Todor. "La diferencia de rendimiento fue significativa, especialmente en las tareas de recuperación."
Tras confirmar los resultados con pruebas internas y compartirlos con el resto del equipo de TrialHub, Todor decidió seguir adelante con Zilliz Cloud, la versión alojada de Milvus.
Por qué TrialHub eligió Zilliz Cloud
Rendimiento de recuperación escalable: Zilliz Cloud ofreció recuperaciones consistentemente rápidas incluso cuando los volúmenes de vectores escalaron hasta cientos de millones.
Validación con benchmarks personalizados: Todor desarrolló un proceso de benchmarking a medida con los datos médicos de TrialHub para validar el rendimiento de la base de datos vectorial antes de comprometerse.
Serverless listo para producción: A pesar de utilizarse normalmente para prototipos, el nivel serverless de Zilliz Cloud impulsa el sistema RAG de producción de TrialHub con problemas mínimos.
Facilidad de uso y estabilidad: El cliente Python y la API permitieron una integración fluida con el stack basado en LangChain de TrialHub, mientras que el soporte del equipo de Zilliz garantizó la estabilidad.
Cómo usa TrialHub Zilliz Cloud
El sistema RAG de TrialHub ayuda a las empresas farmacéuticas a diseñar ensayos clínicos más exitosos. Mediante la integración con LangChain y la API de ChatGPT, el sistema permite a los usuarios consultar fuentes seleccionadas como PubMed. Los embeddings se generan usando modelos médicos específicos del dominio reentrenados a partir de BERT, optimizados para datos clínicos. Estos embeddings se almacenan y consultan en Zilliz Cloud para permitir una recuperación rápida y relevante.
Hoy, el sistema de TrialHub gestiona más de 250 millones de vectores. El rendimiento de recuperación es fundamental para el éxito, y la capacidad de Milvus para mantener respuestas de baja latencia en conjuntos de datos crecientes es una razón importante por la que el equipo sigue confiando en Zilliz Cloud.
Planes futuros
A medida que el equipo agrega nuevas fuentes de datos y escala aún más el sistema RAG, TrialHub espera que los volúmenes de vectores aumenten sustancialmente. El equipo está explorando la deduplicación de embeddings y espera con interés las próximas funciones de Milvus 2.6 que simplifican este proceso. Además, el equipo de ingeniería está considerando migrar a un nivel dedicado para obtener más control a medida que crezcan las demandas del sistema.
Conclusión
La experiencia de TrialHub subraya cómo una base de datos vectorial diseñada específicamente como Zilliz Cloud puede respaldar aplicaciones de IA de misión crítica en industrias reguladas. Desde la adopción impulsada por benchmarks hasta la implementación en producción sin servidores, Zilliz Cloud ha ayudado a TrialHub a ofrecer una solución más inteligente, rápida y escalable para la optimización de ensayos clínicos.


