TrialHub améliore l’intelligence des essais cliniques avec Zilliz Cloud

250 M+
Vecteurs
Haute performance
Récupération à grande échelle
Économique
Déploiement sans serveur en production
Infrastructure flexible
pour soutenir la croissance future
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
À propos de TrialHub
TrialHub est une plateforme d’intelligence des données dédiée à l’optimisation des essais cliniques et à les rendre plus accessibles et plus efficaces. La plateforme fournit aux promoteurs d’essais et aux organisations de recherche clinique des insights puissants sur les essais cliniques passés, les paysages de remboursement des médicaments propres à chaque pays et les parcours de traitement des patients, en tirant des données de plus de 80 000 sources, dont PubMed. L’une de ses offres clés est "IQ," un outil de génération augmentée par récupération (RAG) qui permet aux clients de poser des questions en langage naturel sur les essais et les patients afin d’éclairer la conception de nouvelles études et les stratégies opérationnelles.
Le défi : créer un système RAG évolutif et fiable
Lorsque Todor Voynikov, Data Engineer chez TrialHub, a rejoint l’équipe, il a été chargé de créer de zéro un système RAG robuste. Sans expérience préalable en RAG ni en bases de données vectorielles, il s’est rapidement plongé dans la recherche sur l’architecture. Il a évalué plusieurs bases de données vectorielles, notamment Pinecone, Qdrant, Milvus et d’autres, pour leur capacité à gérer des tâches de récupération à grande échelle.
Les enjeux étaient élevés : TrialHub devait traiter et récupérer des insights à partir d’ensembles de données massifs — potentiellement jusqu’à un milliard de vecteurs — avec des exigences strictes en matière de fiabilité et de pertinence. Le texte provenait de sources structurées et non structurées, notamment de PDF analysés avec une mise en forme complexe.
Le parcours vers Zilliz Cloud
Todor a commencé par exécuter ses propres benchmarks personnalisés sur des données réelles, en évaluant plusieurs solutions de bases de données vectorielles en matière de performance, d’évolutivité et de précision de récupération. Bien que d’autres plateformes aient été comparables dans certains domaines, Milvus s’est distingué par ses performances de récupération à grande échelle.
"Milvus s’est très bien adapté avec des lots allant de 1 000 à des millions d’enregistrements. Cela m’a vraiment impressionné," a déclaré Todor. "La différence de performance était significative, en particulier dans les tâches de récupération."
Après avoir confirmé les résultats au moyen de tests internes et les avoir partagés avec le reste de l’équipe chez TrialHub, Todor a décidé d’aller de l’avant avec Zilliz Cloud, la version hébergée de Milvus.
Pourquoi TrialHub a choisi Zilliz Cloud
Performance de récupération évolutive : Zilliz Cloud a fourni des récupérations constamment rapides, même lorsque les volumes de vecteurs ont atteint des centaines de millions.
Validation par benchmark personnalisé : Todor a développé un processus de benchmark sur mesure avec les données médicales de TrialHub afin de valider les performances de Vector DB avant de s’engager.
Serverless prêt pour la production : Bien qu’il soit généralement utilisé pour le prototypage, le niveau serverless de Zilliz Cloud alimente le système RAG de production de TrialHub avec un minimum de problèmes.
Facilité d’utilisation et stabilité : Le client Python et l’API ont permis une intégration fluide avec la stack de TrialHub basée sur LangChain, tandis que le support de l’équipe Zilliz a assuré la stabilité.
Comment TrialHub utilise Zilliz Cloud
Le système RAG de TrialHub aide les entreprises pharmaceutiques à concevoir des essais cliniques plus réussis. Grâce à l’intégration avec LangChain et l’API ChatGPT, le système permet aux utilisateurs d’interroger des sources sélectionnées comme PubMed. Les embeddings sont générés à l’aide de modèles médicaux propres au domaine réentraînés à partir de BERT, optimisés pour les données cliniques. Ces embeddings sont stockés et interrogés dans Zilliz Cloud afin de permettre une récupération rapide et pertinente.
Aujourd’hui, le système de TrialHub gère plus de 250 millions de vecteurs. La performance de récupération est essentielle au succès, et la capacité de Milvus à maintenir des réponses à faible latence sur des ensembles de données croissants est l’une des principales raisons pour lesquelles l’équipe continue de s’appuyer sur Zilliz Cloud.
Projets futurs
À mesure que l’équipe ajoute de nouvelles sources de données et fait davantage évoluer le système RAG, TrialHub s’attend à ce que les volumes de vecteurs augmentent considérablement. L’équipe explore la déduplication des embeddings et attend avec intérêt les fonctionnalités à venir dans Milvus 2.6 qui simplifient ce processus. De plus, l’équipe d’ingénierie envisage de migrer vers un niveau dédié pour bénéficier de plus de contrôle à mesure que les exigences du système augmentent.
Conclusion
L’expérience de TrialHub souligne comment une base de données vectorielle spécialement conçue comme Zilliz Cloud peut prendre en charge des applications d’IA critiques dans des secteurs réglementés. De l’adoption guidée par les benchmarks au déploiement en production serverless, Zilliz Cloud a aidé TrialHub à proposer une solution plus intelligente, plus rapide et plus évolutive pour l’optimisation des essais cliniques.
Cas d'usage
Secteur d'activité
Services professionnels
Technologie utilisée


