TrialHub migliora l’intelligence sulle sperimentazioni cliniche con Zilliz Cloud

Oltre 250 milioni
Vettori
Alte prestazioni
Recupero su larga scala
Conveniente
Distribuzione serverless in produzione
Infrastruttura flessibile
per sostenere la crescita futura
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
Informazioni su TrialHub
TrialHub è una piattaforma di data intelligence dedicata all'ottimizzazione degli studi clinici e a renderli più accessibili ed efficienti. La piattaforma fornisce agli sponsor degli studi e alle organizzazioni di ricerca clinica potenti insight sugli studi clinici passati, sui panorami di rimborso dei farmaci specifici per Paese e sui percorsi terapeutici dei pazienti, raccogliendo dati da oltre 80.000 fonti, incluso PubMed. Una delle sue offerte principali è "IQ," uno strumento di Retrieval-Augmented Generation (RAG) che consente ai clienti di porre domande in linguaggio naturale su studi e pazienti per orientare la progettazione di nuovi studi e le strategie operative.
La sfida: costruire un sistema RAG scalabile e affidabile
Quando Todor Voynikov, Data Engineer presso TrialHub, si è unito al team, gli è stato affidato il compito di costruire da zero un solido sistema RAG. Senza esperienza precedente in RAG o database vettoriali, si è rapidamente immerso nella ricerca sull'architettura. Ha valutato diversi database vettoriali, tra cui Pinecone, Qdrant, Milvus e altri, per la loro capacità di gestire attività di retrieval su larga scala.
La posta in gioco era alta: TrialHub doveva elaborare e recuperare insight da enormi set di dati—potenzialmente fino a un miliardo di vettori—con rigorosi requisiti di affidabilità e pertinenza. Il testo proveniva da fonti strutturate e non strutturate, inclusi PDF analizzati con formattazione complessa.
Il percorso verso Zilliz Cloud
Todor ha iniziato eseguendo benchmark personalizzati su dati reali, valutando diverse soluzioni di database vettoriali in termini di prestazioni, scalabilità e accuratezza del retrieval. Sebbene altre piattaforme fossero comparabili in alcune aree, Milvus si è distinto per le prestazioni di retrieval su larga scala.
"Milvus si è scalato davvero bene con batch da 1.000 a milioni di record. Questo mi ha davvero colpito," ha detto Todor. "La differenza di prestazioni era significativa, soprattutto nelle attività di retrieval."
Dopo aver confermato i risultati con test interni e averli condivisi con il resto del team di TrialHub, Todor ha deciso di procedere con Zilliz Cloud, la versione hosted di Milvus.
Perché TrialHub ha scelto Zilliz Cloud
Prestazioni di retrieval scalabili: Zilliz Cloud ha fornito retrieval costantemente rapidi anche quando i volumi di vettori sono cresciuti fino a centinaia di milioni.
Validazione con benchmark personalizzati: Todor ha sviluppato un processo di benchmarking su misura con i dati medici di TrialHub per validare le prestazioni del Vector DB prima dell'adozione.
Serverless pronto per la produzione: Nonostante sia tipicamente utilizzato per la prototipazione, il tier serverless di Zilliz Cloud alimenta il sistema RAG di produzione di TrialHub con problemi minimi.
Facilità d'uso e stabilità: Il client Python e l'API hanno consentito un'integrazione fluida con lo stack basato su LangChain di TrialHub, mentre il supporto del team Zilliz ha garantito stabilità.
Come TrialHub utilizza Zilliz Cloud
Il sistema RAG di TrialHub supporta le aziende farmaceutiche nella progettazione di studi clinici di maggiore successo. Attraverso l'integrazione con LangChain e l'API ChatGPT, il sistema consente agli utenti di interrogare fonti curate come PubMed. Gli embedding vengono generati utilizzando modelli medici specifici per dominio riaddestrati da BERT, ottimizzati per i dati clinici. Questi embedding vengono archiviati e interrogati in Zilliz Cloud per consentire un retrieval rapido e pertinente.
Oggi, il sistema di TrialHub gestisce oltre 250 milioni di vettori. Le prestazioni di retrieval sono fondamentali per il successo, e la capacità di Milvus di mantenere risposte a bassa latenza su set di dati in crescita è una delle principali ragioni per cui il team continua ad affidarsi a Zilliz Cloud.
Piani futuri
Man mano che il team aggiunge nuove fonti di dati e scala ulteriormente il sistema RAG, TrialHub prevede che i volumi di vettori aumenteranno sostanzialmente. Il team sta esplorando la deduplicazione degli embedding e attende con interesse le prossime funzionalità di Milvus 2.6 che semplificheranno questo processo. Inoltre, il team di ingegneria sta valutando la migrazione a un tier dedicato per avere maggiore controllo man mano che le esigenze del sistema crescono.
Conclusione
L'esperienza di TrialHub sottolinea come un database vettoriale appositamente progettato come Zilliz Cloud possa supportare applicazioni AI mission-critical in settori regolamentati. Dall'adozione guidata da benchmark al deployment in produzione serverless, Zilliz Cloud ha aiutato TrialHub a offrire una soluzione più intelligente, più rapida e più scalabile per l'ottimizzazione degli studi clinici.


