TrialHub verbessert die klinische Studienintelligenz mit Zilliz Cloud

250 Mio.+
Vektoren
Hochleistung
Abruf in großem Maßstab
Kosteneffizient
Serverlose Bereitstellung in der Produktion
Flexible Infrastruktur
zur Unterstützung zukünftigen Wachstums
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
Über TrialHub
TrialHub ist eine Data-Intelligence-Plattform, die sich der Optimierung klinischer Studien und deren besserer Zugänglichkeit und Effizienz widmet. Die Plattform stattet Studiensponsoren und klinische Forschungsorganisationen mit leistungsstarken Einblicken in vergangene klinische Studien, länderspezifische Erstattungslandschaften für Medikamente und Patientenbehandlungspfade aus und bezieht dabei Daten aus über 80.000 Quellen, darunter PubMed. Eines der zentralen Angebote ist "IQ," ein Retrieval-Augmented-Generation-(RAG)-Tool, das es Kunden ermöglicht, Fragen in natürlicher Sprache zu Studien und Patienten zu stellen, um neue Studiendesigns und operative Strategien zu unterstützen.
Die Herausforderung: Aufbau eines skalierbaren und zuverlässigen RAG-Systems
Als Todor Voynikov, Data Engineer bei TrialHub, zum Team stieß, wurde er damit beauftragt, ein robustes RAG-System von Grund auf aufzubauen. Ohne vorherige Erfahrung mit RAG oder Vektordatenbanken stürzte er sich schnell in die Recherche der Architektur. Er evaluierte mehrere Vektordatenbanken, darunter Pinecone, Qdrant, Milvus und andere, hinsichtlich ihrer Fähigkeit, groß angelegte Retrieval-Aufgaben zu bewältigen.
Es stand viel auf dem Spiel: TrialHub musste Erkenntnisse aus riesigen Datensätzen verarbeiten und abrufen—potenziell bis zu einer Milliarde Vektoren—mit strengen Anforderungen an Zuverlässigkeit und Relevanz. Texte stammten aus strukturierten und unstrukturierten Quellen, darunter geparste PDFs mit komplexer Formatierung.
Der Weg zu Zilliz Cloud
Todor begann damit, eigene, maßgeschneiderte Benchmarks mit echten Daten durchzuführen und mehrere Vektordatenbanklösungen hinsichtlich Leistung, Skalierbarkeit und Retrieval-Genauigkeit zu bewerten. Während andere Plattformen in bestimmten Bereichen vergleichbar waren, stach Milvus durch seine Retrieval-Leistung im großen Maßstab hervor.
"Milvus skalierte wirklich gut mit Batches von 1.000 bis hin zu Millionen von Datensätzen. Das hat mich wirklich beeindruckt," sagte Todor. "Der Leistungsunterschied war erheblich, insbesondere bei Retrieval-Aufgaben."
Nachdem er die Ergebnisse mit internen Tests bestätigt und sie mit dem restlichen Team bei TrialHub geteilt hatte, entschied sich Todor, mit Zilliz Cloud, der gehosteten Version von Milvus, weiterzumachen.
Warum sich TrialHub für Zilliz Cloud entschieden hat
Skalierbare Retrieval-Leistung: Zilliz Cloud lieferte konstant schnelle Retrievals, selbst als die Vektorvolumina auf Hunderte von Millionen skalierten.
Validierung durch maßgeschneiderte Benchmarks: Todor entwickelte einen zugeschnittenen Benchmarking-Prozess mit den medizinischen Daten von TrialHub, um die Leistung der Vector DB vor der Festlegung zu validieren.
Serverless und produktionsbereit: Obwohl Zilliz Cloud typischerweise für Prototyping verwendet wird, betreibt die serverlose Stufe das produktive RAG-System von TrialHub mit minimalen Problemen.
Benutzerfreundlichkeit & Stabilität: Der Python-Client und die API ermöglichten eine reibungslose Integration mit dem LangChain-basierten Stack von TrialHub, während die Unterstützung durch das Zilliz-Team Stabilität sicherstellte.
Wie TrialHub Zilliz Cloud nutzt
Das RAG-System von TrialHub unterstützt Pharmaunternehmen dabei, erfolgreichere klinische Studien zu entwerfen. Durch die Integration mit LangChain und der ChatGPT API ermöglicht das System Nutzern, kuratierte Quellen wie PubMed abzufragen. Embeddings werden mit domänenspezifischen medizinischen Modellen erzeugt, die von BERT neu trainiert und für klinische Daten optimiert wurden. Diese Embeddings werden in Zilliz Cloud gespeichert und abgefragt, um schnelles, relevantes Retrieval zu ermöglichen.
Heute verwaltet das System von TrialHub über 250 Millionen Vektoren. Die Retrieval-Leistung ist entscheidend für den Erfolg, und die Fähigkeit von Milvus, Antwortzeiten mit niedriger Latenz über wachsende Datensätze hinweg aufrechtzuerhalten, ist ein wesentlicher Grund, warum das Team weiterhin auf Zilliz Cloud setzt.
Zukunftspläne
Während das Team neue Datenquellen hinzufügt und das RAG-System weiter skaliert, erwartet TrialHub einen erheblichen Anstieg der Vektorvolumina. Das Team untersucht die Deduplizierung von Embeddings und freut sich auf kommende Funktionen in Milvus 2.6, die diesen Prozess vereinfachen. Darüber hinaus erwägt das Engineering-Team die Migration auf eine dedizierte Stufe, um bei steigenden Systemanforderungen mehr Kontrolle zu erhalten.
Fazit
Die Erfahrung von TrialHub verdeutlicht, wie eine speziell entwickelte Vektordatenbank wie Zilliz Cloud geschäftskritische KI-Anwendungen in regulierten Branchen unterstützen kann. Von der benchmarkgestützten Einführung bis zur serverlosen Produktionsbereitstellung hat Zilliz Cloud TrialHub dabei geholfen, eine intelligentere, schnellere und besser skalierbare Lösung für die Optimierung klinischer Studien bereitzustellen.
Anwendungsfall
Branche
Professionelle Dienstleistungen
Verwendete Technologie


