TrialHub aprimora a inteligência em ensaios clínicos com Zilliz Cloud

250 mi+
Vetores
Alto desempenho
Recuperação em escala
Custo-eficiente
Implantação Serverless em Produção
Infraestrutura flexível
para Apoiar o Crescimento Futuro
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
Sobre a TrialHub
A TrialHub é uma plataforma de inteligência de dados dedicada a otimizar ensaios clínicos e torná-los mais acessíveis e eficientes. A plataforma fornece a patrocinadores de ensaios e organizações de pesquisa clínica insights poderosos sobre ensaios clínicos anteriores, cenários de reembolso de medicamentos específicos por país e jornadas de tratamento de pacientes, extraindo dados de mais de 80.000 fontes, incluindo o PubMed. Uma de suas principais ofertas é o "IQ," uma ferramenta de Geração Aumentada por Recuperação (RAG) que permite aos clientes fazer perguntas em linguagem natural sobre ensaios e pacientes para orientar novos desenhos de estudos e estratégias operacionais.
O Desafio: Construir um Sistema RAG Escalável e Confiável
Quando Todor Voynikov, Engenheiro de Dados na TrialHub, entrou para a equipe, recebeu a tarefa de construir um sistema RAG robusto do zero. Sem experiência prévia em RAG ou bancos de dados vetoriais, ele rapidamente mergulhou na pesquisa da arquitetura. Ele avaliou vários bancos de dados vetoriais, incluindo Pinecone, Qdrant, Milvus e outros, quanto à sua capacidade de lidar com tarefas de recuperação em larga escala.
Os riscos eram altos: a TrialHub precisava processar e recuperar insights de conjuntos de dados massivos—potencialmente até um bilhão de vetores—com requisitos rigorosos de confiabilidade e relevância. O texto vinha de fontes estruturadas e não estruturadas, incluindo PDFs analisados com formatação complexa.
A Jornada até a Zilliz Cloud
Todor começou executando seus próprios benchmarks personalizados em dados reais, avaliando várias soluções de bancos de dados vetoriais quanto a desempenho, escalabilidade e precisão de recuperação. Embora outras plataformas fossem comparáveis em certas áreas, o Milvus se destacou pelo desempenho de recuperação em escala.
"O Milvus escalou muito bem com lotes variando de 1.000 a milhões de registros. Isso realmente me impressionou," disse Todor. "A diferença de desempenho foi significativa, especialmente em tarefas de recuperação."
Depois de confirmar os resultados com testes internos e compartilhá-los com o restante da equipe da TrialHub, Todor decidiu seguir em frente com a Zilliz Cloud, a versão hospedada do Milvus.
Por que a TrialHub Escolheu a Zilliz Cloud
Desempenho de Recuperação Escalável: A Zilliz Cloud entregou recuperações consistentemente rápidas mesmo quando os volumes de vetores escalaram para centenas de milhões.
Validação com Benchmark Personalizado: Todor desenvolveu um processo de benchmarking sob medida com os dados médicos da TrialHub para validar o desempenho do Vector DB antes de se comprometer.
Serverless Pronto para Produção: Apesar de ser normalmente usado para prototipagem, o nível serverless da Zilliz Cloud está impulsionando o sistema RAG de produção da TrialHub com problemas mínimos.
Facilidade de Uso e Estabilidade: O cliente Python e a API possibilitaram uma integração tranquila com a stack da TrialHub baseada em LangChain, enquanto o suporte da equipe da Zilliz garantiu estabilidade.
Como a TrialHub Usa a Zilliz Cloud
O sistema RAG da TrialHub apoia empresas farmacêuticas no desenho de ensaios clínicos mais bem-sucedidos. Por meio da integração com LangChain e a API do ChatGPT, o sistema permite que os usuários consultem fontes selecionadas como o PubMed. Os embeddings são gerados usando modelos médicos específicos do domínio retreinados a partir do BERT, otimizados para dados clínicos. Esses embeddings são armazenados e consultados na Zilliz Cloud para permitir uma recuperação rápida e relevante.
Hoje, o sistema da TrialHub gerencia mais de 250 milhões de vetores. O desempenho de recuperação é crítico para o sucesso, e a capacidade do Milvus de manter respostas de baixa latência em conjuntos de dados crescentes é uma das principais razões pelas quais a equipe continua a confiar na Zilliz Cloud.
Planos Futuros
À medida que a equipe adiciona novas fontes de dados e escala ainda mais o sistema RAG, a TrialHub espera que os volumes de vetores aumentem substancialmente. A equipe está explorando a deduplicação de embeddings e aguarda com expectativa os próximos recursos no Milvus 2.6 que simplificam esse processo. Além disso, a equipe de engenharia está considerando migrar para um nível dedicado para obter mais controle conforme as demandas do sistema crescem.
Conclusão
A experiência da TrialHub destaca como um banco de dados vetorial desenvolvido especificamente, como o Zilliz Cloud, pode dar suporte a aplicações de IA de missão crítica em setores regulamentados. Da adoção orientada por benchmarks à implantação serverless em produção, o Zilliz Cloud ajudou a TrialHub a entregar uma solução mais inteligente, rápida e escalável para a otimização de ensaios clínicos.


