TrialHub, Zilliz Cloud로 임상시험 인텔리전스 강화

2억 5천만+
벡터
고성능
대규모 검색
비용 효율적인
프로덕션 환경에서의 서버리스 배포
유연한 인프라
미래 성장을 지원하기 위해
Milvus scaled really well with batches ranging from 1,000 to millions of records. That really impressed me.
Todor Voynikov
TrialHub 소개
TrialHub는 임상시험을 최적화하고 더 접근 가능하며 효율적으로 만들기 위해 전념하는 데이터 인텔리전스 플랫폼입니다. 이 플랫폼은 시험 의뢰자와 임상 연구 기관에 과거 임상시험, 국가별 의약품 급여 환경, 환자 치료 경로에 대한 강력한 인사이트를 제공하며, PubMed를 포함한 80,000개 이상의 소스에서 데이터를 가져옵니다. 주요 제공 기능 중 하나는 "IQ"로, 고객이 새로운 연구 설계와 운영 전략에 참고할 수 있도록 시험 및 환자에 대해 자연어 질문을 할 수 있게 해주는 Retrieval-Augmented Generation (RAG) 도구입니다.
과제: 확장 가능하고 신뢰할 수 있는 RAG 시스템 구축
TrialHub의 Data Engineer인 Todor Voynikov가 팀에 합류했을 때, 그는 처음부터 견고한 RAG 시스템을 구축하는 임무를 맡았습니다. RAG나 벡터 데이터베이스에 대한 사전 경험이 없었지만, 그는 빠르게 아키텍처 조사에 뛰어들었습니다. 그는 대규모 검색 작업을 처리할 수 있는 능력을 기준으로 Pinecone, Qdrant, Milvus 등 여러 벡터 데이터베이스를 평가했습니다.
중요도는 매우 높았습니다. TrialHub는 엄격한 신뢰성과 관련성 요구사항을 충족하면서 방대한 데이터셋—잠재적으로 최대 10억 개의 벡터—에서 인사이트를 처리하고 검색해야 했습니다. 텍스트는 복잡한 형식의 파싱된 PDF를 포함해 구조화 및 비구조화 소스에서 나왔습니다.
Zilliz Cloud로 향한 여정
Todor는 실제 데이터를 기반으로 자체 맞춤형 벤치마크를 실행하며 성능, 확장성, 검색 정확도 측면에서 여러 벡터 데이터베이스 솔루션을 평가하기 시작했습니다. 다른 플랫폼들도 특정 영역에서는 비슷했지만, Milvus는 대규모 검색 성능에서 두각을 나타냈습니다.
"Milvus는 1,000개부터 수백만 개의 레코드에 이르는 배치에서도 매우 잘 확장되었습니다. 그 점이 정말 인상적이었습니다."라고 Todor는 말했습니다. "특히 검색 작업에서 성능 차이가 상당했습니다."
내부 테스트로 결과를 확인하고 TrialHub의 나머지 팀과 공유한 후, Todor는 Milvus의 호스팅 버전인 Zilliz Cloud로 진행하기로 결정했습니다.
TrialHub가 Zilliz Cloud를 선택한 이유
확장 가능한 검색 성능: Zilliz Cloud는 벡터 규모가 수억 개로 확장되어도 일관되게 빠른 검색을 제공했습니다.
맞춤형 벤치마크 검증: Todor는 도입을 결정하기 전에 Vector DB 성능을 검증하기 위해 TrialHub의 의료 데이터를 활용한 맞춤형 벤치마킹 프로세스를 개발했습니다.
Serverless 프로덕션 준비 완료: 일반적으로 프로토타이핑에 사용되지만, Zilliz Cloud의 serverless 티어는 최소한의 문제로 TrialHub의 프로덕션 RAG 시스템을 구동하고 있습니다.
사용 편의성 및 안정성: Python 클라이언트와 API는 TrialHub의 LangChain 기반 스택과의 원활한 통합을 가능하게 했으며, Zilliz 팀의 지원은 안정성을 보장했습니다.
TrialHub가 Zilliz Cloud를 사용하는 방식
TrialHub의 RAG 시스템은 제약 회사들이 더 성공적인 임상시험을 설계하도록 지원합니다. LangChain 및 ChatGPT API와의 통합을 통해, 이 시스템은 사용자가 PubMed와 같은 큐레이션된 소스를 질의할 수 있게 합니다. 임베딩은 BERT에서 재학습된 도메인 특화 의료 모델을 사용해 생성되며, 임상 데이터에 최적화되어 있습니다. 이러한 임베딩은 빠르고 관련성 높은 검색을 가능하게 하기 위해 Zilliz Cloud에 저장되고 질의됩니다.
오늘날 TrialHub의 시스템은 2억 5천만 개 이상의 벡터를 관리합니다. 검색 성능은 성공에 매우 중요하며, 증가하는 데이터셋 전반에서 낮은 지연 시간의 응답을 유지하는 Milvus의 능력은 팀이 Zilliz Cloud에 계속 의존하는 주요 이유입니다.
향후 계획
팀이 새로운 데이터 소스를 추가하고 RAG 시스템을 더욱 확장함에 따라, TrialHub는 벡터 규모가 크게 증가할 것으로 예상합니다. 팀은 임베딩 중복 제거를 탐색하고 있으며, 이 과정을 단순화하는 Milvus 2.6의 향후 기능을 기대하고 있습니다. 또한 엔지니어링 팀은 시스템 요구가 증가함에 따라 더 많은 제어권을 확보하기 위해 전용 티어로의 마이그레이션을 고려하고 있습니다.
결론
TrialHub의 경험은 Zilliz Cloud와 같은 목적에 맞게 구축된 벡터 데이터베이스가 규제 산업에서 미션 크리티컬 AI 애플리케이션을 어떻게 지원할 수 있는지를 잘 보여줍니다. 벤치마크 기반 도입부터 서버리스 프로덕션 배포에 이르기까지, Zilliz Cloud는 TrialHub가 임상시험 최적화를 위한 더 스마트하고 빠르며 확장 가능한 솔루션을 제공할 수 있도록 지원해 왔습니다.


