Biomap이 Milvus를 사용한 AI 기반 벡터 검색으로 대규모 생명과학 발견을 혁신하는 방법

22× 더 빠름
단백질 검색의 쿼리 시간이 10~20분에서 1분 미만으로 단축되었습니다.
500억+
Sequence Scale은 수억 개에서 수백억 개의 생물학적 서열로 확장되었습니다.
실시간 발견
RAG 워크플로에서 복잡한 생물학적 쿼리에 대한 1초 미만의 응답.
크로스 모달 통합
단백질, DNA, RNA, 텍스트 및 세포 데이터를 단일 검색 가능 프레임워크로 통합했습니다.
Milvus has become the bridge that connects our multi-modal foundation models with real-world applications. It's not just about performance – it's about enabling entirely new approaches to biological discovery that were previously impossible.
Xiaoming Zhang
Biomap 소개
Biomap은 신약 개발, 합성생물학, 의학 연구에서 발견을 가속화하는 AI 모델 구축에 주력하는 선도적인 생명과학 AI 기업입니다. 플랫폼의 핵심에는 생물학을 위해 특별히 설계된 대규모 파운데이션 모델 제품군인 xTrimo가 있습니다. 최대 2,100억 개의 파라미터로 확장되는 xTrimo는 단백질, DNA, RNA, 세포, 분자, 과학 텍스트를 단일 프레임워크로 통합하여 기존 방법으로는 따라올 수 없는 예측과 인사이트를 제공합니다.
이러한 역량을 달성하려면 노이즈가 많은 생물학 데이터, 매우 다양한 형식, 수십억 개의 시퀀스를 실시간으로 검색해야 하는 필요성 등 기술적 장벽을 극복해야 했습니다. Biomap은 생물학적 개체를 위한 맞춤형 임베딩 모델을 개발하고 Milvus Vector Database와 같은 고급 데이터 인프라를 배포하여 대규모에서도 빠르고 정확한 검색을 가능하게 함으로써 이러한 과제를 해결했습니다. 이러한 기반을 통해 연구자들은 이제 면역학, 신경학, 종양학, 희귀질환 치료를 포함한 다양한 분야에서 혁신을 가속화할 수 있습니다.
생물학 AI 확장을 가로막는 기술적 장벽
Biomap이 AI 역량을 확장하면서, 팀은 기존 도구로는 극복할 수 없는 여러 병목에 직면했습니다.
1. 느린 단백질 검색
Biomap의 단백질 구조 예측 파이프라인은 이전에 Multiple Sequence Alignment (MSA)에 의존했으며, 단일 결과를 반환하는 데 10~20분이 필요했습니다. 소규모 연구에는 허용 가능한 수준이었지만, 수억 개, 심지어 수십억 개의 시퀀스로 확장할 때 특히 프로덕션 워크로드에는 이러한 지연이 실용적이지 않았습니다.
2. 멀티모달 데이터 복잡성
생물학 데이터는 본질적으로 단백질, DNA, RNA, 세포 이미징, 심지어 텍스트 등 다양한 형태로 존재합니다. 기존 검색 방법은 이러한 모달리티를 효과적으로 연결하지 못했고, 그 결과 복잡한 생물학적 시스템을 이해하는 데 중요한 교차 모달 인사이트를 놓쳤습니다.
3. 속도와 정확도의 딜레마
생의학 연구에서는 작은 오류도 큰 결과를 초래할 수 있습니다. Biomap의 RAG 기반 발견 어시스턴트에는 상호작용성을 위한 1초 미만의 쿼리 응답과 과학적 신뢰성을 위한 연구 등급의 정확성이 모두 필요했습니다. 그러나 대부분의 솔루션은 속도와 정밀도 사이의 절충을 강요했습니다.
4. 특수한 데이터 요구 사항
생물학 데이터는 맞춤형 인덱싱 전략, 도메인 특화 임베딩 모델, 과학 워크로드에 맞게 조정된 최적화가 필요한 고유한 특성을 가지고 있으며, 이는 기성 솔루션으로는 제공할 수 없는 역량이었습니다.
5. 다양한 성능 요구
Biomap의 다양한 사용 사례는 매우 다른 요구 사항을 가지고 있었습니다. 대화형 어시스턴트에는 즉각적인 답변이 필요했고, 단백질 예측은 쿼리당 몇 분을 허용할 수 있었지만 효율적인 배치 처리가 필요했으며, 파운데이션 모델 학습에는 고처리량 데이터 파이프라인이 요구되었습니다. 이러한 다양한 요구 사항을 단일 통합 인프라 내에서 관리하는 것은 특히 어려운 과제였습니다.
Biomap이 대규모 생물학 AI 구동을 위해 Milvus를 선택한 이유
Biomap은 AI 워크로드를 확장하려면 목적에 맞게 구축된 벡터 검색 플랫폼이 필요하다는 점을 빠르게 깨달았습니다. 팀은 먼저 소규모 개념 증명을 위해 인기 있는 벡터 검색 라이브러리인 Faiss를 사용했습니다. Faiss는 초기 실험에서는 잘 작동했지만, 프로덕션 워크로드로 밀어붙였을 때 실제 생명과학 애플리케이션의 규모, 안정성, 유연성 요구 사항을 충족하지 못하며 실패했습니다. 여러 대안을 테스트한 후, 팀은 다음 요인들 때문에 Milvus가 모든 조건을 충족하는 유일한 솔루션이라는 것을 확인했습니다:
오픈 소스 유연성: 생명과학 데이터는 매우 전문화되어 있어, 생물학적 사용 사례에 맞춤화된 커스텀 인덱싱과 알고리즘이 필요한 경우가 많습니다. Milvus의 오픈 소스 설계는 Biomap이 제약 없이 시스템을 조정하고 확장할 수 있는 자유를 제공했습니다. Biomap의 기술 부사장 Xiaoming Zhang은 다음과 같이 설명했습니다. “오픈 소스가 아니라면 이러한 커스터마이징을 위한 여지가 거의 없을 것이며, 이는 우리의 시나리오에 맞지 않습니다.”
프로덕션 준비가 완료된 안정성: 프로덕션 배포를 위해 Biomap은 특히 엔터프라이즈 바이오테크 기업들 사이에서 활발한 사용자 기반의 지원을 받는 성숙한 플랫폼이 필요했습니다. 여러 산업 전반에서 입증된 실적과 바이오테크 기업들 사이의 강력한 커뮤니티 채택을 바탕으로, Milvus는 Biomap이 필요로 하는 신뢰성과 생태계 지원을 제공했습니다.
포괄적인 기능 세트: Milvus는 다양한 인덱스 유형과 하이브리드 검색 기능을 지원하여, 단일 시스템 내에서 단백질, DNA, RNA, 텍스트 및 기타 모달리티 전반의 검색 최적화를 가능하게 합니다.
대규모 성능: 인터랙티브 어시스턴트부터 대규모 단백질 검색에 이르기까지, Biomap은 서브초 단위 쿼리와 방대한 배치 작업을 모두 처리할 수 있는 인프라가 필요했습니다. Milvus의 수평 확장 가능한 아키텍처는 워크로드의 크기와 규모에 관계없이 일관된 성능을 보장했습니다.
커뮤니티와 파트너십: Biomap 팀은 또한 Milvus의 활발한 오픈 소스 커뮤니티와 Milvus를 개발한 회사인 Zilliz와의 장기적인 파트너십 가능성을 높이 평가했습니다.
이러한 기술적 깊이, 생태계 성숙도, 미래 지향적 지원의 조합은 Biomap의 프로덕션 인프라에 Milvus가 명확한 선택지가 되게 했습니다.
Biomap이 생물학적 AI 서비스를 구동하기 위해 Milvus를 사용하는 방법
Biomap은 세 가지 핵심 사용 사례에 Milvus를 배포했으며, 각 사례는 고유한 과학적 과제를 해결하고 함께 생물학적 AI 플랫폼의 중추를 형성합니다.
AI 발견 어시스턴트(RAG)
Biomap의 연구 워크플로우 중심에는 고급 검색 증강 생성(Retrieval-Augmented Generation, RAG)으로 구동되는 발견 어시스턴트가 있습니다. 오케스트레이션을 위해 LangGraph를 기반으로 구축된 이 어시스턴트는 방대한 과학 문헌, 특허 및 전문 생물학 데이터베이스 컬렉션에서 데이터를 가져옵니다. 공식, 단백질 구조, 도메인별 표기법이 풍부한 이러한 데이터는 이후 벡터 임베딩으로 변환되어 Milvus에 저장됩니다.
Milvus는 하이브리드 벡터 및 전문 검색을 수행하여 서브초 내에 쿼리에 대해 가장 정확한 결과를 제공합니다. 이를 통해 연구자들은 문헌을 뒤지는 데 몇 시간을 소비하는 대신, 전문 생물학 지식 전반을 검색하고 실시간으로 정확한 답변을 받을 수 있습니다.
대규모 단백질 구조 예측
Biomap은 또한 느린 다중 서열 정렬(Multiple Sequence Alignment, MSA) 방법을 벡터 검색으로 대체함으로써 기존의 단백질 검색 파이프라인을 재창조했습니다. 그들의 독점 단백질 파운데이션 모델은 고차원 임베딩을 생성하며, 이는 Milvus에 저장되고 쿼리됩니다. 이 새로운 아키텍처는 검색 규모를 수억 개에서 50억 개 이상의 단백질 서열로 확장하여, 이전에는 도달할 수 없었던 발견을 가능하게 했습니다. 성능 또한 극적으로 향상되었습니다. 이전에는 10~20분이 걸리던 쿼리가 이제는 1분 이내에 완료되며, AI 기반 유사도 지표 덕분에 정확도도 더 높아졌습니다.
모델 학습을 위한 크로스 모달 샘플 생성
멀티모달 파운데이션 모델 개발을 발전시키기 위해, Biomap은 Milvus를 활용하여 생물학적 모달리티 전반의 데이터를 연결합니다. 예를 들어 연구자들은 특정 단백질 서열과 연결된 세포 이미지를 검색하거나, 분자 수준 및 세포 수준 데이터를 통합 벡터 공간에서 정렬할 수 있습니다. 이 기능은 정교한 데이터 증강과 크로스 모달 연관성 발견을 지원하여, 텍스트, 서열, 이미지 데이터를 연결하는 모델의 학습을 가속화합니다.
이러한 애플리케이션들은 Milvus가 Biomap이 일상적인 발견부터 최첨단 생물학 모델 학습에 이르기까지 다양한 영역에서 규모, 정확도, 속도를 결합할 수 있게 해주는 방식을 보여줍니다.
Milvus가 Biomap 플랫폼에 미친 영향
Milvus를 도입함으로써 Biomap은 기존 인프라로는 제공할 수 없었던 성과를 달성했으며, 연구의 속도와 범위를 모두 변화시켰습니다.
10억 규모에서 더 빠른 검색
Milvus의 고성능 인덱싱 엔진은 단백질 서열 검색에서 22배의 속도 향상을 이끌었습니다. 이전에는 10~20분이 걸리던 쿼리가 이제는 500억 개 서열 규모에서도 1분 이내에 결과를 반환합니다. 이는 정확도나 신뢰성을 희생하지 않으면서 생물학적 서열의 규모가 수억 개에서 수백억 개로 확대된, 10배 이상의 규모 증가를 의미합니다.
더 스마트한 생물학적 발견
Milvus는 Biomap이 발견 자체에 접근하는 방식도 변화시켰습니다. 검색 품질이 그들의 기반 모델 성능과 직접적으로 연결되어 있기 때문에, 모델 정확도의 향상은 즉시 더 나은 검색 결과로 이어집니다. 이는 선순환을 만들어냅니다. 모델이 발전함에 따라 Milvus가 구동하는 검색 엔진은 더욱 정밀해지고, 정적인 정렬 기반 방법으로는 결코 달성할 수 없었던 과학적 통찰을 열어줍니다.
교차 모달 혁신
Milvus를 통해 Biomap은 이제 동일한 벡터 공간 내에서 분자 수준과 세포 수준의 데이터를 연결할 수 있습니다. 이러한 규모 차이의 “평탄화”는 원활한 교차 모달 검색을 가능하게 하며, 차세대 멀티모달 기반 모델의 학습을 지원합니다. 이는 생물학을 위한 포괄적인 AI 시뮬레이터를 구축하려는 장기적 비전을 향한 기초적인 단계입니다.
생명과학을 위한 확장 가능한 플랫폼
궁극적으로 Milvus는 Biomap이 내부 연구를 넘어 더 넓은 생명과학 애플리케이션으로 확장할 수 있는 인프라를 제공합니다. 동일한 플랫폼은 이제 제약 회사, 병원, 합성생물학 기업을 위한 맞춤형 지식 베이스와 지능형 에이전트를 지원하며, 빠르고 확장 가능한 생물학 AI의 이점을 전체 생태계로 확장하고 있습니다.
향후 전망
Biomap의 Milvus 성공 사례는 전체 생명과학 생태계 전반으로 확장하기 위한 토대를 마련했습니다. 팀은 이제 신약 개발을 가속화하는 제약 회사, 임상 연구를 발전시키는 의료 기관, 유기체 설계를 최적화하는 합성생물학 기업, 작물의 유전적 개선을 추진하는 농업 생명공학 기업 등 다양한 이해관계자를 지원하기 위해 플랫폼을 확장하고 있습니다. 각각의 새로운 사용 사례는 복잡한 생물학적 데이터를 대규모로 접근 가능하고 실행 가능하게 만드는 동일한 핵심 인프라, 즉 Milvus를 활용한 벡터 검색을 기반으로 합니다.
Xiaoming이 언급했듯이, “Milvus는 생명과학 산업 전반에 걸친 향후 비즈니스 확장에서 벡터 데이터베이스를 위한 유일한 기술적 선택지가 되었습니다.”
이 파트너십은 기술적 통합을 넘어섭니다. 이는 미래에 생물학적 발견이 수행될 방식, 즉 더 빠르고, 더 정밀하며, 한때 사일로화되어 있던 모달리티들을 아우를 수 있는 기반을 만들고 있습니다. Biomap이 “생명을 위한 AI 시뮬레이터”라는 비전을 계속 추구하는 가운데, Zilliz는 이러한 야심을 현실로 바꾸는 벡터 데이터베이스 인프라를 제공하여 과학과 산업 모두를 변화시킬 수 있는 혁신을 가능하게 합니다.
Milvus has become the only technical choice for vector databases in our upcoming business expansion across the life sciences industry.
Xiaoming Zhang


