Comment Biomap transforme la découverte en sciences de la vie à grande échelle grâce à la recherche vectorielle alimentée par l’IA utilisant Milvus

22× plus rapide
Recherches de protéines avec des temps de requête réduits de 10–20 minutes à moins d’une minute.
50 Md+
Sequence Scale est passé de centaines de millions à des dizaines de milliards de séquences biologiques.
Découverte en temps réel
Réponses en moins d’une seconde pour les requêtes biologiques complexes dans les workflows RAG.
Intégration intermodale
Unification des protéines, de l’ADN, de l’ARN, du texte et des données cellulaires dans un cadre unique consultable.
Milvus has become the bridge that connects our multi-modal foundation models with real-world applications. It's not just about performance – it's about enabling entirely new approaches to biological discovery that were previously impossible.
Xiaoming Zhang
À propos de Biomap
Biomap est une entreprise leader d’IA pour les sciences de la vie, axée sur la création de modèles d’IA qui accélèrent la découverte dans le développement de médicaments, la biologie synthétique et la recherche médicale. Au cœur de sa plateforme se trouve xTrimo, une famille de modèles fondamentaux à grande échelle conçus spécifiquement pour la biologie. Avec une montée en échelle jusqu’à 210 milliards de paramètres, xTrimo unifie les protéines, l’ADN, l’ARN, les cellules, les molécules et les textes scientifiques dans un cadre unique, fournissant des prédictions et des insights que les méthodes traditionnelles ne peuvent égaler.
Atteindre cette capacité a nécessité de surmonter des obstacles techniques, notamment des données biologiques bruitées, des formats très diversifiés et la nécessité d’effectuer des recherches en temps réel parmi des milliards de séquences. Biomap a relevé ces défis en développant des modèles d’embedding personnalisés pour les entités biologiques et en déployant une infrastructure de données avancée, telle que Milvus Vector Database, afin de permettre une récupération rapide et précise à grande échelle. Grâce à cette base, les chercheurs peuvent désormais accélérer les percées dans divers domaines, notamment l’immunologie, la neurologie, l’oncologie et le traitement des maladies rares.
Obstacles techniques à la mise à l’échelle de l’IA biologique
À mesure que Biomap développait ses capacités d’IA, l’équipe s’est heurtée à plusieurs goulots d’étranglement que les outils traditionnels ne pouvaient pas surmonter.
1. Recherche de protéines lente
Le pipeline de prédiction de la structure des protéines de Biomap reposait auparavant sur l’alignement de séquences multiples (MSA), qui nécessitait 10 à 20 minutes pour renvoyer un seul résultat. Bien qu’acceptable pour la recherche à petite échelle, ce délai était impraticable pour les charges de travail de production, en particulier lors du passage à des centaines de millions — voire des milliards — de séquences.
2. Complexité des données multimodales
Les données biologiques se présentent intrinsèquement sous de nombreuses formes — protéines, ADN, ARN, imagerie cellulaire et même texte. Les méthodes de recherche traditionnelles étaient incapables de relier efficacement ces modalités, passant ainsi à côté des insights intermodaux essentiels à la compréhension des systèmes biologiques complexes.
3. Dilemme vitesse vs précision
Dans la recherche biomédicale, de petites erreurs peuvent avoir des conséquences majeures. L’assistant de découverte basé sur RAG de Biomap devait offrir à la fois des réponses aux requêtes en moins d’une seconde pour l’interactivité et une précision de niveau recherche pour la fiabilité scientifique. Cependant, la plupart des solutions imposaient un compromis entre vitesse et précision.
4. Exigences de données spécialisées
Les données biologiques présentent des caractéristiques uniques nécessitant des stratégies d’indexation personnalisées, des modèles d’embedding propres au domaine et une optimisation adaptée aux charges de travail scientifiques — des capacités que les solutions prêtes à l’emploi ne pouvaient pas fournir.
5. Exigences de performance diverses
Les différents cas d’utilisation de Biomap avaient des besoins très différents : les assistants conversationnels exigeaient des réponses instantanées, la prédiction des protéines pouvait tolérer plusieurs minutes par requête mais nécessitait un traitement par lots efficace, et l’entraînement de modèles fondamentaux exigeait des pipelines de données à haut débit. La gestion de ces exigences diverses au sein d’une infrastructure unifiée unique s’est révélée particulièrement difficile.
Pourquoi Biomap a choisi Milvus pour alimenter l’IA biologique à grande échelle
Biomap a rapidement compris que la mise à l’échelle de ses charges de travail d’IA nécessiterait une plateforme de recherche vectorielle spécialement conçue. L’équipe s’est d’abord tournée vers Faiss, une bibliothèque populaire de recherche vectorielle, pour des preuves de concept à petite échelle. Bien que Faiss ait donné de bons résultats lors des premières expérimentations, elle a échoué face aux charges de travail de production, incapable de répondre aux exigences d’échelle, de fiabilité et de flexibilité des applications réelles en sciences de la vie. Après avoir testé plusieurs alternatives, l’équipe a constaté que Milvus était la seule solution qui cochait toutes les cases grâce aux facteurs suivants :
Flexibilité open source : Les données des sciences de la vie sont hautement spécialisées et nécessitent souvent une indexation personnalisée ainsi que des algorithmes adaptés aux cas d’usage biologiques. La conception open source de Milvus a donné à Biomap la liberté d’adapter et d’étendre le système sans contraintes. Comme l’a expliqué Xiaoming Zhang, VP of Technology chez Biomap, « Si ce n’est pas open source, il n’y a probablement pas de marge pour de telles personnalisations, ce qui ne correspond pas à nos scénarios. »
Stabilité prête pour la production : Pour les déploiements en production, Biomap avait besoin d’une plateforme mature soutenue par une base d’utilisateurs active, en particulier parmi les entreprises de biotechnologie. Avec un historique éprouvé dans tous les secteurs et une forte adoption communautaire parmi les entreprises de biotechnologie, Milvus offrait la fiabilité et le soutien de l’écosystème dont Biomap avait besoin.
Ensemble complet de fonctionnalités : Milvus prend en charge un large éventail de types d’index et de capacités de recherche hybride, permettant l’optimisation des recherches sur les protéines, l’ADN, l’ARN, le texte et d’autres modalités, le tout au sein d’un système unique.
Performance à grande échelle : Des assistants interactifs aux recherches de protéines à grande échelle, Biomap avait besoin d’une infrastructure capable de gérer à la fois des requêtes en moins d’une seconde et des traitements par lots massifs. L’architecture horizontalement évolutive de Milvus garantissait des performances constantes sur l’ensemble des charges de travail, quelles que soient leur taille et leur échelle.
Communauté et partenariat : L’équipe de Biomap appréciait également la communauté open source active de Milvus et le potentiel de partenariat à long terme avec Zilliz, l’entreprise derrière Milvus.
Cette combinaison de profondeur technique, de maturité de l’écosystème et de soutien tourné vers l’avenir a fait de Milvus le choix évident pour l’infrastructure de production de Biomap.
Comment Biomap utilise Milvus pour alimenter ses services d’IA biologique
Biomap a déployé Milvus dans trois cas d’usage critiques, chacun répondant à un défi scientifique unique et formant ensemble l’épine dorsale de sa plateforme d’IA biologique.
Assistant de découverte IA (RAG)
Au cœur des flux de travail de recherche de Biomap se trouve un assistant de découverte alimenté par la génération augmentée par récupération (Retrieval-Augmented Generation, RAG) avancée. Construit sur LangGraph pour l’orchestration, l’assistant extrait des données de vastes collections de littérature scientifique, de brevets et de bases de données biologiques spécialisées. Ces données, riches en formules, structures protéiques et notations propres au domaine, sont ensuite converties en embeddings vectoriels et stockées dans Milvus.
Milvus effectue une recherche hybride vectorielle et plein texte afin de fournir les résultats les plus précis pour les requêtes en moins d’une seconde. Cela permet aux chercheurs d’effectuer des recherches dans des connaissances biologiques spécialisées et d’obtenir des réponses précises en temps réel, plutôt que de passer des heures à parcourir la littérature.
Prédiction de la structure des protéines à grande échelle
Biomap a également réinventé le pipeline traditionnel de recherche de protéines en remplaçant les méthodes lentes d’alignement multiple de séquences (Multiple Sequence Alignment, MSA) par la recherche vectorielle. Leurs modèles fondamentaux propriétaires de protéines génèrent des embeddings de haute dimension, qui sont stockés et interrogés dans Milvus. Cette nouvelle architecture a étendu leur échelle de recherche de centaines de millions à plus de 5 milliards de séquences protéiques, permettant des découvertes auparavant hors de portée. Les performances se sont également considérablement améliorées : des requêtes qui prenaient autrefois 10 à 20 minutes s’exécutent désormais en moins d’une minute, avec une précision supérieure grâce aux métriques de similarité pilotées par l’IA.
Génération d’échantillons cross-modale pour l’entraînement des modèles
Pour faire progresser le développement de modèles fondamentaux multimodaux, Biomap s’appuie sur Milvus afin de connecter les données entre les modalités biologiques. Les chercheurs peuvent, par exemple, récupérer des images cellulaires liées à des séquences protéiques spécifiques ou aligner des données au niveau moléculaire et au niveau cellulaire dans un espace vectoriel unifié. Cette capacité prend en charge une augmentation sophistiquée des données et la découverte d’associations cross-modales, accélérant l’entraînement de modèles qui relient les données textuelles, séquentielles et visuelles.
Ensemble, ces applications montrent comment Milvus permet à Biomap de combiner échelle, précision et rapidité dans différents domaines — de la découverte au quotidien à l’entraînement de modèles biologiques de pointe.
Impact de Milvus sur la plateforme de Biomap
En adoptant Milvus, Biomap a obtenu des résultats que l’infrastructure traditionnelle ne pouvait pas offrir, transformant à la fois la vitesse et la portée de ses recherches.
Recherches plus rapides à l’échelle du milliard
Le moteur d’indexation haute performance de Milvus a permis une accélération de 22× des recherches de séquences protéiques. Les requêtes qui prenaient autrefois 10 à 20 minutes renvoient désormais des résultats en moins d’une minute, même à des échelles de 50 milliards de séquences. Cela représente une augmentation d’échelle de plus de 10 fois — de centaines de millions à des dizaines de milliards de séquences biologiques — sans sacrifier la précision ni la fiabilité.
Découverte biologique plus intelligente
Milvus a également changé la façon dont Biomap aborde la découverte elle-même. Comme la qualité de la recherche est directement liée aux performances de ses modèles de fondation, les améliorations de la précision des modèles se traduisent immédiatement par de meilleurs résultats de récupération. Cela crée un cercle vertueux : à mesure que les modèles évoluent, le moteur de recherche alimenté par Milvus devient plus précis, ouvrant la voie à des connaissances scientifiques que les méthodes statiques basées sur l’alignement n’auraient jamais pu atteindre.
Percées intermodales
Avec Milvus, Biomap peut désormais relier des données aux niveaux moléculaire et cellulaire au sein du même espace vectoriel. Cet « aplatissement » des différences d’échelle permet des recherches intermodales fluides, soutenant l’entraînement de ses modèles de fondation multimodaux de nouvelle génération. C’est une étape fondamentale vers sa vision à long terme : construire un simulateur d’IA complet pour la biologie.
Une plateforme évolutive pour les sciences de la vie
En fin de compte, Milvus fournit à Biomap l’infrastructure nécessaire pour s’étendre au-delà de la recherche interne vers des applications plus larges dans les sciences de la vie. La même plateforme prend désormais en charge des bases de connaissances personnalisées et des agents intelligents pour les entreprises pharmaceutiques, les hôpitaux et les entreprises de biologie synthétique — étendant les avantages d’une IA biologique rapide et évolutive à l’ensemble de l’écosystème.
Perspectives
Le succès de Biomap avec Milvus a posé les bases d’une expansion à travers tout l’écosystème des sciences de la vie. L’équipe élargit désormais sa plateforme pour servir divers acteurs, notamment les entreprises pharmaceutiques qui accélèrent la découverte de médicaments, les institutions médicales qui font progresser la recherche clinique, les entreprises de biologie synthétique qui optimisent la conception d’organismes et les entreprises de biotechnologie agricole qui favorisent les améliorations génétiques des cultures. Chaque nouveau cas d’utilisation repose sur la même infrastructure centrale — la recherche vectorielle avec Milvus — qui rend les données biologiques complexes accessibles et exploitables à grande échelle.
Comme l’a indiqué Xiaoming, « Milvus est devenu le seul choix technique pour les bases de données vectorielles dans notre prochaine expansion commerciale à travers l’industrie des sciences de la vie. »
Ce partenariat va au-delà de l’intégration technique. Il crée une base pour la manière dont la découverte biologique sera menée à l’avenir : plus rapidement, avec plus de précision et avec la capacité de couvrir des modalités autrefois cloisonnées. Alors que Biomap poursuit sa vision d’un « simulateur d’IA pour la vie », Zilliz fournit l’infrastructure de base de données vectorielle qui transforme cette ambition en réalité, permettant des percées susceptibles de transformer à la fois la science et l’industrie.
- À propos de Biomap
- Obstacles techniques à la mise à l’échelle de l’IA biologique
- Pourquoi Biomap a choisi Milvus pour alimenter l’IA biologique à grande échelle
- Comment Biomap utilise Milvus pour alimenter ses services d’IA biologique
- Impact de Milvus sur la plateforme de Biomap
- Perspectives
Contenu
Secteur d'activité
Sciences de la vie
Milvus has become the only technical choice for vector databases in our upcoming business expansion across the life sciences industry.
Xiaoming Zhang


