C12.ai ускоряет открытие лекарств с помощью векторной базы данных Milvus

Поиск в 10 раз быстрее
Мгновенное получение реакций, сокращающее время запросов с минут до секунд.
Бесшовная масштабируемость
Без усилий обрабатывает миллионы реакций и растущие рабочие нагрузки.
Превосходная релевантность
Предоставляет высококачественные, химически практичные предложения по реакциям.
Улучшенный пользовательский опыт
Ускорили внедрение платформы благодаря более быстрой и интеллектуальной ретросинтезу.
О C12.ai
Основанная в 2022 году, C12.ai преобразует лаборатории фармацевтических исследований и разработок, сочетая передовой ИИ с технологиями воплощённого интеллекта. Её миссия — помочь лабораториям выйти за пределы традиционной автоматизации, встраивая интеллектуальное принятие решений в лабораторные рабочие процессы, чтобы сократить ручные узкие места, повысить эффективность и снизить операционные расходы. Благодаря таким инновациям, как аналитика в реальном времени и более интеллектуальная автоматизация, C12.ai возглавляет новую эру интеллектуальных фармацевтических НИОКР.
Ключевое направление C12.ai — ретросинтетический анализ — критически важный метод в разработке лекарств и химии органического синтеза. Разлагая сложные молекулы на более простые прекурсоры и проектируя синтетические пути, химики могут ускорить открытие новых лекарств. C12.ai совершенствует этот процесс, используя исторические данные о химических реакциях и интеллектуальные системы поиска, чтобы способствовать более быстрому и эффективному планированию синтеза.
Задача: проектирование сложных ретросинтетических маршрутов
При проектировании ретросинтетических маршрутов C12.ai столкнулась с несколькими ключевыми задачами:
1. Управление массивными базами данных реакций
Химические базы данных содержат десятки или сотни миллионов записей о реакциях. Чтобы найти несколько прецедентов, наиболее релевантных конкретному преобразованию, требуются сложные поисковые возможности, которые традиционные базы данных просто не могут предоставить.
2. Эффективное выполнение высокоразмерного поиска по сходству
Современные методы химических отпечатков, такие как Extended Connectivity Fingerprints (ECFP), преобразуют молекулярные структуры в высокоразмерные векторы с сотнями или тысячами измерений. Традиционным системам баз данных не хватает специализированного индексирования, необходимого для вычисления сходства между такими сложными векторами в масштабе.
3. Обеспечение интерактивного проектирования в реальном времени
Эффективное ретросинтетическое проектирование — это итеративный, интерактивный процесс. Химикам необходимо быстро исследовать несколько путей, оценивать альтернативы и получать немедленную обратную связь по каждому предложенному маршруту. Для этого требуется система, способная стабильно обеспечивать время отклика менее секунды.
4. Обеспечение химической релевантности и практичности
Одного лишь математического сходства недостаточно — найденные реакции должны соответствовать конкретным химическим свойствам и условиям реакции, чтобы быть действительно полезными. Система должна сочетать поиск по исходному сходству с экспертными правилами, касающимися механизмов, выходов и практической применимости.
Чтобы предоставить платформу, способную поддерживать ретросинтетическое проектирование в реальном времени, масштабируемое и высокоточное, C12.ai потребовалось решение нового типа.
Решение: векторный поиск с Milvus
Оценив несколько вариантов, C12.ai выбрала Milvus в качестве основы для своей поисковой системы похожих реакций. Этот выбор был обусловлен несколькими ключевыми преимуществами, которые делают Milvus особенно хорошо подходящим для поиска химического сходства:
Почему C12.ai выбрала Milvus
Сверхбыстрый и точный векторный поиск: Milvus использует современные методы индексирования, включая IVF и HNSW, которые разбивают векторное пространство на разделы и применяют квантование для значительного снижения задержек поиска. Эта архитектура обеспечивает время отклика на уровне миллисекунд в коллекциях, содержащих сотни миллионов векторов, — именно то, что необходимо для интерактивного ретросинтетического проектирования.
Эластичная распределённая архитектура: Развёрнутый в контейнерах на Kubernetes, Milvus легко масштабируется горизонтально. Данные автоматически шардируются и реплицируются между узлами, обеспечивая как масштабируемость производительности, так и высокую доступность. Эта инфраструктура динамически адаптируется к меняющимся рабочим нагрузкам и растущим наборам данных.
Бесшовная интеграция в существующие системы: Благодаря комплексным SDK для Python, Java и других языков Milvus легко интегрируется в существующие рабочие процессы хемоинформатики C12.ai. Это позволило команде реализовать продвинутый векторный поиск без перестройки всего технологического стека.
Экономически эффективное масштабирование: Благодаря оптимизации использования ресурсов и поддержке динамического масштабирования Milvus значительно снижает затраты на инфраструктуру по сравнению с монолитными или традиционными решениями для баз данных — это важный фактор при обработке постоянно растущего объема данных о химических реакциях.
Как Milvus обеспечивает работу платформы C12.ai
C12.ai реализовала комплексный рабочий процесс, который использует Milvus на каждом этапе поиска похожих реакций.
1. Векторизация данных о химических реакциях
Каждая реакция в базе данных C12.ai кодируется в высокоразмерные векторные эмбеддинги с использованием специализированных алгоритмов химических отпечатков. Эти эмбеддинги отражают ключевые характеристики реагентов, продуктов, катализаторов, растворителей и условий реакции, создавая математическое представление, которое может эффективно обрабатываться Milvus.
2. Создание оптимизированных поисковых индексов
Реализация использует структуру IVF (Inverted File Index) в Milvus, которая разбивает векторное пространство на кластеры и использует квантованные центроиды для аппроксимации точек данных. Такой подход резко ускоряет производительность поиска, ограничивая область точных сравнений наиболее перспективными кластерами.
3. Распределение рабочих нагрузок для масштабирования и отказоустойчивости
Развертывание Milvus в C12.ai работает на кластере на базе Kubernetes, обеспечивая параллельную обработку на нескольких вычислительных узлах. Эта контейнеризированная архитектура без проблем масштабируется горизонтально при высоких нагрузках и обеспечивает надежную отказоустойчивость за счет автоматической репликации и переключения при сбое.
4. Улучшение результатов с помощью предметно-ориентированных фильтров
Необработанные результаты векторной схожести дополнительно уточняются с помощью собственных правил химических знаний C12.ai. Найденные реакции оцениваются на основе совместимости условий, опубликованных выходов и практической применимости в контекстах синтеза. Этот гибридный подход гарантирует, что химики получают не просто структурно похожие реакции, а те, которые действительно полезны для их конкретных синтетических задач.
Обзор рабочего процесса
Как показано на диаграмме ниже, в системе существуют два параллельных рабочих процесса: один для подготовки библиотеки реакций, а другой — для обработки запросов в реальном времени.
Как Milvus обеспечивает работу платформы C12.ai
Рабочий процесс 1: Подготовка и векторизация библиотеки реакций: C12.ai сначала обрабатывает всю свою базу данных химических реакций, векторизуя каждое уравнение реакции и фиксируя ключевые молекулярные признаки, такие как реагенты, катализаторы, растворители и условия. Затем эти векторы импортируются в Milvus, где создаются эффективные индексы, такие как IVF. Этот подготовительный этап обеспечивает возможность быстро и точно искать среди миллионов реакций при необходимости.
Рабочий процесс 2: Обработка запросов в реальном времени: Когда вводится целевая реакция, система векторизует входные данные в том же формате и выполняет поиск по схожести в Milvus, чтобы получить top-K ближайших реакций. Затем первоначальные результаты повторно ранжируются с помощью предметно-ориентированных правил с учетом условий реакции, выходов и практической применимости. После повторного ранжирования система извлекает подробную информацию и в реальном времени предоставляет химикам высококачественные, применимые варианты синтеза.
Результаты и преимущества внедрения
После интеграции Milvus в свою платформу ретросинтетического проектирования C12.ai добилась значительных улучшений по нескольким направлениям:
Поиск в 10 раз быстрее
Время поиска было сокращено с минут до секунд даже при запросах к базам данных, содержащим миллионы записей о реакциях. Это существенное повышение скорости обеспечивает по-настоящему интерактивные рабочие процессы проектирования, в которых химики могут быстро итерировать синтетические маршруты.
Бесшовная масштабируемость
Распределенное развертывание Milvus легко справляется с растущими объемами данных и пиковыми нагрузками запросов. По мере того как C12.ai непрерывно расширяет свои базы данных реакций новой литературой и экспериментальными данными, система сохраняет стабильную производительность без необходимости серьезных архитектурных изменений.
Превосходная релевантность результатов
Объединяя векторный поиск с фильтрацией по химической предметной области, платформа предоставляет предложения, которые соответствуют целевым преобразованиям как структурно, так и контекстуально. Такая более высокая релевантность напрямую приводит к более успешным синтезам и меньшему числу неудачных экспериментов в лаборатории.
Улучшенный пользовательский опыт
Сочетание быстрого времени отклика и высококачественных совпадений значительно повысило удовлетворенность пользователей. Химики теперь могут более тщательно изучать варианты синтеза и принимать более уверенные решения, оптимизируя весь процесс разработки лекарственных препаратов.
Заключение
Партнерство между C12.ai и Milvus демонстрирует, как специализированная технология векторных баз данных может преобразовать сложные научные рабочие процессы. Решая двойную задачу огромного масштаба данных и высокоразмерных вычислений, Milvus позволил C12.ai создать платформу ретросинтетического проектирования, обеспечивающую беспрецедентные скорость, точность и удобство использования.
Для фармацевтических компаний, испытывающих сильное давление, связанное с необходимостью сокращать сроки и затраты на разработку, эта технология обеспечивает мощное конкурентное преимущество — позволяя им проектировать более эффективные синтезы, исследовать большее химическое пространство и в конечном итоге быстрее выводить на рынок жизненно важные препараты.


