Как UNIwise создала масштабируемую платформу для обнаружения плагиата с Milvus

Экономически эффективный
в любом масштабе
10 000+ документов
Бесшовная обработка в одном пакете с возможностью масштабирования до десятков миллиардов векторов
Более умное обнаружение плагиата
по европейским языкам с помощью семантического поиска по сходству
Более быстрые инновации
с большим количеством инженерного времени на создание новых функций
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
О UNIwise
UNIwise — ведущий европейский поставщик решений для онлайн-экзаменов, которому университеты доверяют более 12 лет. Штаб-квартира компании находится в Дании, а сама компания поддерживает учреждения по всей Скандинавии, в Великобритании и за ее пределами. Ее флагманская платформа WISEflow охватывает полный жизненный цикл оценивания — от создания и проведения экзаменов до выставления оценок, обратной связи и интеграции с университетскими системами управления обучением (LMS).
Опираясь на этот фундамент, UNIwise запустила WISEflow Originality, систему семантического обнаружения плагиата на базе Milvus. Выбрав Milvus вместо конкурирующих решений в области векторных баз данных, UNIwise создала экономически эффективную платформу, способную масштабироваться до миллиардов документов. Благодаря современной архитектуре и интеллектуальным стратегиям масштабирования WISEflow Originality обеспечивает производительность и надежность корпоративного уровня, предоставляя университетам мощный инструмент для обеспечения академической добросовестности.
Задача: масштабирование за пределы устаревших систем обнаружения плагиата
По мере того как многие европейские университеты расширяли использование цифрового оценивания, многие начали перерастать устаревшие инструменты обнаружения плагиата. Существующие системы, такие как Turnitin, в значительной степени полагались на традиционные методы сопоставления текста, которые были дорогими в эксплуатации и с трудом масштабировались при растущих объемах контента. Эти методы часто не позволяли выявлять семантические сходства, что затрудняло обнаружение перефразированного контента на разных языках — ключевую потребность европейских учреждений.
Чтобы удовлетворить этот спрос, UNIwise решила создать WISEflow Originality — платформу, способную выполнять сравнения среди миллиардов документов при сохранении управляемых затрат. Системе требовалось семантическое понимание за пределами простых текстовых совпадений, а также поддержка нескольких европейских языков, включая датский, норвежский, шведский, немецкий, английский и испанский. В то же время ей необходимо было бесшовно интегрироваться с WISEflow, выдавать результаты в рамках 24-часового SLA и минимизировать инфраструктурные накладные расходы.
С точки зрения бизнеса UNIwise столкнулась с задачей конкуренции с устоявшимися игроками, обладающими значительно большими ресурсами, используя небольшую инженерную команду для создания сложной платформы обработки данных. Компании также необходимо было проходить процессы публичных тендеров ЕС для университетских контрактов, сохраняя операционную эффективность и экономическую целесообразность в корпоративном масштабе.
Решение: создание механизма семантического обнаружения с Milvus
Чтобы воплотить WISEflow Originality в жизнь, UNIwise вскоре осознала, что векторные базы данных могут обеспечить необходимое семантическое сравнение и масштабируемость за долю стоимости традиционных подходов к сопоставлению текста. Компания провела тщательную оценку нескольких решений для векторного поиска, включая Milvus, Weaviate, Redis Vector Search и OpenSearch. Каждый вариант оценивался по взвешенным критериям, включая стабильность, масштабируемость для больших наборов данных, оптимизацию производительности, соответствие стандартам, сообщество и поддержку, а также совместимость с существующими инструментами.
Почему победил Milvus
Milvus оказался наиболее подходящим решением по нескольким параметрам. Качество документации стало одним из решающих факторов, как отметил руководитель инженерной команды UNIwise Тейс Петерсен: «Когда вам нужно запустить векторную базу данных и у вас нет опыта, вам очень, очень нужна хорошая документация. Это действительно, действительно ключевой фактор». Milvus предоставил понятную и доступную документацию, которая ускорила онбординг.
Не менее важно, что Milvus специально создан для векторных операций — в отличие от универсальных баз данных с добавленными функциями векторного поиска, — обеспечивая превосходную масштабируемость и производительность. Его большое активное open source-сообщество и современная cloud-native-архитектура также дали UNIwise уверенность в долгосрочной поддержке и гибких стратегиях развертывания.
Техническая архитектура
С Milvus в качестве ядра UNIwise реализовала полностью асинхронный конвейер обработки данных. Система использует Milvus, а также многоязычную модель сходства предложений MiniLM, которая применяет 384-мерные векторы. Дополнительные компоненты включают YOLO v3 для обнаружения структуры документов и OCR-модели для извлечения текста. Уровень оркестрации объединяет Go-сервисы для управления API и координации рабочих процессов с Python-сервисами для машинного обучения при поддержке репозитория моделей MLflow. Все компоненты развернуты в управляемом кластере на сервисах AWS EKS.
Сквозной рабочий процесс начинается с загрузки документов из WISEflow, за которой следует обнаружение структуры для удаления нерелевантных элементов, таких как заголовки и номера страниц. Затем текст извлекается, сегментируется и преобразуется в векторы с помощью модели MiniLM. Milvus индексирует эти эмбеддинги и выполняет поиск по сходству, после чего результаты агрегируются и представляются непосредственно в интерфейсе WISEflow.
Как Milvus помог UNIwise добиться результатов
Выбрав Milvus в качестве поисковой основы для WISEflow Originality, UNIwise легко решила стоявшие перед ней технические задачи. Теперь платформа сочетает экономическую эффективность, масштабируемость и расширенные возможности обнаружения так, как не могут обеспечить устаревшие инструменты выявления плагиата.
Контроль затрат при масштабировании
Облачная архитектура Milvus дала UNIwise гибкость для масштабирования ресурсов вверх и вниз по требованию. Приняв этот подход, они смогли поддерживать устойчивый уровень инфраструктурных затрат, несмотря на большие объемы данных.
Более умное выявление плагиата с помощью векторного поиска
В отличие от устаревших систем, ограниченных сопоставлением ключевых слов или строк, Milvus обеспечивает семантический поиск сходства по многоязычному контенту. В сочетании с моделью MiniLM это позволяет UNIwise обнаруживать перефразированный и реструктурированный плагиат на семи европейских языках.
Масштабируемость для любой рабочей нагрузки
Разделение индексации и поиска в Milvus позволило UNIwise масштабировать каждую функцию независимо. Это сделало возможной обработку рабочих нагрузок от нескольких документов до более чем 10 000 в одном пакете, с ясным путем к десяткам миллиардов векторов в будущем. Теперь система может расти в соответствии с потребностями университетов без необходимости серьезных архитектурных изменений.
Операционная надежность для небольших команд
Milvus предоставил UNIwise надежную основу, обеспечив устойчивую обработку ошибок. Наличие всесторонней документации и крупного open-source-сообщества также облегчило освоение, позволив небольшой инженерной команде UNIwise поддерживать и расширять систему без чрезмерных накладных расходов.
Больше времени на действительно важные функции
Поскольку Milvus берет на себя основную нагрузку по масштабному поиску сходства, UNIwise смогла сосредоточиться на создании функций, которые важны для университетов. Open-source-экосистема продолжает ускорять разработку, обеспечивая конкурентоспособность WISEflow Originality по сравнению с устаревшими поставщиками и одновременно развитие в соответствии с новыми академическими требованиями.
Планы на будущее и дорожная карта
UNIwise продолжает развивать основу, созданную с Milvus. В ближайшей перспективе команда планирует перейти на Milvus 2.6, чтобы использовать многоуровневое хранилище для еще большей оптимизации затрат и воспользоваться новейшими улучшениями производительности.
В совокупности эти планы отражают приверженность UNIwise постоянному совершенствованию: снижению затрат, повышению производительности и обеспечению соответствия требованиям — при использовании Milvus в качестве масштабируемого ядра своей платформы обнаружения оригинальности.
Заключение
Путь UNIwise с WISEflow Originality показывает, как сфокусированная команда может бросить вызов отраслевым гигантам, сочетая предметную экспертизу с правильной технологической основой. Внедрив Milvus, UNIwise создала платформу выявления плагиата, которая экономически эффективна, многоязычна и масштабируема до миллиардов документов — возможности, которые традиционным системам на основе ключевых слов было сложно обеспечить.
Этот успех подчеркивает растущую важность векторных баз данных в образовательных технологиях. Milvus дал UNIwise возможность обрабатывать огромные рабочие нагрузки, быстро адаптироваться к новым требованиям и инвестировать инженерные ресурсы в функции, наиболее важные для университетов.
В перспективе UNIwise имеет все возможности продолжать формировать будущее цифровой оценки в Европе. С Milvus в качестве стратегической основы компания может расширять свои возможности обнаружения оригинальности, одновременно изучая новые возможности в семантическом поиске и учебных инструментах на базе ИИ.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


