UNIwise가 Milvus로 확장 가능한 표절 탐지 플랫폼을 구축한 방법

비용 효율적
어떤 규모에서도
10,000개 이상의 문서
단일 배치에서의 원활한 처리, 수백억 개 벡터로 확장할 수 있는 경로
더 스마트한 표절 감지
의미 유사도 검색을 통해 유럽 언어 전반에서
더 빠른 혁신
새로운 기능을 구축하기 위한 엔지니어링 시간을 더 많이 확보하여
Milvus transformed our ability to detect semantic plagiarism at scale. We can now process variable workloads ranging from 10 to 10,000+ documents daily while maintaining cost-effectiveness, which would have been impossible with traditional solutions.
Teis Petersen
UNIwise 소개
UNIwise는 12년 이상 대학들이 신뢰해 온 온라인 시험 솔루션 분야의 선도적인 유럽 제공업체입니다. 덴마크에 본사를 둔 이 회사는 스칸디나비아, 영국 및 그 외 지역의 기관들을 지원합니다. 주력 플랫폼인 WISEflow는 시험 생성 및 전달부터 채점, 피드백, 대학 Learning Management Systems (LMS)와의 통합에 이르기까지 전체 평가 수명주기를 포괄합니다.
이러한 기반을 바탕으로 UNIwise는 Milvus 기반의 의미론적 표절 탐지 시스템인 WISEflow Originality,를 출시했습니다. 경쟁 벡터 데이터베이스 솔루션 대신 Milvus를 선택함으로써 UNIwise는 수십억 개의 문서까지 확장할 수 있는 비용 효율적인 플랫폼을 만들었습니다. 현대적인 아키텍처와 지능형 확장 전략을 통해 WISEflow Originality는 엔터프라이즈급 성능과 안정성을 제공하며, 대학에 학문적 진실성을 보장할 수 있는 강력한 도구를 제공합니다.
과제: 레거시 표절 탐지를 넘어서는 확장
많은 유럽 대학들이 디지털 평가 활용을 확대하면서, 많은 기관들이 레거시 표절 탐지 도구의 한계를 넘어서기 시작했습니다. Turnitin과 같은 기존 시스템은 운영 비용이 높고 증가하는 콘텐츠 양에 맞춰 확장하는 데 어려움을 겪는 전통적인 텍스트 매칭 기법에 크게 의존했습니다. 이러한 방법은 의미론적 유사성을 포착하지 못하는 경우가 많아, 서로 다른 언어 간에 바꿔 쓴 콘텐츠를 탐지하기 어렵게 만들었습니다. 이는 유럽 기관들에게 핵심적인 요구사항입니다.
이러한 수요를 충족하기 위해 UNIwise는 비용을 관리 가능한 수준으로 유지하면서 수십억 개의 문서 간 비교를 처리할 수 있는 플랫폼인 WISEflow Originality를 만들고자 했습니다. 이 시스템은 단순한 텍스트 일치를 넘어서는 의미론적 이해가 필요했으며, 덴마크어, 노르웨이어, 스웨덴어, 독일어, 영어, 스페인어를 포함한 여러 유럽 언어를 지원해야 했습니다. 동시에 WISEflow와 원활하게 통합되고, 24시간 SLA 내에 결과를 제공하며, 인프라 오버헤드를 최소화해야 했습니다.
비즈니스 관점에서 UNIwise는 소규모 엔지니어링 팀으로 복잡한 데이터 처리 플랫폼을 구축하면서 훨씬 더 큰 자원을 가진 기존 강자들과 경쟁해야 하는 과제에 직면했습니다. 또한 엔터프라이즈 규모에서 운영 효율성과 비용 효율성을 유지하면서 대학 계약을 위한 EU 공공 입찰 절차도 헤쳐 나가야 했습니다.
솔루션: Milvus로 의미론적 탐지 엔진 구축
WISEflow Originality를 구현하기 위해 UNIwise는 곧 벡터 데이터베이스가 전통적인 텍스트 매칭 접근 방식 비용의 일부만으로 필요한 의미론적 비교와 확장성을 제공할 수 있다는 사실을 깨달았습니다. 그들은 Milvus, Weaviate, Redis Vector Search, OpenSearch를 포함한 여러 벡터 검색 솔루션을 대상으로 철저한 평가를 수행했습니다. 각 옵션은 안정성, 대규모 데이터셋에 대한 확장성, 성능 최적화, 표준 준수, 커뮤니티 및 지원, 기존 도구와의 호환성을 포함한 가중 기준에 따라 평가되었습니다.
Milvus가 선택된 이유
Milvus는 여러 측면에서 가장 적합한 솔루션으로 부상했습니다. 문서화 품질은 결정 요인 중 하나였으며, UNIwise의 엔지니어링 팀 리드인 Teis Petersen은 다음과 같이 언급했습니다: “벡터 데이터베이스를 운영해야 하는데 경험이 없다면, 정말로, 정말로 좋은 문서가 필요합니다. 그것은 정말로, 정말로 핵심입니다.” Milvus는 온보딩을 가속화하는 명확하고 접근하기 쉬운 문서를 제공했습니다.
그만큼 중요한 점은 Milvus가 벡터 연산을 위해 특별히 설계되었다는 것입니다. 벡터 검색 기능을 덧붙인 범용 데이터베이스와 달리, Milvus는 뛰어난 확장성과 성능을 제공합니다. 규모가 크고 활발한 오픈 소스 커뮤니티와 현대적인 클라우드 네이티브 아키텍처 역시 UNIwise가 장기적인 지원과 유연한 배포 전략에 대해 확신을 갖게 했습니다.
기술 아키텍처
Milvus를 핵심으로 하여 UNIwise는 완전 비동기식 데이터 처리 파이프라인을 구현했습니다. 이 시스템은 384차원 벡터를 사용하는 MiniLM 다국어 문장 유사도 모델과 함께 Milvus를 활용합니다. 추가 구성 요소로는 문서 레이아웃 감지를 위한 YOLO v3와 텍스트 추출을 위한 OCR 모델이 포함됩니다. 오케스트레이션 계층은 API 관리 및 워크플로 조정을 위한 Go 서비스와 머신 러닝을 위한 Python 서비스를 결합하며, MLflow 모델 저장소의 지원을 받습니다. 모든 구성 요소는 AWS EKS 서비스의 관리형 클러스터에 배포됩니다.
엔드투엔드 워크플로는 WISEflow에서 문서를 수집하는 것으로 시작되며, 이어서 제목과 페이지 번호 같은 관련 없는 요소를 제거하기 위해 레이아웃 감지가 수행됩니다. 그런 다음 텍스트가 추출, 분할되고 MiniLM 모델을 사용해 벡터로 임베딩됩니다. Milvus는 이러한 임베딩을 인덱싱하고 유사도 검색을 수행한 뒤, 결과가 집계되어 WISEflow 인터페이스 내에 직접 표시됩니다.
Milvus가 UNIwise의 성과 달성을 도운 방법
UNIwise는 WISEflow Originality의 검색 기반으로 Milvus를 선택함으로써 직면했던 기술적 과제를 쉽게 해결했습니다. 이제 이 플랫폼은 기존 표절 탐지 도구가 따라올 수 없는 방식으로 비용 효율성, 확장성, 고급 탐지 기능을 결합합니다.
확장하면서 비용 관리하기
Milvus의 클라우드 네이티브 설계는 UNIwise에 필요에 따라 리소스를 유연하게 확장 및 축소할 수 있는 능력을 제공했습니다. 이러한 접근 방식을 채택함으로써, UNIwise는 대량의 데이터에도 불구하고 인프라 비용을 지속 가능한 수준으로 유지할 수 있습니다.
벡터 검색을 통한 더 스마트한 표절 탐지
키워드 또는 문자열 매칭에 제한된 기존 시스템과 달리, Milvus는 다국어 콘텐츠 전반에서 의미적 유사도 검색을 가능하게 합니다. MiniLM 모델과 결합하면, 이를 통해 UNIwise는 7개 유럽 언어에서 의역되고 재구성된 표절을 탐지할 수 있습니다.
모든 워크로드를 위한 확장성
Milvus에서 인덱싱과 검색을 분리함으로써 UNIwise는 각 기능을 독립적으로 확장할 수 있었습니다. 이를 통해 소수의 문서부터 단일 배치에서 10,000개가 넘는 문서까지 다양한 워크로드를 처리할 수 있었으며, 향후 수백억 개의 벡터로 확장할 수 있는 명확한 경로도 확보했습니다. 이제 시스템은 주요 아키텍처 변경 없이도 대학의 요구에 맞춰 성장할 수 있습니다.
소규모 팀을 위한 운영 안정성
Milvus는 UNIwise에 신뢰할 수 있는 백본을 제공하여 강력한 오류 처리를 지원했습니다. 포괄적인 문서와 대규모 오픈 소스 커뮤니티의 가용성 또한 학습 곡선을 완화하여, UNIwise의 소규모 엔지니어링 팀이 과도한 부담 없이 시스템을 유지 관리하고 확장할 수 있게 했습니다.
중요한 기능에 더 많은 시간 투자
Milvus가 대규모 유사도 검색의 부담이 큰 작업을 처리함으로써, UNIwise는 대학에 중요한 기능을 구축하는 데 집중할 수 있었습니다. 오픈 소스 생태계는 계속해서 개발을 가속화하고 있으며, WISEflow Originality가 새로운 학문적 요구 사항을 충족하도록 발전하면서 기존 제공업체에 맞서 경쟁력을 유지하도록 보장합니다.
향후 계획 및 로드맵
UNIwise는 Milvus로 구축한 기반을 계속 발전시키고 있습니다. 단기적으로 팀은 더 큰 비용 최적화를 위한 계층형 스토리지를 활용하고 최신 성능 향상의 이점을 얻기 위해 Milvus 2.6으로 업그레이드할 계획입니다.
이러한 계획들은 UNIwise의 지속적인 개선에 대한 의지를 보여줍니다. 즉, Milvus를 독창성 탐지 플랫폼의 확장 가능한 핵심으로 활용하면서 비용을 절감하고, 성능을 개선하며, 규정 준수를 보장하는 것입니다.
결론
UNIwise의 WISEflow Originality 여정은 집중력 있는 팀이 도메인 전문성과 올바른 기술 기반을 결합함으로써 어떻게 업계 거대 기업에 도전할 수 있는지를 보여줍니다. Milvus를 도입함으로써 UNIwise는 비용 효율적이고, 다국어를 지원하며, 수십억 개의 문서로 확장 가능한 표절 탐지 플랫폼을 만들었습니다. 이는 기존 키워드 기반 시스템이 제공하기 어려웠던 역량입니다.
이 성공은 교육 기술에서 벡터 데이터베이스의 중요성이 점점 커지고 있음을 보여줍니다. Milvus는 UNIwise가 대규모 워크로드를 처리하고, 새로운 요구사항에 빠르게 적응하며, 대학에 가장 중요한 기능에 엔지니어링 리소스를 투자할 수 있는 역량을 제공했습니다.
앞으로 UNIwise는 유럽의 디지털 평가 미래를 계속해서 형성해 나갈 위치에 있습니다. Milvus를 전략적 중추로 삼아, 이 회사는 독창성 탐지 기능을 확장하는 동시에 시맨틱 검색과 AI 기반 학습 도구에서 새로운 기회를 모색할 수 있습니다.
If I were to choose again, I would still choose Milvus at this point. The scalability, documentation quality, and continuous innovation make it the right foundation for our plagiarism detection platform.
Teis Petersen


