Veridien, Milvus로 EU 정책 분석 강화

프리즘형 하이브리드 검색:
다각적 분석을 통해 지능을 정교화하며, 의미론적 이해와 키워드 정확성을 융합하여 EU의 32개 정책 영역 전반에 걸친 분류를 명확히 밝힙니다.
다국어 실시간 분석:
EU 정책 콘텐츠를 실시간으로 다국어 분류하여 즉각적인 인사이트를 제공합니다.
확장 가능한 지식 관리:
Policy Manager와 AI Semantic Wiki를 지원하여 수만 개의 문서를 효율적으로 처리합니다.
I really like how Milvus' hybrid search allowed me to blend semantic and keyword search, which is crucial in a domain as technical and complex as EU policy.
Alessandro Saccoia
Veridien 소개
Veridien은 인공지능과 EU 정책 분석의 교차점에 있는 스타트업입니다. AI 전문가, EU 법률 전문가, 물리학 박사 등으로 구성된 다학제 팀이 설립했습니다. 이 회사는 유럽 정책에 대한 깊은 도메인 지식과 최첨단 AI 역량을 결합하여 복잡한 정책 정보를 실행 가능한 인사이트로 전환합니다. Policy Manager라는 통합 솔루션은 실시간 분석, 지능형 분류, 자동화된 지식 관리 기능을 제공하여 이해관계자들이 EU 정책의 복잡한 환경을 탐색하고 이해할 수 있도록 돕습니다. 혁신적인 AI 접근 방식을 통해 방대한 EU 정책 정보 생태계를 의사결정자들이 더 쉽게 접근하고 실행에 옮길 수 있도록 만들고 있습니다.
기술적 과제: 대규모의 복잡한 정책 데이터 관리
Veridien은 EU 정책 분석 시스템을 구축하는 과정에서 몇 가지 중요한 과제에 직면했으며, 각 과제는 기존 데이터베이스를 넘어서는 역량을 필요로 했습니다:
Semantic Search도 Keyword search도 단독으로는 충분하지 않음
EU 정책 도메인은 이중 검색 과제를 제시했습니다. 첫째, 밀집 벡터를 사용하는 순수 의미 검색을 사용할 때, "energy policy"와 "environmental policy"처럼 유사한 정책 영역은 용어가 중첩되어 거의 구분하기 어려워졌습니다. 둘째, 정책 환경의 전문적이고 끊임없이 진화하는 용어(32개의 서로 다른 정책 영역 전반)는 정밀한 키워드 매칭 기능을 필요로 했습니다. 이는 의미적 이해와 기존 키워드 매칭을 결합할 수 있는 하이브리드 검색의 필요성을 보여주었습니다. 그러나 이러한 하이브리드 접근 방식을 구현하려면 단일 쿼리 내에서 의미 검색을 위한 밀집 벡터와 키워드 기반 매칭을 위한 희소 벡터를 모두 효율적으로 처리할 수 있는 벡터 데이터베이스가 필요했습니다.
언어 복잡성
EU 문서의 다국어 특성은 언어 간 의미적 관계를 유지할 수 있는 정교한 벡터 검색 시스템을 요구했습니다. 기존 데이터베이스는 교차 언어 검색에 어려움을 겪지만, 벡터 데이터베이스는 원래 언어와 관계없이 문서를 공유된 의미 공간에 표현할 수 있습니다. 과제는 다국어 검색 기능을 가능하게 하면서도 기술적 정밀성을 보존할 수 있는 솔루션을 찾는 것이었습니다.
솔루션: Milvus를 활용한 Hybrid Search가 완전한 정책 인텔리전스 플랫폼을 강화하다
Veridien은 Milvus로 구동되는 정교한 지식 관리 생태계를 개발했으며, 전통적인 키워드 검색과 현대적인 시맨틱 검색 기능을 결합했습니다. 이들의 아키텍처 핵심에는 Django의 견고한 백엔드와 Milvus의 벡터 검색 기능을 결합한 병렬 데이터베이스 시스템이 있습니다. 이 시스템들은 양쪽 간의 일관성을 유지하는 커스텀 래퍼 클래스를 통해 동기화됩니다. "저는 이전에 시맨틱(벡터) 데이터베이스만 사용한 적은 없었습니다." Veridien 공동 창업자 Alessandro Saccoia는 설명합니다. "기술 전문 용어가 많은 매우 수직적이고 깊이 있는 도메인에서는 여전히 일반적인 키워드 기반 검색이 필요하기 때문입니다. Milvus 하이브리드 검색이 이 두 가지 검색 방식을 결합할 수 있게 해준 점이 정말 마음에 듭니다." 이들의 구현은 이 하이브리드 검색 기능을 중심으로 이루어졌으며, 이는 EU 정책의 기술적 언어를 처리하는 데 매우 중요하다는 것이 입증되었습니다. 분류 정확도를 최적화하기 위해 Veridien은 밀집 벡터와 희소 벡터를 동시에 처리할 수 있는 Milvus의 기능을 활용합니다. "벡터 검색만 사용해 EU 정책 문서를 분류하려고 하면," Saccoia는 말합니다. "다차원 공간의 점들이 너무 가깝게 위치합니다. 50/50 가중치 분포를 적용한 이런 종류의 하이브리드 검색이 우리에게 최고의 결과를 제공했습니다." 각 문서는 다음을 생성하기 위해 병렬 처리를 거칩니다: 시맨틱 의미를 포착하기 위해 BGE-M3 임베딩 모델을 사용하는 밀집 벡터 도메인별 키워드를 강조하는 전략적으로 변환된 문서에서 생성된 희소 벡터 Veridien은 Milvus의 메타데이터 기능을 활용하여 사전 분류된 정책 문서의 성장하는 지식 베이스를 유지합니다. Milvus에 저장된 각 문서에는 정책 카테고리 분류가 포함된 메타데이터를 첨부합니다. 문서든 실시간 스트림이든 새로운 콘텐츠를 처리할 때, 시스템은 이 컬렉션을 대상으로 하이브리드 검색을 수행하여 가장 유사한 기존 문서를 찾습니다. 그런 다음 상위 100개의 유사 문서 메타데이터에 저장된 정책 카테고리의 다수결 투표를 통해 분류가 결정됩니다.
이 솔루션은 모두 Milvus의 벡터 검색 및 메타데이터 기능을 활용하는 세 가지 핵심 제품에 걸쳐 있습니다:
- Policy Manager는 Milvus의 하이브리드 검색과 메타데이터를 사용하여 모든 EU 도메인 전반의 정책 관련 콘텐츠를 자동으로 분류하고 정리합니다
- Stream Scope는 이 기능을 실시간 방송 분석으로 확장하여, 사전 분류된 콘텐츠와 매칭함으로써 의회 회의를 실시간으로 분류하는 데 Milvus를 사용합니다
- AI Semantic Wiki는 지식 베이스 역할을 하며, Milvus의 메타데이터 시스템을 사용하여 정책 문서 간의 관계를 저장하고 검색함으로써 상호 연결된 정책 지식 그래프의 구축을 가능하게 합니다
결과: 실시간 정책 인텔리전스의 민주화
- Milvus의 하이브리드 검색 구현은 탁월한 기술적 성능을 제공했습니다:
- 수만 건의 문서를 성공적으로 처리하면서도 32개 EU 정책 영역 전체에서 높은 분류 정확도를 유지합니다
- 의회 회의와 기자회견의 스트리밍 콘텐츠를 실시간으로 분류할 수 있게 합니다
- 기술적 정확성을 유지하면서 여러 언어 전반에서 일관된 성능을 유지합니다
비즈니스 영향은 Veridien과 그 고객 모두에게 혁신적이었습니다. 이들의 솔루션은 다음과 같은 몇 가지 핵심 방식으로 EU 정책 인사이트에 대한 접근을 민주화했습니다: 실시간 분석: 이전에는 정치인과 기업들이 EU 집행위원회 기자회견의 수동 전사에 수천 유로를 지불하고, 결과를 받기까지 수 시간 또는 며칠을 기다리곤 했습니다. 이제 Stream Scope는 이러한 인사이트를 즉시 제공하며, 콘텐츠를 32개의 공식 EU 정책 주제로 자동 분류합니다. 이는 정책 변화에 신속하게 대응해야 하는 이해관계자들에게 특히 가치가 있었습니다.
비용 효율적인 확장: 방대한 양의 다국어 콘텐츠를 효율적으로 처리하는 Policy Manager의 능력은 정교한 정책 분석을 더 넓은 범위의 조직이 이용할 수 있게 만들었습니다. 과거에는 정책 분석가 팀이 필요했던 작업을 이제는 자동화된 분류와 분석을 통해 수행할 수 있습니다.
향상된 의사결정: AI Semantic Wiki는 조직이 정책 간 관계를 이해하는 방식을 혁신하여, 여러 도메인에 걸친 연결성과 영향을 동시에 파악할 수 있게 했습니다. 사용자들은 출처나 언어에 관계없이 관련 정책 동향을 맥락 속에서 드러내는 시스템의 능력을 특히 높이 평가합니다.
포괄적인 커버리지: 세 제품 전반에서 Milvus의 하이브리드 검색 기능을 활용함으로써, Veridien의 시스템은 공식 입법 문서부터 실시간 의회 토론에 이르기까지 모든 EU 기관 전반의 정책 동향을 효과적으로 모니터링하고 분석할 수 있습니다. 이러한 포괄적인 커버리지는 이해관계자들이 관련 정책 동향이 어디에서 비롯되었든 절대 놓치지 않도록 보장합니다.
향후 개발
앞으로 Veridien은 다음을 통해 Milvus 활용을 강화할 계획입니다: 현재의 50/50 가중치를 넘어서는 고급 하이브리드 검색 구성을 탐색 보다 정교한 지식 그래프 애플리케이션을 위해 Milvus의 메타데이터 시스템 활용 확대 도메인별 키워드 처리를 위한 Milvus의 발전하는 기능 활용 팀은 정책 문서 간에 점점 더 복잡한 관계를 만들어, 서로 다른 정책 분야가 어떻게 상호 영향을 미치는지에 대한 더 깊은 분석을 가능하게 하는 것을 구상하고 있습니다. 이들은 고도로 기술적인 정책 분야에서 분류 정확도를 더욱 향상시키기 위해 다양한 정책 도메인에 따라 하이브리드 검색 가중치를 세밀하게 조정하는 데 특히 관심이 있습니다.


