무하유, '국회도서관 융복합서비스 데이터셋 구축 사업' 마쳐
무하유, '국회도서관 융복합서비스 데이터셋 구축 사업' 마쳐
  • 박시현 기자
  • 승인 2024.02.15 20:30
  • 댓글 0
이 기사를 공유합니다

AI 의정분석 서비스 '아르고스'에 법률 관련 Q&A 데이터셋 구축…‘난해한 법률 용어, 대화형 문답으로 손쉽게 설명’

[디지털경제뉴스 박시현 기자] 무하유가 '국회도서관 융복합서비스 데이터셋 구축 사업'을 마쳤다고 15일 밝혔다.

무하유는 이번 사업을 통해 국회도서관에서 제공 중인 AI 의정분석 서비스 '아르고스'에 법률 관련 Q&A 데이터셋을 구축, 이를 통해 국회 및 공공 관련 법규 등 법률 관련 질의사항에 대화형 문답으로 쉽게 설명함으로써 이용자의 편의성을 높였다.

무하유는 원활한 사업 추진을 위해 법률 지식을 보유한 전문가들을 포함한 데이터셋 구축인력을 구성했다. 이는 법률에 관련 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등 광범위한 영역을 포함하는 고품질 데이터셋 구축으로 이어졌다.

HWP와 PDF 파일 내 법률 관련 통계 표 또는 이미지의 제목 및 매칭 키워드 데이터도 구축해 국회도서관의 콘텐츠 품질을 강화했다. 표 및 이미지 데이터 구축은 무하유의 표절검사 서비스 내에 적용된 이미지 인식 및 추출 기술을 활용해 자동으로 해당 데이터를 추출한 후, 다차원의 품질 검수를 실시하는 식으로 이뤄졌다.

한편, 무하유는 700만건 이상의 AI 학습 데이터를 구축해 온 노하우를 토대로 데이터 관리 올인원 플랫폼인 ‘데이터 팩토리(DF)’를 활용해 데이터셋 구축에 효율을 높였다. DF는 AI 적용 솔루션을 운영하는 과정에서 필요한 데이터를 자체적으로 구축한 후 정제 및 가공하기 때문에 인력소싱, 계약, 데이터 구축, 품질관리, 저작권 관리까지 가능하다는 장점이 있다. 반면, 일반적인 데이터 구축·라벨링 업체는 라벨링 후 납품까지의 역할만 수행하고, 납품 이후의 실제 데이터셋 활용에 대해서는 고려하지 않는 경우가 많다는 점에서 큰 차이를 보인다.

AI 학습데이터에 대한 저작권 및 소유권 우려도 해소할 수 있다. DF는 작업자별 품질 관리가 가능하고, 저작권 관계를 명확히 할 수 있어 법적 분쟁 요소나 품질 저하 요소 최소화가 가능하다. 전통적인 데이터베이스 구축 사업은 인력 공급 및 일정 준수에 초점이 맞춰져 있으며, 저작권 등 잠재적 위협에는 상대적으로 취약한 것으로 알려져 있다.

무하유는 2011년 AI 기반 표절검사 서비스인 '카피킬러'를 선보인 후 3500여개 고객사에 서비스를 제공하고 있다. 카피킬러는 무하유만의 고도화된 NLU(자연어이해) 기술에 기반한 서비스로, 국내외 논문·법률·실시간 콘텐츠 등 다양한 텍스트 기반 데이터를 수집, 정제, 처리하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.