업스테이지-플리토, 다국어 거대언어모델 데이터 구축한다
업스테이지-플리토, 다국어 거대언어모델 데이터 구축한다
  • 박시현 기자
  • 승인 2024.05.10 20:16
  • 댓글 0
이 기사를 공유합니다

일본어, 태국어 등 아시아권 다국어 데이터 구축 업무협약 맺어
업스테이지가 플리토와 다국어 거대언어모델 데이터를 구축한다는 내용의 업무협약을 체결했다. 권순일 업스테이지 부사장(오른쪽)과 플리토 이정수 대표
업스테이지가 플리토와 다국어 거대언어모델 데이터를 구축한다는 내용의 업무협약을 체결했다. 권순일 업스테이지 부사장(오른쪽)과 플리토 이정수 대표

[디지털경제뉴스 박시현 기자] 업스테이지는 AI 언어 데이터 기업 플리토와 AI 언어 데이터 구축을 위한 업무협약을 체결했다.

현재 빅테크 기업이 주도하는 거대언어모델(LLM) 개발은 영어에 편중돼, 상대적으로 아시아권의 언어는 학습 데이터가 부족한 실정이다. 양사는 일본어, 태국어 등 다국어 언어 데이터를 구축, 저자원 언어도 고품질 LLM을 개발할 수 있도록 기반을 다진다.

양사는 ▲한국어 언어모델 평가 플랫폼 ‘Open-Ko LLM 리더보드’ 벤치마크 데이터셋 구축 ▲다국어 LLM 리더보드 운영 ▲저자원 언어 데이터 구축 및 저자원 언어 활용 LLM 현지화 ▲기업용 LLM 구축에 따른 데이터 공급 파트너십 강화 등 다양한 분야에서 협력한다.

업스테이지는 이를 통해 고품질의 저자원 언어 데이터를 확보, 사전학습 LLM ‘솔라’의 지원 언어를 더욱 확장해 동남아시아 등 다양한 지역별 언어에 특화된 맞춤형 모델을 개발하겠다는 전략이다. 솔라는 현재 한국어, 영어를 지원하며, 연내 일본어와 태국어까지 지원 언어를 확대할 예정이다.

플리토는 언어 데이터와 AI 기술 간의 시너지를 통해 언어 모델의 고도화에 적극적으로 기여할 뿐 아니라, 다국어 병렬 말뭉치 구축 노하우와 저작권 이슈가 없는 텍스트·이미지·음성 데이터셋으로 언어 수집 기술 경쟁력을 높인다는 방침이다.

업스테이지 김성훈 대표는 “언어모델로 촉발된 생성형 AI 열풍이 전 세계를 뒤흔들고 있는 상황에서 양질의 언어 데이터 확보는 필수적인 과제”라며 “업스테이지는 이번 플리토와의 협력으로 전 세계 더 많은 사람들이 생성형 AI 혁신을 경험할 수 있도록 데이터 고도화에 나설 것”이라고 밝혔다.

플리토 이정수 대표는 "저자원 언어 학습분야는 초거대언어모델 성능의 핵심 요소로 부상했다”며 “양사 협력으로 고품질 데이터와 고도화된 기술 간의 접목이 국내 생성형 AI 생태계에 얼마나 긍정적으로 기여할 수 있는지를 보여주겠다”고 말했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.