알리바바 다모 아카데미, 동남아시아 LLM ‘SeaLLM’ 2종 내놔
알리바바 다모 아카데미, 동남아시아 LLM ‘SeaLLM’ 2종 내놔
  • 박시현 기자
  • 승인 2023.12.20 10:58
  • 댓글 0
이 기사를 공유합니다

동남아시아 지역의 다양한 언어 특성 충족 위해 설계

[디지털경제뉴스 박시현 기자] 알리바바그룹의 글로벌 연구 이니셔티브인 다모 아카데미(DAMO Academy)가 동남아시아 거대 언어 모델(LLM) ‘SeaLLM(Southeast Asia LLM)’ 2종을 출시했다.

‘SeaLLM’은 동남아시아 지역의 다양한 언어 특성을 충족하기 위해 특별히 설계된 것으로 130억 개 매개변수와 70억 개 매개변수 버전으로 제공된다.

이번에 선보인 두가지 SeaLLM은 베트남어, 인도네시아어, 태국어, 말레이어, 크메르어, 라오스어, 타갈로그어, 버마어 등 개별 지역 언어에 각각 최적화된 지원을 제공한다.

대화형 모델인 SeaLLM-챗은 독자적 문화 특성에 뛰어난 적응성을 보여, 현지 관습, 스타일, 법적 프레임워크에 부합하는 결과를 조성해 동남아시아 시장에 진출하는 기업에게 매우 유용한 ‘챗봇 어시스턴트’로 부상하고 있다는 게 알리바바 측의 설명이다.

현재 SeaLLM은 ‘허깅페이스에서 오픈소스로 제공되며, 연구 및 상업적 용도로 사용할 수 있다.

난양공과대학교 컴퓨터과학 및 공학부 루안 투안(Luu Anh Tuan) 조교수는 “알리바바는 다국어 LLM 개발에 인상적인 행보를 펼치고 있다. 이번 이니셔티브는 영어와 중국어 외 언어를 사용하는 수백만명에게 새로운 기회를 열어줄 수 잠재력을 가지고 있다”고 전했다.

SeaLLM 기초 모델들은 동남아시아의 언어를 포함한 높은 품질의 다양한 데이터 세트를 사전 훈련해 상황의 맥락과 현지 대화의 뉘앙스까지 이해할 수 있다. 이 작업은 정교한 미세 조정 기술과 맞춤형 다국어 데이터 세트를 활용하는 SeaLLM-챗 모델의 기반이 된다. 결과적으로 해당 모델을 활용한 ‘챗봇 어시스턴트’는 사회적 규범과 관습, 선호하는 스타일, 법적 고려사항 등 해당 언어의 문화적 맥락을 이해에서 나아가 존중을 표현하고, 지역에 맞는 문화적 맥락을 정확히 반영할 수 있다.

특히 SeaLLM에서 주목할 기술적 장점은 라틴어 계열이 아닌 언어에 대한 효율성이 높다는 점이다. 버마어, 크메르어, 라오스어, 태국어 등 비라틴어에 대해 챗GPT 등의 모델보다 최대 9배 더 긴 텍스트를 해석하고 처리하거나, 동일한 길이의 텍스트에 대해 더 적은 수의 토큰을 사용해 상대적으로 더 복잡한 작업을 실행하고, 운영 및 컴퓨팅 비용을 절감하고 환경 발자국을 감소시킬 수 있다.

한편, 130억 개의 파라미터를 갖춘 SeaLLM-13B는 광범위한 언어, 지식 관련 및 안전 작업에서 동급의 오픈 소스 모델을 능가해 LLM 성능에 대한 새로운 기준을 제시한다. SeaLLM은 초등학교부터 대학 입시까지 시험지로 구성된 벤치마크인 ‘M3Exam벤치마크’에서 동남아시아 언어로 된 과학, 화학, 물리학, 경제학 등의 다양한 과목을 심도 있게 이해해 동급 모델보다 뛰어난 성능을 보였다.

또한 라오스어, 크메르어 등 대화형 AI 시스템 학습을 위한 데이터가 제한적인 저자원 언어와 영어 간의 기계번역 능력을 평가하는 ‘플로레스(FLORES) 벤치마크’에서도 SeaLLM은 기존 모델을 능가했으며, 베트남어, 인도네시아어 등 대부분의 고자원 언어에서는 최첨단(SOTA) 모델과 동등한 수준의 성능을 제공한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.