알리바바 클라우드, 70억개 파라미터 갖춘 LLM을 오픈소스로 공개

‘Qwen-7B’와 ‘Qwen-7B-챗’, MAU 1억 명 이하 기업 상업적 용도로 무상 사용 가능

[디지털경제뉴스 박시현 기자] 알리바바 클라우드가 70억 개의 파라미터를 갖춘 대규모 언어 모델(LLM)을 오픈소스로 공개했다. 이번에 공개된 LLM은 사전 학습된 70억 개의 파라미터 모델인 ‘Qwen-7B’와 회화적으로 세밀하게 조정된 버전인 ‘Qwen-7B-챗’ 등이다.

지난 4월 초, 알리바바 클라우드는 70억 개 이상의 파라미터를 포함한 다양한 모델 사이즈를 제공하며 중국어와 영어 모두 인간이 생산하는 것에 준하는 높은 수준의 콘텐츠를 생성할 수 있는 독자적인 첨단 LLM ‘통이치엔원(Tongyi Qianwen)’을 공개한 바 있다.

알리바바 클라우드는 전 세계 학계와 연구기관, 영리단체들이 모델의 코드와 가중치, 문서에 무료로 접근할 수 있도록 개방할 예정이다. 월간 활성 이용자(MAU) 수가 1억 명 이하인 기업들은 이 모델을 상업적 용도로 무상 사용할 수 있으며, 1억 명 이상의 사용자를 보유한 프로그램들의 경우 알리바바 클라우드에 라이선스를 요청할 수 있다.

Qwen-7B는 2조 개 이상의 토큰에 대해 사전 학습됐으며, 이는 중국어, 영어, 기타 다국어 자료, 코드, 수학 등 일반 및 전문 분야를 포괄한다. 또한 8K에 달하는 컨텍스트 길이를 갖추고 있다.

Qwen-7B-챗 모델은 학습 과정에서 인간의 지시사항에 맞추어 조정됐다. Qwen-7B와 Qwen-7B-챗 모델은 클라우드와 온프레미스 인프라 모두에서 배포될 수 있으며, 이를 통해 사용자들은 모델을 세밀하게 조정할 수 있고 효과적으로 자체적인 고품질 생성형 모델을 구축할 수 있다.

사전 학습된 Qwen-7B 모델은 MMLU(Massive Multi-task Language Understanding, 대규모 다중작업 언어 이해) 벤치마크에서 56.7점의 괄목할 만한 성과를 거두며 유사하거나 일부 더 큰 규모의 여타 주요 사전학습 오픈소스 모델들의 성능을 능가했다. 이 벤치마크는 초등 수학, 컴퓨터 과학, 법률 등 57가지의 다양한 과업을 수행하는 텍스트 모델의 다중 작업 정확도를 평가한다.

Qwen-7B는 기초 모델을 위한 종합적인 중국어 평가 테스트인 C-이벌(C-Eval)에서 동등한 파라미터를 가진 모델 중 가장 높은 점수를 기록하기도 했다.

알리바바 클라우드는 지난 7월 개발자와 중소기업의 창의적 이미지 표현을 지원하는 AI 이미지 생성기 '통이 완샹(Tongyi Wanxiang)'을 공개했다. 또한 모델스코프의 다양한 AI 모델을 활용해 언어, 시각, 음성 영역에서 복잡하고 전문화된 AI 작업을 수행하는 데 활용할 수 있는 다용도 프레임워크 ‘모델스코프GPT’를 선보였다. 알리바바 클라우드가 지난해 출시한 모델스코프는 20개의 AI 연구기관들이 제공한 1,000개 이상의 AI 모델을 보유한 오픈소스 AI 모델 커뮤니티다.

박시현 기자 다른기사 보기