메타, 최신 대규모 언어모델 ‘라마3’ 오픈소스로 공개
메타, 최신 대규모 언어모델 ‘라마3’ 오픈소스로 공개
  • 박시현 기자
  • 승인 2024.04.20 09:23
  • 댓글 0
이 기사를 공유합니다

80억개와 700억개 매개변수 모델 2종, 고도화된 사전훈련과 미세조정으로 성능 개선

[디지털경제뉴스 박시현 기자] 메타가 최신 대규모 언어모델(LLM) ‘라마3’를 오픈소스로 공개했다.

이번에 공개된 라마3는 사전훈련과 미세조정을 마친 80억 개(8B)와 700억 개(70B) 매개변수 모델 두 가지다. 두 모델은 현재 동급의 오픈소스 모델 중 최고 수준의 성능인 것으로 평가받는다. ‘대규모 다중작업 언어 이해(MMLU)’를 포함한 다양한 업계 표준 벤치마크에서 높은 성적을 받았으며, 추론과 코드 생성, 지시 수행에서 성능이 크게 개선됐다.

라마3의 성능 향상은 모델의 사전훈련과 사후훈련 과정을 고도화함으로써 이뤄졌다. 사전훈련을 위해 데이터셋의 양을 늘리고, 필터링 과정을 거쳐 고품질 데이터만을 선별했다.

라마3는 15조 이상의 토큰으로 훈련됐다. 이는 라마2 대비 7배 이상 많으며 코드량은 4배 더 많다. 또한 라마3의 사전훈련에는 일상적인 질문부터 과학, 기술, 공학, 수학(STEM) 분야, 코딩, 역사 지식에 이르기까지 다양한 분야의 데이터셋이 사용됐다. 아울러 사전훈련의 규모를 확대하고 보다 고도화된 ‘지시 미세조정’ 과정을 진행했다.

오픈소스로 공개된 라마3는 안전하고 책임감 있는 개발과 사용을 위해 다양한 안전장치도 마련했다. 지시 미세조정된 모델은 전문가와 자동화된 도구를 활용한 레드팀 훈련을 통해 부적절한 답변의 가능성을 최소화했다. 또한 ‘라마 가드2’, ‘코드 쉴드’, ‘사이버 보안 평가 기준2’와 같은 안전장치와 더불어 새로운 안전 도구들도 도입했다. 이밖에 대규모 언어모델을 책임감 있게 사용하는 방법을 설명하는 가이드라인을 이번 라마3 공개와 함께 업데이트했다.

메타는 좀더 투명하고 안전한 AI 개발을 위한 개방형 접근 방식에 따라, 8B와 70B 매개변수 모델을 먼저 선보이고 연구원과 개발자의 피드백에 따라 발전시켜나갈 방침이다. 현재 훈련 중인 더 큰 규모의 모델 역시 추후 오픈소스로 공개할 계획이다. 라마3를 더 긴 컨텍스트를 이해하는 다국어 멀티모달 모델로 발전시키고, 전반적인 성능을 지속 개선시키는 것이 궁극적인 목표다.

라마3 모델은 홈페이지에서 다운로드가 가능하며 AWS, 데이터브릭스, 구글 클라우드, 허깅페이스, IBM 왓슨x, 마이크로소프트 애저 등 다양한 플랫폼에도 공개될 예정이다. 하드웨어 측면에서는 AMD, AWS, 델, 인텔, 엔비디아와 퀄컴이 파트너로 함께한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.