라인과 네이버의 AI 관련 논문 14편, ‘ICASSP’에 채택
라인과 네이버의 AI 관련 논문 14편, ‘ICASSP’에 채택
  • 이동진 기자
  • 승인 2021.02.26 20:14
  • 댓글 0
이 기사를 공유합니다

공동연구논문 2편 포함, 음성 합성 품질 개선 및 음성 인식률 향상 연구면에서 우수성 입증

[디지털경제뉴스 이동진 기자] 라인과 네이버는 국제 음향·음성·신호처리 학술대회 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)에 라인과 네이버의 AI 관련 논문 14편이 채택됐다고 밝혔다. 공동연구논문 2편이 포함돼 있다.

올해로 46회차를 맞이하는 ICASSP는 국제전기전자협회 신호처리학회(IEEE Signal Processing Society)가 주최하는 음향·음성·신호처리 분야 세계 최대 규모의 국제학회이다.

올해는 3,600편 이상의 논문이 등록됐으며, 이 가운데 약 1,700편의 논문이 채택됐다. 오는 6월 온라인으로 개최되는 ‘ICASSP 2021’에서 발표될 예정이다.

라인은 AI 연구개발 및 기술 활용 분야에서 네이버 클로바 및 AI LAB과 긴밀하게 협력하고 있다. 데이터 기반 개발, 데이터 분석, 머신러닝, AI 기술 개발, 기초연구 등을 담당하는 각 팀은 각자의 영역을 넘어 연계함으로써 연구, 개발, 사업화로 이어지는 사이클을 강화하고 있다.

이와 함께 라인 및 네이버는 AI 관련 서비스 및 기능 개발을 뒷받침하는 기초연구 뿐만 아니라 머신러닝 기반의 음성 처리, 언어 처리, 화상 처리 등에 주력하고 있다.

음향·음성 및 신호처리의 경우, GPU를 활용한 ‘Parallel WaveGAN’을 이용해 빠른 속도와 높은 품질을 실현하는 ‘음성 합성 기술’, 음성 품질과 음성 인식률 향상을 위해 다양한 소리가 혼합된 소리를 각각의 소리로 분리하는 ‘음원 분리 기술’, 기계를 이용해 주변에서 발생하는 다양한 소리를 자동으로 검출 및 인식하는 ‘환경음 인식 기술’을 지속적으로 연구하고 있다.

이번 ‘ICASSP 2021’에서는 음성 합성 관련 ‘생성적 대립 신경망(GAN: Generative Adversarial Network)을 이용해 비 자기회귀형 음성 생성 모델 ‘Parallel WaveGAN’에서 유성음·무성음 정보를 활용, 식별기를 개량한 연구를 소개했다.

단일 식별기를 이용한 기존 ‘Parallel WaveGAN’은 식별기의 표현력과 학습을 제한해 여러 화자의 말뭉치에 적용할 경우 품질이 저하된다는 문제점이 있었다.

이번 연구에서는 유성음과 무성음의 음성 성질이 상이하다는 점에 착안, 각 음성의 성질에 맞는 식별기를 설계해 합성 음성의 품질을 크게 개선시켰다. 또한, 순차적인 연구이기는 하지만 총 4명의 남녀 화자를 대상으로 대규모 주관평가실험을 실시, 해당 접근법의 유효성을 검증한 것이 높이 평가받았다.

라인과 네이버는 또 음원 분리와 관련해 심층 학습을 사용하지 않는 음원 분리 방식인 ISS(Iterative Source Steering)와 심층 학습을 이용한 음원 모델 추정 방식을 접목시킨 새로운 방식을 제안했다.

기존 ISS보다 음성 인식률을 크게 향상시킨 점과 더불어 해당 접근법이 음원 수에 의존하지 않아도 적용 가능한 프레임워크라는 점에서 우수성을 입증했다.

라인과 네이버는 앞으로도 적극적인 AI 기초 연구를 통해 기존 서비스의 품질을 더욱 높이고, 새로운 기능과 서비스를 선보일 계획이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.