SKT ‘에이닷’, 대화 중에 사진 보여주며 ‘사람처럼’ 소통

한국어 기반 10억장의 ’이미지-한글 텍스트 쌍’ 학습 데이터 구축해 초거대 멀티모달 AI 학습

[디지털경제뉴스 김달 기자] SK텔레콤이 이용자의 오래된 정보를 기억하고 대화 중에 관련 사진도 스스로 제시하며 ‘사람처럼’ 소통할 수 있는 ‘에이닷(A.)’ 서비스의 업데이트 내용을 공개했다.

SKT는 이용자가 에이닷과 오래 전에 대화했던 내용 중 중요한 정보를 기억해주는 ‘장기기억’ 기술과 다양한 영역에서 수집된 이미지와 한글 텍스트를 동시에 학습해 사람과 흡사하게 생각하고 스스로 표현할 수 있는 ‘이미지 리트리벌’ 기술을 적용했다,

이를테면 고객이 에이닷에게 “배가 고픈데 뭘 먹을까?”라고 말하면 “너 치즈피자 좋아하잖아”(장기기억 기술)와 함께 “치즈피자 먹는게 어때?”라고 동조하며, 수많은 종류의 피자 이미지 중에 치즈피자를 찾아내 제시하는 식으로 사람과 흡사한 대화가 가능해졌다.

또 에이닷을 통해 방대한 양의 지식을 얻는 것 뿐 아니라 친구처럼 기억해주고 사소한 대화도 나눌 수 있는 ‘감성 대화’에 초점을 맞춰 고객에게 보다 친숙한 AI 경험을 전하는 것에 주안점을 뒀다.

SKT는 에이닷에 ‘이미지 리트리벌’ 기술을 적용했다. 이를 위해 SKT는 한국어 기반 10억장의 ’이미지-한글 텍스트 쌍’ 학습 데이터를 구축해 초거대 멀티모달 AI를 학습시켰다. 이는 최대 규모의 데이터 구축이며 한국적인 특성이 구체적으로 반영되었다는 측면에서 의미가 크다고 SKT는 설명했다.

이용자가 에이닷에 발화를 하면 제시된 텍스트를 텍스트 인코더를 통해 인식하고 관련 이미지를 각각 카테고리로 분류한 후 적합한 이미지를 찾는다. 이미지 인코더는 자연어를 기반으로 정확한 이미지 분류를 수행할 수 있는 일종의 신경망이다. 이를 통해 수 많은 이미지 데이터 중에 명령어와 가장 적합한 이미지를 분류할 수 있다. 예를 들어 ‘햇살이 비치는 창문’와 ‘김치가 놓여있는 라면’ 식으로 세부 정보가 표현된 이미지를 찾아 제시한다.

에이닷이 ‘장기기억’ 기술을 통해 오래 전에 대화했던 내용 중 취미, 직업, MBTI 유형 등 중요한 정보를 별도의 메모리에 저장해두고 사람이 마치 뇌 속에서 오래된 기억을 끄집어 내 듯이 대화를 이어갈 수 있고 ‘이미지 리트리벌’ 기술을 통해 대화에 관련된 이미지를 제시하면서 이용자의 말에 맞장구를 치거나 재질문하는 등 재미있고 센스 있는 대화가 오고 갈 수 있다.

한편 SKT는 에이닷 캐릭터에 펭수, 잔망루피, 뽀로로를 새롭게 추가하고 각 캐릭터에 ‘AI 음성 합성 기술’을 적용, 캐릭터 고유의 목소리와 유사한 AI 목소리를 구현했다.

고객은 에이닷 내에서 원하는 캐릭터로 언제든 선택·변경할 수 있으며, 이를 통해 보다 친숙한 AI 경험을 고객들에게 제공할 수 있다.

SKT는 이밖에 국내 영어교육기업인 YBM, 야나두, 하얀마인드와 제휴를 통해 영어학습 서비스인 ‘에이닷 튜터(A.tutor)’도 선보였다. 이용자는 ‘에이닷 튜터’를 통해 비즈니스·일상회화·공인시험 등 필요한 영어 어휘와 표현, 오디오 학습 콘텐츠, 영상 속 영어 문장을 직접 조합해 보는 ‘쉐도잉’ 학습 등을 이용할 수 있다.

SKT는 지난 해 5월 초거대 AI 서비스 ‘에이닷’을 출시하고, 별도의 설치가 필요 없는 ‘에이닷 게임(A.game)’, 이용자의 시청 이력과 선호도 기반으로 추천 채널 제공하는 ‘에이닷 티브이(A.tv)’, AI가 알아서 사진 편집을 해주는 ‘에이닷 포토(A.photo)’, 이번에 영어학습 서비스 ‘에이닷 튜터까지 출시하며 서비스를 지속적으로 업그레이드하고 있다.

김달 기자 다른기사 보기