기업나라
주메뉴 바로가기 본문 바로가기
Zoom In
척 하면 척! 눈치 9단 음성인식
음성인식

 

올해 IT업계의 주인공은 단연 인공지능 스피커다. 글로벌 IT 기업들이 잇따라 음성 비서 서비스를 선보이고 있다. 인공지능 서비스 전쟁의 이면에 ‘누가 더 말귀를 잘 알아듣나’를 겨루는 음성인식 전투가 벌어지고 있는 것이다. 한때 별 볼일 없는 기술로 치부되던 음성인식. 그러나 앞으로 한동안은 음성인식 부문의 승자가 IT 서비스 생태계의 주도권을 쥘 공산이 커졌다.

다시 음성인식이다
세상을 지배하려는 야심을 가진 인공지능(AI)이 자신의 파트너로 음성인식을 택한 듯하다. 이미 지략가로 빅데이터를 파트너로 선택한 인공지능에겐 자신과 사람 사이의 가교 역할을 해줄 수단이 필요했을 터. 소비자들이 조금이라도 불편함을 느끼는 서비스는 살아남을 수 없는 시대임을 깨달은 인공지능은 ‘손 하나 까딱하지 않고도’ 원하는 서비스를 제공해주는 음성인식과 손을 맞잡았다.
그 조짐은 스마트폰 시장에서 확인할 수 있다. 더 이상 새로울 것이 없는 스마트폰 시장에서 최근 ‘손 안의 개인비서’라 불리는 음성 비서 서비스 경쟁이 본격화되고 있다. 사용자의 말을 알아채 검색, 쇼핑, 일정관리, 음악 선곡까지 해주는 인공지능 기반의 음성비서 서비스가 앞으로 스마트폰 시장 경쟁의 열쇠를 쥐게 될 전망이다. 2011년 처음으로 음성인식 기능 시리(Siri)를 선보였던 애플은 iOS 10에서 시리의 확장성을 높였다. 메신저 앱을 읽어주고 길안내를 도와주며, 매장과 맛집을 검색해 안내도 해준다. 이에 질세라 구글도 안드로이드 기반의 지능형 개인비서 ‘구글 나우’를 들고 나왔다. 사용자가 묻는 말에 답변을 할 뿐 아니라 검색 성향을 파악해 사용자가 원하는 바를 예측해 전달하는 지능형 개인비서 소프트웨어다.
음성인식 기반의 인공지능 서비스 중 가장 큰 활약을 보이고 있는 것은 인공지능 스피커인 아마존의 에코(Echo). 작년 3월 말 기준으로 미국에서만 400만 대가 팔려나간 에코는 사용자의 음성을 알아듣고 네트워크를 통해 각종 정보를 수집해준다. 에코의 가장 큰 장점은 높은 음성인식률이다. 주위 소음에도 6∼7m 거리의 명령을 인식한다.
인공지능과 결합한 음성인식 기술은 스마트폰 기반의 대화형 개인비서, 스피커형 홈 허브, 커넥티드 카, 자율주행차, 로봇 기술의 본격적인 진화 속에서 최고의 사용자 인터페이스로 자리매김하고 있다.

어떻게 알아들었쓰까? 인공지능이 알려줬쓰까?
기기를 작동하는 재미에 머물렀던 음성인식 기술이 다른 기기나 서비스를 가동하는 유용한 인터페이스로 진화한 것은 비교적 최근의 일이다. 애플이 2011년 처음으로 음성인식 기능인 시리를 선보이고 나서도 한동안은 실용성 면에서 소비자들로부터 큰 호응을 받지 못했다. 그러는 사이 애플은 인공지능 관련 스타트업을 6개 이상 인수하면서 시리의 확장성에 박차를 가했다. 사용자가 던지는 질문에 대해 시리가 맥락을 더 잘 이해하고 답을 할 수 있는 자연어 처리(Natural Language Processing) 기술을 중점적으로 연구해 시리는 이제 사람의 농담을 받아칠 만큼 음성인식률이 좋아졌다.
음성인식 기술의 진화는 피부로 느껴질 정도로 빨라지고 있다. 이는 최근 TV 프로그램을 통해서도 확인되었다. 인기리에 방영되고 있는 SBS 예능 프로그램 「미운 우리 새끼」에서 가수 김건모가 컴퓨터 음성인식 프로그램과 나누는 대화가 화제가 된 바 있다. 놀러 왔던 친구들이 돌아가자 무료해진 김건모가 태블릿을 향해 “우리 끝말잇기 하자”고 하자, “좋아요. 제가 먼저 할게요. 해질녘”이라고 대답해 김건모의 말문을 막더니, 김건모가 “너 몇 살이야?”라고 화를 내자 “먹을 만큼 먹었다”는 당돌한 답변을 내놓아 김건모를 아연실색하게 만들었다.
물론 반대의 예도 있다. tvN 예능 프로그램인 「꽃보다 청춘」 아이슬란드 편에서는 조정석이 통역앱 때문에 곤란을 당하는 장면이 나온다. “핫도그 세 개 주세요”를 통역앱이 “Please hotdog world”로 번역한 것. ‘세 개’와 ‘세계’의 발음이 똑같아서 벌어진 일이다.
인공지능 서비스 발전에서 자연어 처리 기술은 중요한 부분을 담당할 수밖에 없다. 인공지능 본연의 임무는 사용자의 명령을 수행하는 것이다. 따라서 가장 자연스러운 커뮤니케이션 수단인 음성 명령을 인식하도록 도와주는 자연어 처리 기술의 진화가 필수다.

척척 알아듣고 술술 대답하고
자연어 처리는 자연어를 기계적으로 분석해 컴퓨터가 이해할 수 있는 형태로 만들거나, 반대로 컴퓨터의 처리 결과를 인간이 이해할 수 있는 언어로 만드는 기술을 말한다. 즉, 사람 말을 기계가 이해하고, 반대로 기계의 말을 사람이 이해할 수 있는 형태로 만들어주는 것이다. 인간이 일상적으로 사용하는 언어의 체계는 매우 복잡하다. 숫자나 통계처럼 정형화되어 있지 않을 뿐 아니라 그 속에는 미묘한 뉘앙스의 차이, 감정도 섞여 있다. 이렇게 복잡한 음성 데이터를 정제하는 과정이 바로 자연어 처리이다.
자연어를 처리하기 위해서는 우선 사람의 음성, SNS 내용, 웹문서 등 기존의 텍스트나 음성을 형태소로 바꾸는 작업이 이루어진다. 즉, 문장을 최소 단위로 쪼개는 작업이다. 가령 ‘자연어를 처리한다’를 예로 들면 ‘자연’ ‘어’ ‘를’ ‘처리’ ‘한다’로 더 이상 분석이 불가능한 가장 작은 의미 요소로 나눈다. 그 다음에는 각 개체가 무엇을 의미하는지를 분석하고, 그것을 바탕으로 구문을 분석하는 단계를 거쳐 감정 분석까지 하게 되는 것이다.
국내에서도 자연어 처리 기술 개발이 한창인 가운데 형태소 분석기의 정확도는 98% 정도, 개체명 분석기의 정확도 90%, 감정분석기의 정확도는 80% 정도에 와 있는 것으로 파악되고 있다. 특히 번역기 개발에 박차를 가해온 네이버는 지난해 자연어 처리 기술 ‘아미카’를 선보였다. 네이버가 차세대 성장동력으로 육성 중인 아미카는 대화형 인터페이스를 만들 수 있는 엔진으로, 대화 내용을 분석해 장소, 인명, 시간 등 25가지 요소를 자동으로 제공해준다. 또한 ‘예’, ‘아니오’ 등을 판단하는 7가지 정보도 제공한다. 가령, 아미카를 이용해 대화 형태로 음식 주문을 받고 아미카가 추천하는 정보로 배달을 해주는 서비스도 개발할 수 있다. 네이버 측은 아미카가 현재 한 문장 단위로 분석이 가능하지만, 앞으로는 전체 대화를 분석할 수 있는 수준까지 성능을 끌어올릴 계획이라고 밝혔다. 자연어 처리 기술이 더 발전하면 대충 얘기하거나, 사투리로 말하거나, 주변이 시끄러운 상황에서 말해도 프로그램이 사용자의 목소리를 정확하게 인식하게 될 것이다.
음성인식 기술에 IT 기업들만 주목하고 있는 것은 아니다. 가전기업들도 이미 음성 명령이 가능한 제품들을 선보이기 시작했고, 자동차 제조사들도 미래의 자율주행차를 음성으로 조작하려는 심산이다. 이것이 가능하려면 사람 말을 더 잘아들을 수 있도록 음성인식 기술 자체가 지금보다 더 진화해야 하는 것은 당연하다.

임숙경 전문기자​

조회수 : 1,189기사작성일 : 2017-02-03
기사 만족도 평가
별 개수를 클릭하여 기사에 대한 만족도를 평가해 주세요.
이 기사의 별점
평균 5점 / 2
  • 매우 불만족
  • 불만족
  • 보통
  • 만족
  • 매우 만족
별 5개 / 매우 만족

의견글 작성
  • (삭제 시 필요)
* 불건전한 내용이나 기사와 관련 없는 의견은 관리자 임의로 삭제될 수 있습니다.
메뉴 열기
맨위로