상세 컨텐츠

본문 제목

다양한 분야의 핵심기술, 음성인식(Speech Recognition)을 소개합니다!

디지털콘텐츠/이슈리포트

by 디지털콘텐츠기업 성장지원센터 2016. 8. 2. 10:30

본문




AI, 인공지능, IoT, 개인비서

 

이런 용어들, 작년과 올해 뉴스나 서점에서 자주 접하셨죠?


이젠 IT업계 종사자가 아니더라도 대중들에게 친숙해질 만큼

화제가 되고 우리와 가까워지고 있는 기술들인데요,

 


이 기술들의 공통점은 무엇일까요?


바로 음성인식을 적극적으로 활용하는 분야라는 점입니다!

 

 

이번 기사에서는 현재 음성인식이 어떤 기술인지

한국과 해외에서 어떤 분야에 활용되고 있는지,

음성인식 관련 업계의 이슈는 무엇인지 알아보고

한국이 앞으로 더 노력해야 할 부분에 대해 생각해보았습니다.

 



 


음성인식은 어떤 기술일까요?






음성인식(Speech Recognition)이란,

 

소리 센서를 통해 얻은 음향학적 신호를 

컴퓨터가 해석하여 그 내용을 문자 데이터로 

전환 처리하는 기술을 말합니다.

 

음성을 분석하여 단어를 인식하는 것에서 시작하여,

문장을 해석하고 더 나아가 

문맥적인 의미를 추출하는 것으로 발전되어 왔습니다.

 

2000년대 중반까지는 낮은 음성인식률로 

대중화에 어려움을 겪었습니다.


하지만 최근 휴대용 컴퓨팅 단말의 확산

그리고 클라우드 인프라의 확충이 맞물리며

음성인식 기술은 급속도로 발전하고 있습니다.


음성인식의 궁극적인 목표는 

자연어(사람의 자연스러운 말)를 인식하고

의도를 파악하여 문서를 입력하거나

 명령을 받아들이는 기술을 실현하는 것입니다.

 





음성인식을 활용한 서비스 혹은 제품은 어떤 것이 있을까요?


- 인공지능, 웨어러블, 그리고 교육, 의료 등 다양한 분야

 


먼저, 음성인식기술은 인공지능 개인비서 서비스에서 

핵심적인 역할을 하고 있습니다


그 대표주자는 2011년 아이폰 4s에 탑재되어

 음성인식 서비스에 대한 대중적인 관심을 고조시킨

아이폰의 시리(Siri)’입니다.






시리를 활용하면 기 전에 눈 감고도

내일 아침 7시에 깨워줘라고 하면 알람을 맞출 수 있고,

내비게이션에 시리를 연동하여 

운전을 더욱 편리하게 할 수 있습니다.

 

이외에도 시리와 말장난을 하는 영상이 인기를 얻을 정도로

시리는 대중들에게 친숙하게 다가간

성공적인 음성인식 서비스입니다.

 



이 외에는 구글의 구글나우’, 마이크로소프트의 코타나’,

 IBM왓슨등이 대표적인 음성인식 기반 

개인비서 서비스 제품입니다.

 

IT기업이 아닌 온라인 쇼핑몰업체인 아마존도

에코라는 이름의 인공지능형 음성인식 개인비서 제품을 출시했습니다.







특이한 점은 음성인식 기능을 전면에 내세운 

스피커형태의 제품이라는 것입니다.

 

이후 국내 KT, SKT, 네이버 등의 IT기업에서도

 음성인식 AI스피커를 출시를 준비중이고,

구글에서도 스피커 형태의 AI홈비서를 출시할 것을 알리는 등

경쟁적으로 음성인식 기술을 탑재한

 인공지능 홈디바이스들의 출시를 준비하고 있습니다.

 

 

음성인식 비서 이외에 음성인식의 활용이 기대되는 분야는, 웨어러블 기기입니다.


우선 최근 국내 은행권에서의 음성인식 활용이 나타나고 있습니다.

기존의 웨어러블 기계는 화면이 작기 때문에 

스마트 뱅킹 앱을 사용하는데 어려움이 많았습니다.


하지만 음성인식 기술을 뱅킹 어플리케이션에 활용하면서,

작은 화면의 제약을 넘어설 수 있게 되었습니다.



 





또한 구글은 지도 어플리케이션에도 음성인식 기능을 추가하여

향후 웨어러블 기기에서의 활용 가능성을 높였습니다.







위의 스마트뱅킹, 지도 어플리케이션의 사례들을 통해

웨어러블 시장으로의 진출에 음성인식이 

핵심기술로 떠오르고 있음을 알 수 있습니다.

 

 

이 외에도 음성인식은 교육, 의료, 자동차, 로봇, 의료, 통역, 보안

다양한 분야에 적용할 수 있는 무궁무진한 가능성을 지니고 있습니다.

 



 

음성인식기술은 최근 오픈소스로 

공개되면서 더욱 자유롭게 활용될 것




글로벌 IT기업들이 음성인식 기술을

 오픈소스로 공개하는 추세입니다.


미시건 대학교 연구소 Clarity Lab에서는 

올해 초 음성인식기술 시리우스를 공개하였고,

구글도 지난 7 25, 자연어처리와 

음성인식 API를 일부 공개하였습니다.


오픈소스를 통해 내부구조와 소스코드를 누구나 볼 수 있고,

게다가 라이선스 규정을 지킨다면 누구나 

소스코드를 무료로 이용할 수 있습니다.









국내에서도 네이버와 다음 등의 IT기업들을 중심으로

음성인식 오픈소스 움직임이 일어나고 있습니다.

 

자체적인 음성인식 기술이 마련되지 않은 기업들이 

새로운 서비스를 구상할 때 보다 자유롭게 

음성인식 기술을 도입할 수 있게 된 것입니다.

 

다방면에서의 음성인식 활용이 앞으로 더욱 기대되는 이유입니다.

 


 

앞으로 남은 과제

 


현재의 음성인식 서비스들은 대부분 사용자가

 기계에게 어떻게 말해야하는지에 대한

정해진 매뉴얼을 익혀야 사용할 수 있어서,

직관적인 화면터치방식보다 진입장벽이 

높게 느껴지는 것이 사실입니다.


또한 사용자마다 지역마다 존재하는 다양한 억양과

 발음들을 인식하는 기술이 아직 부족해서

음성인식의 대중화에 걸림돌이 되고 있습니다.

 

하지만 이러한 점들도 대중화는 아직 안되었지만 

많은 연구로 개선되어있는 상태이고,

머지않아 상용화될 것으로 보입니다.

  


무궁무진한 활용가능성을 지닌 기술인 만큼,

국내외 기업들이 음성인식기술을 활용한

어떤 새로운 사용자 경험을 선물해줄 지

 앞으로가 더욱 기대됩니다!







관련글 더보기

댓글 영역