음성인식 기술과 스마트 보이스
+ Category : VEGA 시리즈 + Date : 2012. 6. 12. 17:46 + Author : 스카이 베가+ URL : http://skyvega.tistory.com/195
들어가는 글
최근 팬택에서 발표하고 있는 베가 시리즈의 단말기들을 살펴보면 한가지 눈에 들어오는 특징이 있습니다. 사용
편의성을 높여주기 위해 꾸준히 업그레이드 되고 있는 유저 인터페이스가 바로 그것입니다. FLUX 유저 인터페이스가 처음 1.0 버전으로
탑재된 이후 계속해서 기능이 향상되면서 나은 모습을 보여주고 있는데요, 특히나 모션인식 기능을 소개하면서
많은 사용자들의 호응을 얻을 수 있었습니다.
이런 흐름을 이어가기 위해 이번 베가 레이서2에서는 음성인식 기능이 탑재되었습니다.
음성인식 기술은 이미 오래 전부터 꾸준히 소개 되어 왔던 기능인데 영미권 위주로 개발이 진행되어 한국어의 경우에는
인식률이 좋지 못했습니다. 이런 이유 때문인지 애플에서 시리(Siri) 서비스를
소개할 때에도 한국어는 빠져 있었습니다.
팬택에서는 이번 베가 레이서2를
발표하면서 스마트 보이스란 이름의 음성인식 서비스를 전면에 내세우고 있습니다. 어떤 준비 과정을 거쳤기에
이런 자신감을 보이고 있는지 궁금하지 않으신가요? 먼저 스마트 보이스 기술의 저변에 깔려있는 기반 기술을
살펴보고 스마트 보이스를 소개하도록 하겠습니다. 마지막으로 개발에 참여한 담당자들을 찾아가 궁금한 내용들에
대해서 직접 답변을 받아 보도록 하겠습니다.
음성인식 기술이란?
음성인식은 사람이 일상생활 속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기 및 정보 서비스의 이용을 제어할 수
있는 기술로, 1950년대 등장해 지속적인 연구가 진행되어 왔지만 2000년대
중반까지 낮은 음성 인식률로 대중화되지 못함.
지금까지 특수한 용도에만 제한적으로 사용되어왔던 음성인식 관련 기술들은 최근 스마트폰으로 대표되는 휴대용 컴퓨팅 단말의 확산과 이를
지원해줄 클라우드 인프라의 확충이 맞물려 급속도로 발전하고 있음. 특히 얼마 전 애플(Apple) 사가 공개한 '아이폰 4S'에 탑재된 음성인식 기능 '시리(Siri)'가
공개되면서 음성인식 서비스에 대한 관심이 고조되고 있음.
음성인식 기술의 발전과정
구분 |
특징 |
1세대 |
- 개별숫자, 음절, 모음, 음소 인식시스템 개발을
시도 |
2세대 |
- 동적시간 정합(Dynamic Time Warping, DTW) 기술의 제안 및 사용 |
3세대 |
- 2세대 템플릿 기반
음성인식에서 은닉 마르코프 모델과 같은 통계적 기반의 음성인식 기술로 전환 |
3.5세대 |
- 음성인식 오류를 최소화하기
위해 MCE(Minimum Classification Error), MMI(Multi Media
Interface) 같은 변별학습 기법이 사용됨. |
4세대 |
- 정보 서비스를 액세스하기
위한 대화시스템과 유비쿼터스 환경에서 음성으로 정보를 전사, 이해, 요약해줄
수 있는 방송뉴스, 미팅, 강의, 발표, 회의기록, 재판 기록, 음성 메일
등에 적용하기 위한 연구가 계속 진행 |
음성인식 기술의 특징
음성인식 기술은 친숙하고 편리하며 이동 및 작업 중에도 상시 입력이 가능하고 화자의 고유 정보를 전달할 수 있으며 입력속도가 빠르다는
장점이 있음.
특징 |
활용 유형 |
활용 분야 |
편리함 |
음성인식은 인간에게 친숙한 정보 전달 방법이기 때문에 별도의 학습이나 훈련 없이도 기기를
손쉽게 사용할 수 있음 |
TV 등 가전제품 이용
및 게임 플레이 |
상시 입력 가능 |
손과 발이 자유롭지 못한 상황에서도 정보를 입력할 수 있기 때문에 이동시에도 기기 사용이
가능하며 안전성과 생산성을 제고할 수 있음 |
모바일 기기 사용 및 물류 등의 작업 수행 |
화자의 고유 정보
전달 |
화자의 음성을 통해 신원, 심리, 건강상태, 언어능력 등을 파악할 수 있어 개인별 서비스 제공이 가능함 |
보안, 금융, 의료, 교육 등 |
고속 입력 가능 |
입력 속도가 타자에 비해 빠르기 때문에 고속 또는 실시간으로 정보를 처리 가능 |
콜센터, 방송, 통·번역 |
음성인식 기술의 원리
음성인식 기술은 입력받은 음성을 컴퓨터가 분석하고 특징을 추출한 다음, 미리 수집된 음성모델
데이터베이스와의 유사도를 측정해 가장 유사한 것을 문자 혹은 명령어로 변환함.
음성인식 기술은 일종의 패턴
인식 과정으로, 사람마다 목소리와 발음, 억양 등이 다르기 때문에 최대한
많은 사람들로부터 음성 데이터를 수집해 이로부터 공통된 특성을 추출, 기준 패턴을 생성함.
음성인식 기술의 구분
구분 |
특징 |
|
발성의 형태 |
고립단어 인식 |
- 고립된 형태로 발성된 음성만을 인식할 수 있음 |
연결단어 인식 |
- 여러 개의 단어를 연결시켜 발성해도 인식 가능하며, 제한된
대상 단어의 조합으로 여러 형태의 음성인식이 가능함 |
|
연속어 인식 |
- 자연스럽게 발성한 연속된 음성을 인식할 수 있음 - 현재까지 인식률이 그다지 높지 못하며 특히 자연스러운 대화 형태의 발성인 경우 인식률이
매우 낮음 |
|
핵심어 인식 |
- 자연스럽게 발성한 연속된 음성 중에서 인식 대상 단어만을 추출해 인식함 - 예를 들어, 열차, 비행기
자동예약 시스템에서 사용자가 발성한 여러 가지 정보 중 지명에 해당하는 것만 알고 싶을 경우 이 방식을 이용함 |
|
인식 대상 화자 |
화자종속 인식 |
- 특정 화자 또는 사용자가 자신의 음성으로 미리 인식기를 훈련시키는 과정이 요구되며, 이 경우 인식기는 훈련된 음성만을 인식할 수 있음 - 비교적 구현이 간단해 단말기 등에 탑재돼 응용되고 있으나 사용자가 훈련과정을 거쳐야 하는
불편함이 있음 |
화자독립 인식 |
- 임의의 화자 발성을 인식할 수 있는 기술로, 미리
수백 또는 수천 명의 음성에 관한 정보를 추출하여 데이터베이스화 함으로써 별도의 훈련 과정 없이 사용 가능함 |
|
화자적응 인식 |
- 화자종속 및 화자독립의 절충안으로, 사용자가 자신의
목소리에 대한 인식률을 높이기 위해 화자 독립 인식기를 자신의 목소리에 적용시키는 방식 |
|
인식 대상 단어 |
고정 단어 인식 |
- 인식할 수 있는 대상단어가 고정되어 있음 - 대상단어를 교체할 경우, 여러 사람의 음성 데이터를
녹취, 분석해 음성 모델을 구축하는 과정을 거쳐야 하므로 시간과 비용이 많이 소모됨 |
가변 단어 인식 |
- 인식 대상단어를 수시로 갱신할 수 있음 - 음성인식기가 모든 음소에 대한 정보를 갖고 있으면서도 대상 단어가 갱신될 경우 음소의 조합으로
인식 대상 단어의 모델을 생성함 |
스마트 보이스(Smart Voice) 살펴보기
메뉴에서 스마트 보이스를
선택하거나 잠금 화면에서 스마트 보이스 항목을 드래그 하면 스마트 보이스가 실행됩니다. 홈 화면에서 볼륨 UP + 전원키를 길게 눌러는 방법도 있지만 동시에 눌러야 하기 때문에 조금 어렵습니다.
실행되면 “원하시는 것을 말씀하세요.”라는 멘트가 나오고
마이크가 입력 상태로 표시됩니다. 이때 원하는 명령을 말하면 서버에 내용을 전달하고 인식 결과를 받아와서
명령을 수행합니다. 마이크 아이콘을 기준으로 좌측 버튼을 누르면 설정 화면이 실행되고 우측 버튼을 누르면
사용 방법이 표시 됩니다. 사용 방법 중 한가지를 선택하면 보다 자세한 사용 방법을 알려줍니다.
스마트 보이스(Smart Voice)로 메시지 보내기
안내 화면의 첫 번째
방법대로 따라해 봤는데 전화부에 저장된 이름을 찾아와서 말한 내용 그대로 입력되어 있습니다. 이어서 “보내기”라고 말을 하니 신기하게도 바로 전송이 됩니다.
스마트 보이스(Smart Voice)로 사진 촬영 하기
“열기” – “카메라” 라고 말하면 카메라가 실행됩니다. 화면 상에 녹색 마이크가 보이면 음성 인식이
사용 가능한 상태를 의미합니다. “촬영/치즈/김치”와 같은 흔히 쓰는 표현을 말하면 사진이 찍힙니다. 이는 블링고 서비스와는 다른 방법으로 인식이 되긴 하지만 네트워크이 연결되어 있어야 하는 것은 동일합니다. 녹색 마이크가 보이지 않는다면 설정-음성인식 항목을 찾아 설정 상태로 만들면
됩니다.
스마트 보이스(Smart Voice)로 SNS 업데이트 하기
스마트 보이스의 유용한
기능 중에서 가장 돋보이는 기능 중 한가지가 음성으로 SNS 업데이트 하기 기능이 아닌가 싶습니다. 가장 많이 사용하는 트위터와 페이스북을 지원하고 있고 사용을 위해 먼저 설정에서 로그인를 해 두어야 합니다. 사용 방법은 “트위터”나 “페이스북”을 말하고 바로 내용을 말하면 인식된 내용이 표시됩니다. “업데이트”라고 말하면 바로 내용이 게시됩니다.
개발 담당자에게 직접
들어보는 스마트 보이스의 궁금한 사항들
스마트 보이스 개발을
담당하신 SW5실 DS1팀의 왕성식 책임님과 조창현 전임님을 모시고 스마트 보이스에 대한 궁금한 사항들을 문의 드렸습니다. 이에 대한 상세한 설명을 알기 쉽게 답변해 주셨는데 그 중에서 주요 내용을 정리하였습니다.
Q: 음성인식 엔진으로 블링고(Vlingo)사의
엔진을 채택하게 된 이유가 무엇인가요?
A: 가장 첫번째로 고려한 사항은 한국어 지원 여부였습니다. 아무리 인식률이 좋은 엔진이라 하더라도
한국어를 원활하게 지원하지 않는다면 국내 사용자에게는 반쪽 짜리 서비스밖에 되지 않습니다. 또한, 블링고는 한국을 아시아-태평양 지역에서 크게 성장하기 위해 꼭 거쳐야 하는
중요한 시장으로 인식하고 있어 향후 안정적인 한국어 지원을 위한 협력 관계 구축이 기대됩니다.
Q: 스마트 보이스에 음성 명령을 내리면 잠시 동안 네트워크 통신이
이루어진 후에 인식이 되고 명령이 실행됩니다. 네트웍을 사용하지 않는 방법으로 서비스를 구현할 수는 없을까요?
A: 과거 10년 전에도 음성 인식 기술을 통한 서비스가 제공되어 왔지만 낮은 인식률로 인해서 등장
당시에만 반짝하고 얼마 후 기억에서 잊혀지는 일들이 비일비재 했습니다. 음성 인식률을 높이기 위해서는 다양한
사람들에 의한 여러 상황들의 음성을 대량으로 DB에 축적해 놓고 통계적인 방법으로 가장 적합한 음성 패턴을
인지하는 방법을 사용하게 됩니다. 휴대 단말기의 저장 용량이 과거와 비교해서 비약적으로 발전하고 있지만 대량의
음성 패턴 DB를 휴대 단말기에 저장하는 것은 현실적으로 불가능한 일입니다. 휴대
단말기에 저장 용량에 맞게 DB를 구축한다면 과거에 소개 되었던 음성 인식 서비스의 인식률과 별반 다르지
않을 것입니다.
Q: 음성 인식이 잘 되게 사용할 수 있는 비결이 있다면 알려 주시겠어요?
A: 인식을 위한 음성 소스 취득과정이 중요합니다. 단말기와의 거리를 8~20cm 로 유지하는 것이 잡음 없는 깨끗한 음성을 취득하는데
있어서 가장 적합합니다. 음성으로 명령을 내릴 때에는 단어 단위로 끊어서 말하는 것보다 평상시처럼 자연스럽게
문장으로 말하는 것이 되려 인식률이 높습니다. 말을 너무 천천히 하거나 말하는 중간에 길게 쉬었다 말을 이어
나가면 문장이 끝난 것으로 판단하여 듣기를 중단하고 인식 과정으로 넘어갈 수 있으니 어느 정도 속도를 유지해야 합니다.
그리고, 최대로 인식할 수 있는 음성 입력 시간은 55초라는
점도 주의 하셔야 합니다.
마치는 글
이번 글은 스마트보이스 소개보다는 음성 인식 기술에 대한 소개가 주내용이 되었습니다. 딱딱한 내용이긴 하지만 과거로부터 이어진 개발 히스토리를 살펴보는 것이 현재의 음성 인식 기술을 이해하는데 있어서
보다 용이한 방법이 아닌가 생각되어 다소 나마 지루한 내용을 포함시켰습니다.
현재 한국어를 지원하는 음성 인식 서비스 중에서는 스마트 보이스가 단연 최고의 인식률을 자랑하지 않을까 하는 생각 드는데요, 많은 사람들이 사용하면 할수록 DB가 축적되면서 인식률이 더욱 향상 된다고
하니 많이 사랑 부탁 드립니다.
끝으로 잠시 공상의 나래를 펼쳐 보면, 음성 인식 기술은 앞으로 어떤 모습으로 진화하게 될까요? 제가 예상하는 미래는 지금보다 더욱 정교한 자연어 처리를 기반으로 사람과 대화하고 사람이 지시하는 말을 알아듣고
대신 처리해주는 인공 지능 로봇이 등장하지 않을까 생각해 봅니다. 그때에는 팬택이 휴대 단말기 개발 회사가
아닌 로봇 개발사가 되어 있을지도 모르겠군요. :-)
참고사이트
1. http://www.kocca.kr/knowledge/ct/__icsFiles/afieldfile/2011/12/07/87NEmyIcVWMc.pdf
- 문화기술(CT)심층리포트 “음성인식
기술의 동향과 전망”
2. http://interpiler.com/index.php/2011/05/기술의-모자이크-음성인식-회사-뉘앙스/
3. http://interpiler.com/index.php/2011/06/구글-음성인식-기술의-아버지/
4. http://www.ittoday.co.kr/news/articleView.html?idxno=24764
- 음성인식기술 업체 블링고, 국내 시장 진출
5. http://www.etnews.com/news/home_mobile/information/2553900_1483.html
- 시리 VS 블링고, 한국어
자연어 음성인식 시장 열린다
6. http://www.ilovepc.co.kr/bbs/board.php?bo_table=hot_line&wr_id=4518&sca=%B1%E2%C8%B9
- 영화사에 담긴 IT 기술 발전사
* 본 글은 팬택의 중앙연구소 SW5실 DS1팀 박종현 전임연구원이 VEGA를 위해 기고한 글입니다.
'VEGA 시리즈' 카테고리의 다른 글
VEGA RACER2 음성인식 사용법 (3) | 2012.06.15 |
---|---|
베가레이서2 (VEGA Racer2) 음성인식 개발 스토리 (1) | 2012.06.15 |
음성인식 기술과 스마트 보이스 (10) | 2012.06.12 |
베가레이서2의 특별한 깨알 같은 기능 소개 (4) | 2012.06.11 |
VEGA의 카메라는 진화한다 – 더욱 업그레이드 된 베가레이서2의 카메라 기능 (4) | 2012.06.07 |
베가레이서2의 특별한 음성인식 기능 <스마트 보이스> 전격 해부! (12) | 2012.05.25 |
당근 5,~ 음성인식입니다.! 베가♥ 제가 좋아하는 기종입니다. 그러나, 지금은 보급형 스마트폰을 쓰고 있답니다.ㅠㅠ 꼭 당첨되어, 좋은 스마트 폰 쓰고 싶네요...
당근 5,~ 음성인식입니다.! 베가♥ 제가 좋아하는 기종입니다. 그러나, 지금은 보급형 스마트폰을 쓰고 있답니다.ㅠㅠ 꼭 당첨되어, 좋은 스마트 폰 쓰고 싶네요...
s voice 와siri가훨뛰어나던데...
S보이스 아직 나오지도 않았는데...?
시리 인식률은 인정하지만요.
나왓음저apk있음
나왓음저apk있음
비밀댓글입니다
베가레이서에는 적용 예정이 없는지요..
베가레이서에는 적용 예정이 없는지요..
사지마삼 국산휴대폰 사지마삼.어차피 3달뒤엔 업그레이드 업다는거에 내 손가락건다.
외산휴대폰을사는게 바람직합니다 커스텀롬도 많구요..베가? 제대로됀 커스텀롬 조차 없다...
치명적인결함발견돼면 디자인약간변경해서 다시 ex,m 으로 나온다..절대 업그레이드는 없지
그냥 신제품이나 계속만들어내고 같은디자인에 아님 살짝 바꾼다던지 대충 쓰레기어플로 마감질을해서 새로운핸드폰이다고하면서 신제품에 대충 연예인 한명 쑤셔넣으면 그게신제품이지 안그런가