인공지능 음성인식에 대해 알아 봅니다 안녕하세요, 구독자님.
이번 한 주도 행복하고 보람차게 보내시고 계신가요?
어제 저희는 소이넷 솔루션데이 행사를 진행했습니다. 구독자 분들 가운데서도 많은 분들이 관심을 가지고 참석해 주셨는데 이글을 빌어 감사 드리며 저희는 앞으로도 더 열심히 좋은 제품을 만들고 여러분들께 다가서도록 노력하겠습니다.
점심을 먹고 사무실 근처에 있는 야트막한 산으로 산책을 다녀왔습니다. 한 여름 뜨거운 햇살에도 아랑곳하지 않던 젊은 잎들이 화려한 가을 단풍으로, 그리고 결국에는 낙엽이 되어 다시 흙으로 변해가고 있더군요. 그런 모습들이 사람의 삶과 비슷하다는 생각이 해 봤습니다. 그렇다면 현재의 나는 어느 단계일까, 단풍 아니면 이제 슬슬 낙엽...? 이런 생각은 회사에도 똑같이 적용될 수 있겠죠. 우리 회사는 현재 어떤 단계일까 하는 걸로요. 다시 마음을 다 잡고 긴장을 끊을 놓치 않아야겠습니다.
이번 소식에서는 사람의 음성을 알아 듣는 인공지능 기술에 대해서 간단히 알아보도록 하겠습니다. 그런데... 이미 집에 그런 장치가 있으시다구요? ^^ |
|
|
음성인식(Speech Recognition)이란?
음성인식이란 사람의 말소리(음성언어)를 듣고 컴퓨터가 이를 해석해서 데이터(텍스트 문장)으로 만들어주는 것을 말합니다. ASR(Automatic Speech-to-Text)라고도 부릅니다. 유의할 것은, 음성인식은 목소리 인식 (Voice Recognition)과는 약간 다른 기술입니다. 전자는 사람의 말을 텍스트로 변환하는 용도로, 후자는 개별 화자(말하는 사람)의 목소리를 분간하는 용도로 사용됩니다. 즉, 내용에 촛점을 두느냐 누가 말했느냐에 촛점을 두느냐의 차이가 있다고 보시면 됩니다. |
|
|
제 기억엔 10년 넘게 전에도 이런 것을 해 주는 제품이 있었는데...
흠... 구독자님의 연배와 경력을 가늠할 수 있는 말씀이네요... 네 맞습니다. 이런 종류의 소프트웨어 제품은 AI가 본격적으로 확산되기 이전에도 있었습니다. 하지만 기술적인 제약으로 인해 지원되는 서비스의 품질이나 범위가 한정되어 있었고 최근 AI 기술의 큰 진보 이후부터는 대부분 다 딥러닝 모델 기반으로 솔루션들이 만들어지고 있습니다.
인공지능을 통해 말소리가 텍스트 문장으로 변환되는 과정을 알려주세요. 인공지능을 이용하여 사람의 말을 인식하는 과정을 그림으로 표현해 보면 다음과 같습니다. |
|
|
입력으로 사용되는 사람의 말소리는 아날로그 신호입니다. 이것을 디지털로 변환하는 작업이 우선 진행되는데 이 과정에서 신호에 대한 sampling, quantization 등이 진행됩니다. 이렇게 변환된 디지털 신호에서 사람의 목소리 외의 잡음/소음 등을 걸러내고 오디오 특징 벡터을 추출하게 됩니다. (간단하게 언급했지만 이 사이에도 Fourier Transform, Mel-Spectrogram, MFCC 등등 아주 다양하고 복잡한 기술들이 사용됩니다) 이후에 음향모델 (Acoustic Model: HMM-GMM 기반 모델)과 언어모델(Language Model)과 단어사전 등을 이용하여 디코딩이 진행되면 결과물로 텍스트 문장이 나오게 되는 것입니다. 더 깊은 내용은 여기서는 다루지 않겠습니다... |
|
|
음성인식 기술은 어떤 곳에 적용할 수 있나요?
음성인식 기술은 사실 우리 생활 곳곳에 적용되어 있거나 되고 있습니다. 다들 눈치채셨겠지만 몇년전에 붐이 일었던 스마트스피커가 그 한 예입니다. 해외에서는 알렉사라는 인공지능 비서가 탑재된 아마존 에코 시리즈와 구글 네스트, 국내에서는 카카오미니, 네이버 웨이브, SKT의 NUGU, KT의 기가지니 등이 잘 알려진 제품입니다. 제 경우에는 에코와 카카오미니를 가지고 있었는데 붐이 지나자 고스라니 집안 구석 어딘가로 치워 두었습니다. 당시까지만 해도 음성인식 수준이나 그것으로 할 수 있는 일에 제한이 많았기 때문입니다.
이 외에 많이 사용되고 있는 영역을 열거해 보면 다음과 같은 것이 있습니다.
음... 너무 많아서 이 정도로 줄입니다.
음성인식을 이용하면 실제 비즈니스에서는 어떤 잇점이 있을까요?
위의 예시 가운데 금융권에 서 주로 적용하고 있는 콜센터를 예로 들어 보겠습니다. 음성인식을 통해 1차적인 고객의 요구사항 수집이 이뤄지고 뒷단에서는 룰 기반이건 인공지능 기반이건 자동화된 고객 대응 프로세스가 동작할 경우, 고객 입장에서는 대기해야 하는 시간이 줄어들고 기존의 ARS나 문자메시지 기반으로 하던 불편한 과정이 사라지게 됩니다. 기업 입장에서는 동시에 처리할 수 있는 고객응대 건이 늘어나 콜센터 인력을 줄일 수 있고, 고객응대 이력 관리가 쉬워지고 이에 대한 실시간 분석을 통해 좀 더 빠르고 나은 서비스를 제공할 수도 있습니다.
이렇듯 음성인식 기술의 적용은, 고객과의 접점에 적용되어 최종 의사결정을 보다 효율적이고 빠르게 진행할 수 있도록 하는 근거의 백 데이터를 제공하는 역할을 할 수 있습니다.
음성인식 분야의 시장성은 어떻게 되나요?
시장분석기관 MarketsandMarkets에 의하면 2026년까지 연 21.6% 성장을 해서 $22억 수준까지 확대될 것으로 전망된다고 합니다. ( 기사)
|
|
|
현재 음성인식 기술 수준이 어디까지 와 있나요?
최근의 음성인식 기술 동향 관련 기사를 보면 알 수 있을 것 같아 찾아봤습니다.
- 이번 달 초 ETRI에서는 24개 언어를 인식할 수 있는 대화형 인공지능(Conversational AI) 기술을 개발했다고 발표했습니다. (기사)
- 최근 OpenAI는 Whisper라는 범용 음성인식 모델을 공개했습니다. (깃헙)
Whisper는 학습에 사용된 데이터의 2/3가 영어라고 하나 테스트 해 본 결과 한국어 인식도 썩 잘 되었습니다. OpenAI에서는 테스트 해 볼 수 있도록 HuggingFace demo도 제공합니다.
- 엔비디아 : 모질라와 음성AI 플랫폼 (Common voice) 공개 했습니다. 100개 언어 지원, 50만명의 목소리 24,000 시간 분량의 음성데이터 제공하며 별도로 자체 음성 AI 모델 'RIVA' 공개했습니다.
2018년도에 음성인식을 전문으로 하는 AI Startup의 세미나에 참석한 적이 있었습니다. 당시에 프리젠테이션을 하면서 발표 내용이 텍스트로 다른 화면 상에 실시간으로 표시되는 것을 시연했는데 당시에도 상당한 품질의 결과물에 놀랐던 경험이 있습니다. 그런데... 지금은 발표 당시 수준의 서비스를 공개된 범용 모델을 통해 개인이 활용할 수 있게 된 것이니 참 기술의 발전 속도는 빨라도 너무 빠른 것 같습니다. |
|
|
범용적으로 사용할 수 있는 음성인식 서비스는 어떤 것이 있나요?
범용 음성인식 서비스를 제공하는 기업은 생각보다 많습니다. 잘 알려진 것들로는 아래와 같은 것들이 있습니다.
음성인식 기능을 사용해 보려면 어떻게 해야 하나요?
기업에서 음성인식 기능을 사용하기 위해서는 직접 음성인식 모델 개발을 하거나 혹은 이미 만들어져 서비스되고 있는 공개 모델이나 패키지를 사용하거나 혹은 상용 음성인식 API 서비스를 이용하는 방법이 있는데 이 가운데 상용 서비스를 제공하는 곳들은 빅테크 기업 (구글, MS, AWS 등, 국내는 네이버, 카카오 등)과 다양한 AI 스타트업들이 있습니다.
|
|
|
개인적으로 써볼 수 있는 공개 모델이 있나요?
OpenAI에서 공개한 Whisper라는 모델이 있습니다. Whisper는 웹에서 수집된 680,000 시간의 다국어 데이터를 가지고 학습되었다고 합니다.
|
|
|
whisper 모델의 실행
whisper 설치 후 윈도우 커맨드 창에서 CLI로 실행해 본 결과는 다음과 같습니다. test.mp3는 노트북 마이크로 녹음한 했는데 한국어도 생각보다 잘 됩니다.
(참고) whisper의 경우, 사전 학습된 weight가 tiny/small/base/medium/large로 구분되는데 데 weight 지정을 하지 않고 기본으로 하면 base가 선택되어 실행됩니다. |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능 (Accuracy)는 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
- 메일 : support@soynet.io또는 sales@soynet.io
|
|
|
오늘의 뉴스레터는 여기까지 구독자님,
이번 한 주도 수고 많으셨습니다.
가족들과 따뜻하고 포근한 주말 보내세요.
저희는 새로운 소식으로 다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|