인공지능을 이용한 음성합성, 음성복제에 대해
설 연휴가 바로 코앞입니다.
다들 고향에 있는 가족들 만날 생각에 마음이 급해지지 않으신가요?
저희는 1월 말까지 제출 기한이 잡혀 있는 AI바우처 지원사업 신청 때문에 바쁜 나날을 보내고 있습니다. 예산도, 지원기업 수도 대폭 축소된 상태에서 공급업체는 늘어나서 예년 대비 높은 경쟁률이 예상되고 있어 바짝 긴장하고 있습니다.
가족 얘기를 하니 작년 여름 즈음 포털에 올라왔던 ' 부모님 현재 모습 'AI 휴먼'으로 평생 소통한다...' 라는 제목의 기사가 생각납니다. 생전에 녹음, 촬영된 영상을 가지고 AI가 돌아가신 고인의 가상휴먼('AI휴먼')을 만들어, 재현된 고인의 목소리와 모습으로 가족과 만날 수 있도록 하는 기술에 대한 것이었습니다. 아무래도 AI가 만들어낸 고인의 음성과 모습이 '진짜'가 아니라는 느낌 때문에 심리적, 윤리적 측면에서 반감이 생길 수도 있겠지만 기술 발전으로 인한 세태변화 추세를 보면 향후에는 그 반감의 정도가 많이 낮아지고 공공연하게 받아들여질 수도 있을거란 생각이 들었습니다.
이번 소이뉴스에서는 음성을 합성하거나 복제해 주는 기술에 대해서 간단히 알아보도록 하겠습니다.
PS.귀성 때문에 먼저 움직이시는 분들이 계실 것 같아 이번 뉴스는 하루 앞서 보내드립니다. 즐거운 설 연휴 보내시기 바랍니다. 꾸벅~ |
|
|
음성합성(TTS), 음성복제 (Voice Cloning) |
|
|
음성합성(Text to Speech), 음성복제(Voice Cloning)은 각각 어떤 기
술인가요?
음성합성은 기계(즉, 컴퓨터?)가 사람의 말소리를 자동으로 만들어내는 기술입니다. 보통 TTS (Text to Speech)라고 하는데 speech synthesis 혹은 voice synthesis 라고 불리기도 합니다.
음성복제(Voice Cloning)는 음성합성 기술을 기반으로 입력음성을 이용하여 타겟음성을 생성해 내는 기술입니다. 입력 음성과 최종적으로 생성할 텍스트를 함께 넣어주면 인공지능 모델이 화자의 발음, 음색 등을 그대로 적용하여 타겟 음성을 생성하는 방식이죠. 일반적으로 TTS는 사전에 녹음된 사운드 샘플(예: 성우 A씨의 음성데이터 등)을 이용하지만 음성복제는 입력 음성 사운드에서 음성 패턴을 분석해서 가장 근접하게 합성음을 만든다는 차이가 있습니다.
결과로 나오는 타겟음성을 위해 합성음을 생성한다는 측면에서는 유사 기술을 사용하지만 최종 목적은 다른 셈입니다. |
|
|
그림) TTS와 Voice Cloning 차이 설명 (너무 단순한가요? ^^;) |
|
|
음성합성에는 어떤 기술이 사용되나요?
예전의 음성합성 방식은 각각의 음편을 짜깁기하는 방식이었습니다. 미리 소리 음편(unit selection)들을 DB화 시키고, 입력되는 문장의 각 값에 해당하는 것들을 찾아서 붙여넣는 방식인 것이죠. 당연히 합성된 결과물의 품질은 많이 떨어졌습니다. 이후에는 통계 기반의 파라미터 방식을 거쳐 최근에는 딥러닝을 이용하는 방식으로 전환되었습니다.
|
|
|
음성복제는 어떤 특징을 가진 기술인가요?
음성복제 기술은 단어에 표현된대로 원래 음성을 그대로 흉내낸다는 특징이 있습니다. 목소리 음색 뿐만 아니라 발음, 운율, 음량, 심지어는 주변 음향 환경(소음 등등)까지 대상으로 하는 경우도 있습니다. 음성합성에서는 주어진 텍스트 내용을 미리 만들어둔 음성합성 모델을 이용하여 합성음성을 만들어내지만 음성복제는 원래 소리의 화자 음성의 특성을 반영해서 새로운 합성음성을 만드는 것이 중요합니다. 그렇지 않으면 '복제'라는 단어가 무색하겠죠?
|
|
|
그림) 음성복제 프로세스의 한 사례 (Expressive Voice Cloning 모델 , 출처) |
|
|
음성합성이나 음성복제 서비스를 제공하는 곳은 어떤 곳이 있나요?
음성합성 API나 서비스를 제공하고 있는 곳들은 국내에서는 네이버가 제공하는 클로바 음성합성(CLOVA Voice)가 가장 잘 알려져 있고 그 외에 카카오, 셀바스AI, 솔트룩스, 마인즈랩, 에이브 등 많은 기업들이 음성합성 API 서비스를 제공하고 있습니다.
음성복제를 전문으로 서비스하는 곳은 음... 국내는 네이버 클로바 보이스 메이커 같은 것이 있고, 해외에는 resemble.ai, play.ht 와 같은 곳이 있습니다. 클로바는 상용 서비스를 하진 않는데 대신 해외 서비스는 둘 다 다국어를 지원하고 유료지만 서비스를 제공하고 있습니다. 비용이 많이 높진 않으니 자기 목소리로 합성을 하고 싶으신 분은 해볼 수도 있겠습니다. 그 외에도 voiceitt , Replika 같은 기업들도 있습니다.
|
|
|
음성복제를 위한 딥러닝 모델이 있나요?
2~3년 전만해도 전시회에 나온 AI 서비스 업체들은 수십분에서 2시간 가량의 음성데이터가 있어야 한다고 소개했었습니다. 각자 Custom 모델을 만들어서 사용하고 있었구요. 그러던 것이 20분 수준으로 내려왔고 최근에는 수초 단위까지 내려왔습니다.
최근에 Microsoft가 발표한 VALL-E ( 링크)라는 모델은 단 3초 가량의 음성 데이터만 있으면 말하는 사람의 톤으로 합성된 음성을 만들어 낸다고 합니다. 도대체... 3초라니... 정말 놀랍지 않나요? 아쉽게도 논문과 결과 샘플만 공개되어 있고 학습코드나 pre-trained 가준치 등이 공개되어 있지는 않습니다. 조만간 나오긴 하겠죠... |
|
|
사진) Microsoft가 발표한 VALL-E 모델 개요 설명 ( 출처) |
|
|
이런 기술이 사용된 서비스 사례는요?
AI 휴먼을 통해 나오는 합성음성은 다 이런 음성합성 기술을 이용하고 있습니다. 잘 알려진 AI 휴먼 개발 기업으로는 딥브레인 AI, 솔트룩스, 마인즈랩, 이스트소프트 등등이 있습니다. 음성만 적용된 케이스로는 인공지능 스피커나 AI 콜센터 외에도 작년에 TV방송에 나왔던 고 김광석씨의 노래를 모창한 AI도 있습니다. ( 모창영상, 제작영상)
음성합성이나 음성복제에 대한 정보가 더 있나요?
TTS나 Voice Cloning 관련해서 찾아본 자료는 다음과 같습니다.
Text To Speech
Voice Cloning
|
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능 (Accuracy)는 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
- 메일 : support@soynet.io또는 sales@soynet.io
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 설 연휴 잘 보내시고 오세요.
또 다른 재미난 소식으로 찾아뵐게요. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|