재미난 인공지능 소식을 전합니다 안녕하세요, 구독자님.
이번 한 주도 잘 보내고 계신가요?
어느 덧 6월도 중순으로 접어들었습니다. 아침, 저녁은 아직은 약간 선선하지만 햇볕이 내리쬐는 낮이 되면 한여름의 가장자리 쯤에는 이미 와 있다는 것을 깨닫게 됩니다. 뿐만 아니라 몇 시간 전만해도 안 보이던 구름이 어느샌가 높은 키를 자랑하며 물줄기를 뿌려대는 게릴라성 소나기(열대지방에서는 '스콜'이라고 하죠)까지 접하게 되면 그런 생각은 더 강해지죠. 앞으로 닥쳐올 무더위, 장마나 태풍 같은 것을 잘 견딜 수 있도록 심적, 육체적인 준비를 해야할 시기인 것 같습니다.
이제까진 매 소식에서 주제를 하나씩 정해놓고 글을 써오고 있었는데 점점 소재가 고갈되고 있습니다. 그래서, 생각나는 주제가 생길 때까지는 당분간은 인공지능과 관련된 소식들을 위주로 내용을 조사해보고 그 가운데 몇 가지를 골라 소개하는 방식으로 진행하겠습니다. 양해 부탁 드립니다. ^^; |
|
|
Eye Contact - 발표자님, 어딜 보고 말씀하시는건가요? |
|
|
최근 새로운 트렌드나 강연 등을 유튜브나 혹은 웨비나를 통해서 접할 수 있는 기회들이 많이 생겼습니다. 직접 가지 않고 이렇게 온라인으로 손쉽게 들을 수 있다는 것은 어찌보면 엉덩이가 무거운 저같은 사람에게는 축복같은 일입니다. 게다가 이런 세미나가 각 기업들이 자신들의 마케팅, 세일즈 목적으로 진행하는 것이다 보니 참가비 또한 저렴하거나 무료인 경우도 많은데 그래서 더 좋은 것 같습니다.
그런데 웨비나의 발표 영상을 볼 때마다 느꼈던 약간의 불편함이 있었습니다. 바로 발표자의 시선이 보고 있는 '나'를 향하고 있지 않는 경우가 대부분이라는 것이죠. '발표 자료를 머리속에 다 넣어두고 한번의 막힘없이 진행할 수 있도록 사전에 연습을 많이 해야하는거 아냐?' 라고 하실 분도 있겠지만 준비를 많이 했다고 하더라도 발표 내용이 복잡하고 내용이 많다면 어려운 일이며, 실제 실무전문가들 가운데 그런 발표 스킬까지 제대로 갖춘 분들이 흔하지 않은 것이 현실입니다. (그렇게 하시는 분들이 다재다능하신거죠!)
어찌됐건 이 문제는 카메라 등을 통해 입력되는 영상에서 실시간으로 발표자의 시선방향을 바꿔주는 기술을 적용하면 해결할 수 있는데 아니나다를까 NVIDIA에서 NVIDIA Broadcast의 세부 기능 가운데 하나로 ' Eye Contact'을 발표했습니다. 사실 해당 기술은 올해 1월에 있었던 공식 발표 전인 작년 9월 경에 NVIDIA Developer 채널의 영상을 통해 알려져 있었습니다. 소개된 영상을 보면 역시 자연스럽네요. 굿! |
|
|
사진) NVIDIA Broadcast의 'Eye Contact' 기능 소개 (출처) |
|
|
Diffusion 모델 기반으로 비디오 영상을 만들어내는 Dreamix ( 논문, 프로젝트)라는 비디오 편집 및 애니메이션을 위한 프레임워크가 구글에 의해 발표 되었습니다. 아쉽게도 아직 코드 공개 소식은 없네요. 기존의 비디오 프레임 외에, 추가로 동일한 주제를 보여주는 작은 이미지 셋이 주어지면 파인튜닝하고 이를 결합해서, video diffusion model을 포함한 Dreamix Video Editor로 피사체가 움직이는 새로운 비디오를 생성할 수 있습니다. 지원되는 방식은 다음과 같습니다.
- 이미지 + 텍스트 프롬프트 → 비디오
- 비디오 + 텍스트 프롬프트 → 제공된 비디오의 색상, 자세, 크기, 카메라 포즈 유지된 비디오
- 동일 주제의 소량의 이미지셋 + 텍스트 프롬프트 → 피사체 애니메이션이 적용된 비디오
소개되는 영상도 자세히 들여다보면 또렷하지 않거나 부분적으로 잘못 생성된 것들이 보입니다. 밈 영상 만드는 것에는 당장 사용해도 무방하겠지만, 높은 품질의 영상을 제작하는데 바로 적용하는 것은 무리가 아닐까 싶네요. 하지만 향후 추가로 더 많은 데이터 학습이 되면 이런 부분들은 해결될 것이라 생각됩니다. |
|
|
사진) Dreamix Video Editiing 처리 프로세스 (출처) |
|
|
MusicGen - 꿈꿔왔던 뮤지션이 되는건가? |
|
|
META에서 음악생성 (Text to Music) 모델인 MusicGen을 발표했습니다. 이전에도 Google의 MusicML 같은 시도가 있었죠. MusicGen을 이용하면 텍스트 프롬프트나 레퍼런스 오디오 파일 등을 이용해서 원하는 형태의 음악을 생성할 수 있습니다. HuggingFace Space에서 제공하는 데모를 통해 짧지만 자신만의 음악을 만들어 볼 수 있고, 제공되는 코드를 이용하면 이보다 더 긴 것도 무료로 생성해 볼 수 있습니다.
MusicGen은 Encodec이라는 Audio Tokenizer를 통해 입력을 받고 vector 양자화로 압축 표현을 생성한 후 이를 Auto-regressive Transformer 기반의 decoder를 통해 결과물을 생성합니다. 모델 학습에는 20,000 시간 분량의 음악과 39만개의 악기 전용 트랙이 사용되었다고 하네요. 깃헙 상에 소개된 바로는, 코드는 MIT 라이선스를, 모델의 가중치 파일은 CC-BY-NC 4.0 라이선스를 따른다고 합니다. 상업적 사용이 가능하다는거죠. 다양한 응용 서비스의 등장을 기대해 볼 수 있을 것 같습니다.
|
|
|
NBA app - 내가 경기 속 선수가 될 수 있다면~ |
|
|
이번에 말씀드리려고 하는 것은 스마트폰 NBA app에 들어간 기능으로 올해 2월 경에 소개되었습니다. ( 참고영상) 영상에는 무대에 올라온 분의 모습을 3D 스캔한 후 실제 NBA 농구경기 영상에서 다른 선수로 대체하는 장면들이 나오는데요. 보는 순간 우와... 하며 놀랬습니다. 기존에 나와 있던 다양한 AI 기술을 적용한 것이긴 하지만 결과물 영상에서 거의 거부감을 느끼지 못할 정도로 잘 만들어졌기 때문이었죠. 이 기능을 이용하면 방송으로만 NBA를 즐겨온 수많은 농구팬들이 세계적인 경기 무대에서 현란하게 드리블하며 경기하는 자신의 영상을 만들 수도 있겠죠. 응용 범위에 따라 재미나고 색다른 볼거리를 제공할 수 있을 것으로 생각됩니다. |
|
|
사진) NBA app의 AI기능을 이용해서 NBA 경기 내용에서 player를 대체하는 예시 영상 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미난 소식을 가지고
찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|