AI기술이 지향하고 있는 방향을 생각해 봅니다. 안녕하세요, 구독자님.
이번 한 주도 활기차게 잘 보내고 계신가요?
갑자기 한파가 몰아닥쳐 사무실 밖에만 나가도 살을 에이는 듯한 칼바람이 느껴집니다. 엄살 아니냐구요? 사실 그렇긴 합니다. 제가 있는 이곳의 외부 온도가 채 영하 5도가 되지 않거든요. 하지만 바람이 불때 체감으로는 대략 5~7도 정도 더 낮게 느껴지는 것 같습니다. 예전 한겨울에 소백산 정상에서 제대로 된 칼바람도 겪었었는데 하면서도 그건 예전 젊었을 때의 몸이었고... 지금은 훨씬 덜한 추위에도 벌벌 떠는 상태가 되어 버리고 말았습니다. 어쨌든 이것도 '적응'이니까요...
구 소련연바에 속했고 현재는 러시아 제일 동쪽을 접하고 있는 사하 공화국(Sakha Republic)에 야쿠츠크라는 도시가 있습니다. 이곳은 겨울 평균기온이 영하 27~35도 가량이고 겨울철에는 영하 70도까지 떨어진다고 합니다. 오죽하면 영하 55도가 되어야 휴교령이 내려진다는 전설같은 얘기도 있습니다. 도대체 영하 70도라... 상상이 가지 않습니다. ( 1921년 영하 71.2도까지 떨어진 기록이 있다네요... ^^;) ( 관련영상)
최근 미국에서도, 북극에서 내려온 한파와 겨울폭풍으로 곳곳이 비상사태가 선포되는 등 피해가 속출하고 있다고 합니다. 체감 영하 56도... 앞선 야쿠츠크에 비하면 훨씬 덜하겠지만 그 전에 이런 추위를 겪어보지 않은 이들에게는 흡사 영화 '투모로우'와 같은 재난이나 마찬가지일 것입니다. 이 때문에 대부분의 학교 수업은 원격으로 진행되고 회사에 따라서는 예전 코로나 때처럼 원격근무로 대체됩니다. 물론 이 사태 이전에도 미국 다수의 기업은 여전히 원격근무를 지원하고 있긴 했습니다. 이런 이상 기후 현상은 비단 미국에서만이 아니라 전 세계적으로 나타나고 있습니다. 어쩌면 조만간 우리나라도 비슷한 경험을 하게 될 지도 모릅니다.
|
|
|
사진: Bing Creator로 생성한 가상 폭설 이미지 |
|
|
돌이켜보면 코로나 시국 때는 정말 많은 기업들이 전염병 확산을 막기 위해 원격 근무를 했었습니다. 당시 공유오피스와 원격근무 서비스나 이를 제공하는 기업들이 대거 등장했었고 그 가운데 메타버스를 표방하며 가상 오피스 서비스를 제공하는 곳들도 있었죠. 지금이야 메타버스가 살짝 수면 아래로 내려가 있는 것 같은데, 언제 다시 훅 하고 튀어 오를지 모를 일입니다. 이전 소식에서 언급했던 것처럼 '애플'이 뛰어 들었으니 서서히 판은 깔리고 있다고 생각이 되거든요. 그래서인지 최근에는 LLM과 생성형 AI 모델 외에도 Video 영상이나 3D 개체 혹은 인간 아바타를 만들고 거기에 움직임을 주는 모델들이 다수 소개되는 것 같습니다. 주로 메타버스나 가상현실 등에 사용될 법한 것들 말이죠.
앞으로의 미래의 모습을 상상해 보면 지금과는 참 많이 달라진 환경일 것 같습니다. 우선, 기후변화로 인해 인구의 이동이 본격화되거나 심지어 다행성으로 그 범위가 넓어질 수도 있겠죠. 전염병의 발생도 이전보다는 빈번하게 발생할테고, 모빌리티 기술, AI 및 가상환경 기술, 통신 기술, 로봇 기술의 발달로 전세계가 하루 생활권으로 재편되고 원격근무가 완전한 뉴노멀이 될 수도 있을 것 같습니다. 개인들은 지금처럼 현실에서만 존재하지는 않고 다양한 가상 환경에서 서로 다른 페르소나를 지닌 채, 다른 이들과의 커뮤니티를 구성해 가며 살아가고 있겠죠. 현재는 일부 사람들에게 해당되지만 앞으로는 거의 대부분의 사람이 그렇게 되지 않을까 싶습니다.
|
|
|
사진 : CHOIS 모델에서 보여주는 가상 캐릭터의 움직임 지시 예시 (출처) |
|
|
가상기술의 활용에 대해 게임을 예로 들면, 지금은 미리 3D로 만들어진 가상인물에 각자가 원하는 형태로 외모를 커스터마이징하고, 행동은 마우스나 키보드 클릭을 이용해서 지시하거나 제한된 경우의 미리 지정된 행동을 선택하게 하고, 가상인물들 사이의 대화는 주로 텍스트 입력을 이용하죠. 아... 사람의 목소리를 직접 이용하는 경우도 있지만 대화 상대가 뒤에 실제 사람이 있는 가상인물이 아니라 프로그램으로 만들어진 가상인물(예: NPC)이라면 아직은 대부분은 텍스트를 이용해야 할 겁니다. 조만간 바뀌겠지만요.
그런데 최근 소개되고 있는 AI 기술들이 좀 더 고도화된다면 이렇게 바뀌지 않을까요? AI를 이용해서 자신이 체험하고 싶은 가상환경이나 아바타를 직접 만들게 되겠죠. blockade Labs의 서비스 같은 것이 배경이나 환경 생성의 예가 될 수 있겠네요. 거기에 활동하게 될 아바타는 사용자의 프롬프트나 참조할 사진같은 것을 이용하면 자동으로 3D 캐릭터가 만들어지고, 행동 지시는 직접 말로 하거나 시연자의 몸 동작을 그대로 따라하게 하고 필요한 물건이나 기구, 건물 등이 있으면 즉석에서 그때그때 만들게 될테죠. (이런 용도로 사용할만한 것으로 최근 디즈니에서 The HoloTile 이라는 기기도 있습니다!) 사용자가 인터페이스하는 방식은 초기에는 VR/AR/XR 기기를 착용하는 것에서 나중에는 뇌와의 직접 인터페이스를 이용하게 될 수도 있구요. 게임의 내용도 사용자의 행위에 따라 실시간 내용이 변경되는 방식으로 바뀌겠죠. 감각까지 완전히 모사할 수 있게 된다면 실제 게임과 현실을 구분하지 못하는 상태가 될 수도 있을 겁니다. 흠... 새로 나오고 있는 AI 모델들을 보면서 한 뜬금없는 생각의 흐름이 여기까지 와 버렸습니다. ^^;
구독자님,
아무쪼록 매서운 추위에도 건강 잘 유의 하시길 바랍니다. 파이팅~!!!
|
|
|
카카오브레인, MLLM '허니비' 공개
글로벌 빅테크 기업들과 국내 네이버 등이 LLM을 발표하고 나서도 한참을 조용히 있던 카카오에서 드디어 새로운 멀티모달 초거대 언어모델(MLLM)인 '허니비'를 공개했습니다. 이미지와 텍스트 프롬프트를 인식해 텍스트로 답변하는 형식인데 다수의 벤치마크에서 타사 LLM 대비 높은 성능을 보였다고 합니다. 이름을 꿀벌로 잡은 것이나 처음부터 멀티모달로 내 놓은 것, 그리고 코드를 오픈소스로 공개( 깃헙)한 것이 신선해 보입니다. (아직은 추론코드만 되어 있고 학습코드는 공개 예정으로 되어 있습니다) 카카오는 이와 더블어 2024년에 진행할 ' Service Driven AI' 전략을 발표했습니다. 기존 서비스 하나하나에 순차적으로 AI를 접목시켜 나가겠다는 것이죠. ( 기사) |
|
|
사진: Honeybee 모델의 실행 예 (출처) |
|
|
OpenAI CEO 샘 알트만, AI반도체 생산 논의 위해 방한
OpenAI의 CEO인 샘 알트만이 금주 방한해서 반도체 기업들과 AI칩 생산을 논의할 것이라고 합니다. SK하이닉스와 삼성전자가 대상이 될 것 같은데 대만의 TSMC나 미국의 인텔을 제외하면 가장 큰 공급처이기도 하면서 동시에 AI반도체에 반드시 필요한 HBM 기술을 보유한 기업들이기도 하니 중요하다고 판단되어서겠죠. 이는 지난 주 블룸버그에서 보도( 기사)한 AI반도체 생산을 위한 글로벌 네트워크 구축 계획의 일환으로 판단됩니다. AI 기술의 발전과 이로 인해 생길 전 산업분야로의 파급효과를 감안하면 현재의 수준보다 훨씬 더 많은 양과 고품질의 반도체를 ' 안정적'으로 생산,공급할 수 있는 네트워크가 반드시 필요할테니까요. ( 기사) |
|
|
인공지능 기반 CCTV, 치매노인 등 실종자 추적에 한몫
업무를 하다보면 휴대전화 메시지로 실종자에 대한 긴급 안내 문자 등이 전송되는 경우가 많습니다. 다른 곳은 모르겠지만 제가 있는 성남 쪽은 하루에도 몇 번씩 알림 문자가 뜨는 것을 경험할 수 있는데요... 아무래도 실종된 분들이 치매를 앓고 계시거나 해서 빨리 찾지 않으면 위험할 수 있기 때문에 긴급 안내 형태로 진행되고 있는 것 같습니다. 이런 서비스를 통해 주변에 비슷한 분이 계시다면 운좋게 실종된 분을 찾을 수도 있겠죠. 아무래도 시민들의 참여의식이 절실히 요구되는 부분이라 생각됩니다.
그런데, 이렇게 시민들의 의식에만 의존하지 않고 인공지능 기반 CCTV를 활용하는 사례들이 하나둘씩 등장하고 있습니다. 지자체와 경찰청에서 관리하고 있는 CCTV 영상을 분석해서 실종자 등록이 되면 실종자의 인상착의 등을 기반으로 추적 대상을 선정하고 이를 기반으로 실종자의 동선을 분석해서 찾는 방식입니다. 교차로 등 교통 관련 CCTV는 주로 경찰청에서, 나머지는 지자체에서 관리하는 경우가 많아 둘 간의 협업도 필요할 것 같습니다.
소이넷도 SQI소프트 등과 컨소시움으로 작년에 안산시에 실종 치매노인,아동찾기 시스템 구축 과제를 수행한 바 있습니다. ( 기사) 인구 노령화가 본격적인 사회문제가 되고 있는터라 이런 시스템 구축은 앞으로 더 많은 지자체에서 도입하게 될 것 같습니다. ( 기사, 기사, 기사) |
|
|
사진: 안산시에 적용된 실종 치매노인,아동 찾기 서비스 개요 (출처: SQI소프트) |
|
|
중국 베이징시, 자율주행 순찰차 운행
중국 베이징시에 무인 자율운행 순찰차가 도입된다고 합니다. 스타트업 네오릭스가 개발한 15대의 순찰차가 24시간 순찰한다고 하네요. ( 기사) 자율주행 레벨 4 등급 수준의 기술이 적용되었다고 하는데 주요 순찰 지점이 인구 밀도가 높은 공원, 지하철역, 쇼핑몰 같은 곳이라고 하니 기술에 대한 자신감이 확 느껴집니다. 아무래도 만일의 사고 상황 때문이라도 반대의 경우, 즉 사람이 뜸한 지역 중심으로 먼저 실증하기 마련이니까요. 중국은 AI 영역에서는 데이터 강국, 규제 강국이면서 동시에 인재 강국으로 가고 있는 것 같습니다.
최근 독일의 스타트업 베이(Vay)라는 곳에서 텔레 드라이빙(사람에 의한 원격 무인 운전) 서비스로 차를 배달하는 서비스를 시작했다는 기사가 있었습니다. 자동차 렌탈 신청 시 차량을 사용자가 원하는 위치까지 배달해 주는 서비스를 하는 것인데 우리나라로 치면 소카존이 자기가 호출한 위치에 있는 것과 같습니다. 인공지능을 이용하는 무인택시와는 차별화되는 서비스라고 할 수 있는데 사실 이 방식은 크루즈 무인택시에서 사고가 났을 때 원격 드라이빙을 이용하는 방식이나 혹은 작년 7월 쯤에 기사에 나왔던 미국 스타트업의 Halo의 방식과 비슷하다고 할 수 있습니다.
이렇듯 자율주행이 기술은 발전하지만 아직 약간은 부족한 듯한 기술력과 강한 규제 등으로 인해 우리 주변에서 쉽게 볼 수 없는 상황인데 이런 틈새를 노리는 서비스가 한동안은 유행할 수도 있을 것 같습니다. 나중에는 잠시 지나가는 기술이 될 수도 있겠지만요... |
|
|
비주얼 더빙은 주어진 오디오와 비디오 영상 속 배우의 입술 동작을 동기화해서 생성하는 프로세스를 말합니다. 소개 페이지 상의 예시 동영상은 프랑스의 마크롱 대통령의 연설 영상이 있는데 여기에 특정 문장을 입력으로 주면 기존의 음성에 맞는 입술 동작이 아니라 주어진 문장에 맞는 것으로 변형되어 영상이 나가는거죠. 해당 영상에서는 마크롱 대통령이 Dubbing for Everyone 기법에 대해 설명합니다. ^^;
기존에도 이런 목적으로 개발된 모델(예: LipGAN이나 Wav2Lip 등등)이나 서비스(예: Deepdub)들이 없었던 것은 아닙니다. 하지만 대부분 단일 개인 데이터셋을 오랜 시간 학습시켜서 결과물이 나오곤 했었죠. 그런데 이 방식은 4초 가량의 적은 데이터만으로 고품질의 시각적 더빙을 가능케 한다는데 그 의의가 있습니다. 말하는 스타일까지 다 포함해서 말이죠.
이것은 다양한 사람들의 데이터를 사용해 만든 '사전 훈련 모델'을 통해 이뤄지며, 저자들은 비디오 생성 시 오류를 줄이기 위한 후처리 프로세스도 함께 제안하고 있습니다. 소개된 파이프라인을 보면, 영상 속 얼굴에 딱 맞는 크롭된 3D 재구성을 얻고, 다양한 사람들의 데이터셋을 이용한 pre-trained 모델을 훈련하고, 새로운 행위자(actor)에 맞춘 미세조정을 진행하는 다단계 프로세스를 거칩니다.
|
|
|
사진: 사용된 기법의 파이프라인 (상), 모델 아키텍처 (하) (출처) |
|
|
DragNUWA는 의미, 공간 및 시간적 측면에서 고도로 제어 가능한 비디오 생성을 쉽게 해주기 위해 텍스트, 이미지, 궤적의 세가지 제어 요소를 이용할 수 있도록 한 비디오 생성 모델로 마이크로소프트에서 발표했습니다. 비디오 영상 내의 각 개체 개별적으로 움직임을 컨트롤 할 수 있다는 것이 특징인데 아쉽게도 이 기술은 연구 목적으로만 공개되어 있습니다. 현재 Stable Video Diffusion을 백본으로 사용하는 1.5버전까지 나와 있으며 검색을 해 보면 깃헙에 공개된 gradio 데모 외에 ComfyUI를 이용해서 테스트 해 볼 수 있는 도구( 링크)도 찾을 수 있습니다.
|
|
|
사진: DragNUWA 모델 아키텍처(상), 지원 방식 예시(하) (출처) |
|
|
CHOIS : Controllable Human-Object Interaction Synthesis
|
|
|
CHOIS는 텍스트 설명으로 인간과 개체간의 상호 작용을 생성하는 모델로 3D 가상공간에서 현실의 인간과 개체간의 움직임을 그대로 구현해 낼 수 있습니다. 인간과 사물의 상호 작용 방식을 이해하고 예측하여 사실적인 동작을 생성하기 위해 동작의 상세한 시퀀스를 시뮬레이션 할 수 있는 생성 모델의 일종인 제어가능한 조건부 확산 모델 (Conditional Diffusion Model) 기술을 사용하고 있습니다.
캐릭터와 사물의 초기 상태 정보와 경유지(waypoint) 그리고, 작업을 설명하는 자연어 텍스트를 주면 움직임 경로를 예측하고 설명 내용대로 캐릭터와 사물의 동작을 동시에 만들어내게 됩니다. 즉, 자신의 역할을 하는 아바타의 움직임을 만들어낼 수 있게 되는건데, 예를 들어 바닥에 떨어진 책을 책상 위로 올려두라는 지시를 하게 되면 그 행동을 수행하는 3D 움직임이 만들어지는 겁니다. 가상환경을 배경으로 만들어두고 이와 결합시키면, 마치 실제 생활공간에서 사람 역할을 하는 아바타들 간에 상호 작용을 하도록 만들 수도 있겠죠. 합성영상 데이터 제작이나 자유도 높은 3D 게임 등등... 적용될 수 있는 분야는 무궁무진할 것 같습니다.
|
|
|
사진 : 처리 프로세스 개요 (상), 지시 프롬프트에 따른 장기 상호작용 합성 예시 (하) (출처) |
|
|
FMA-Net은 흐릿한 저해상도 영상을 깨끗한 고해상도 영상으로 복원하는데 사용할 수 있는 카이스트와 중앙대 연구진들이 발표한 모델입니다. 이를 위해 초해상도(SR)와 디블러링(Debluring)을 공동으로 학습하는 VSRDB 프레임워크를 제시하고 있습니다. VSRDB 프레임워크는 흐름 기반 동적 필터링(FGDF)과 다중 주의(FRMA)를 통한 반복 기능 개선을 진행하며 각각에 대한 설명은 다음과 같습니다.
- FGDF(Flow Guided Dynamic Filtering):
모션 패턴 이해를 통해 디테일을 높이는 목적으로 사용되며 프레임 간의 동작 예측과 그에 따른 동적 필터 적용으로 진행됩니다. 비교적 작은 크기의 커널을 이용하여 대규모 모션을 효율적으로 처리한다고 합니다.
- FRMA(Iterative Feature Refinement with Multi-Attention):
흐릿한 프레임을 처리하는 모델의 능력을 향상시키는 목적으로 사용되며, 프레임의 중요 영역에 중점을 두고 광학 흐름과 해당 폐색 마스크를 사용하여 잔여 학습 방식으로 기능을 개선합니다.
성능이 많이 떨어지는 카메라로 저조도에서 지나가며 영상을 찍을 때 주변 사물은 뭉개져서 제대로 보이지 않고 화질도 엉망인 경우가 많은데 그런 영상도 깔끔하게 복원시켜 주고 있습니다. 가까운 실생활에서도 저처럼 폰의 카메라 성능이 떨어지는 사람에겐 도움이 될 것 같습니다. 코드가 공개되면 얼른 한번 테스트를 해 보고 싶네요. ^^;
* 코드와 사전학습 가중치는 조만간 공개될 예정이라고 합니다. |
|
|
사진 : 모델 Network 아키텍처 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|