기술에 대한 기대의 미니멀리즘을 생각해 봅니다 안녕하세요, 구독자님.
이번 한 주도 잘 보내셨나요?
날씨가 따뜻해지면서 주변에 벚꽃, 개나리, 생강나무 할 것 없이 다 꽃망울을 터트리고 있습니다. 평년보다 꽃 소식이 좀 늦은 것 같긴 합니다. 그러다보니 일부 지역에서는 벚꽃없는 벚꽃축제를 진행했다는 소식도 있었습니다. 날씨라는 것도 그렇지만 그것에 영향받는 식물의 생리주기를 예측한다는 것은 더 어려운 것 같습니다. 예전 어떤 글에서 벚꽃의 개화 시기를 예측하는 것을 개구리 튀는 방향을 예측하는 것만큼 어렵다는 표현을 봤던 것이 생각나네요. 요사이 인공지능 시장의 발전을 보면서 비슷한 생각을 하게 됩니다. 어디로 튈까, 어떻게 변할까, 그리고 다른 것에는 어떤 변화를 야기할까? 등등 말이죠...
인공지능 시장이 만개하고 있다는 것에 이의를 제기하는 분은 별로 없을 것이라 생각합니다. 2030년까지 연 평균 37% 대의 성장을 예상하는 곳도 있습니다. 그러다보니 AI서비스를 위한 데이터센터와 거기에서 사용될 AI반도체, 냉각, 에너지, 케이블, 운영 노하우 등등, 연관된 많은 기술요소가 필요하게 되고 많은 테크 기업들이 이런 기술을 확보하기 위해 분주하게 움직이고 있죠. 그 가운데 가장 중요하게 떠 오른 전기에 대해 얘기해 보겠습니다.
올 2월에 나온 기사에 소개된 국제 에너지기구의 '일렉트리시티 2024' 보고서에 따르면, 2022년 전 세계 데이터센터의 전력소비는 460TWh로 전세계 전력 수요의 2%를 차지했으며, 이 규모는 2026년이 되면 최소 620 ~ 1050TWh로 많게는 지금의 2배가 넘어설 전망이라고 합니다. (이 가운데 미국은 200TWh 수준이라고 합니다) 2022년 기준으로 우리나라 전체의 연간 전력 사용량이 568TWh이니 데이터센터만으로도 제조 강국 중 하나인 우리나라의 전력 소비량의 35% 가량을 쓴다니 참 대단합니다.
그런데... 이 가운데 GPU 등 연산을 주로 하는 쪽에 사용되는 전력은 대략 절반 수준이고 나머지 40% 가량은 서버에서 나오는 열을 식히는데 사용된다고 합니다. 저전력 고효율 냉각기술이 중요하게 대두될 수 밖에 없겠습니다. 데이터센터에서 열을 식히는 방법으로 사용되고 있는 것은 기존의 공랭식(차가운 공기를 순환), 수랭식(비열이 높은 물을 이용한 냉각) 외에 비전도성 액체에 아예 열이 많이 나는 서버 같은 장비를 빠뜨리는 액침냉각 등이 있습니다. 국내에서도 액침냉각을 활용하는 사례가 하나씩 나오고 있는 것으로 알고 있습니다. 해외 사례를 보면, 마이크로소프트가 과거에 '나틱'이라 명명된 프로젝트를 진행했는데, 실제 컨테이너 형태의 데이터센터를 2년 넘게 바닷속에서 담근 상태에서 연구를 했다고 합니다. ( 기사) 또 다른 냉각방식으로 데이터센터를 수영장 아래에 조성한 스타트업 딥그린의 사례도 있습니다. 데이터센터에서 나오는 열을 이용해 수영장 물을 데우는 방식으로 서로 상부상조한 것인데, 컴퓨터 12개 수준의 크기라 일종의 실험이나 쇼케이스 정도로 생각됩니다. ( 기사) 이 외에 AI로 냉각 최적화 문제를 풀겠다는 접근을 하는 곳도 있습니다.
냉각도 중요하지만, 부족할 것으로 예상되는 전기공급을 늘이는 방법도 시급해졌습니다. 데이터센터 외에도 전기차의 시장 확대도 급격하게 진행되고 있거든요. 그래서, 기존 운영중인 원전의 사용연장, SMR(소형원전), 신재생에너지(풍력, 태양광 등등)와 ESS(에너지 저장장치), 데이터센터 자체 보조 발전소, 수소발전, 원거리 전기전송을 위한 초전도 기술 고도화, 핵융합(아직은 먼~ ^^;) 등등 다양한 기술개발과 시도가 진행되고 있습니다. |
|
|
그런데... 그렇게 필요한 것들은 우리가 어느 수준까지의 인공지능이 필요하고 어느 범위까지 적용할 것인가에 따라 그 정도가 달라질 것 같습니다. 최근 젠슨 황이 샘 앨트만의 7조달러 모금 계획(AI반도체 개발을 위해)에 대해, 하드웨어의 발전으로 그 정도까지 필요치는 않을 것이라고 얘기한 바도 있고, 인류가 영화같은 미래를 단번에 구현하고 맞이할 필요까진 없을 것 같고 해서 그런 생각을 하게 된 것 같습니다. 원한다고 해도 실제 그 세상이 한순간에 내 앞에 펼쳐질 것이라고 생각지도 않는 것이, 시간에게는 계획된 것을 바꾸는 힘이 있기 때문이죠.
플라즈마를 1억도 수준으로 유지하며 운전 시간들을 연장해 가는 KSTAR(한국형 핵융합연구로) 소식을 들었을 때, 그 분야에 문외한인 저는 조만간(10년 내?) 기술적인 문제들이 해결되고 핵융합의 상업운전이 가능해질 것으로 생각했었는데 현실은 그게 아니었죠. 이런 성급한 기대는 양자컴퓨터와 자율주행, AGI 등에 대해서도 마찬가지로 적용되는 것 같습니다. 어떤 기술이 나타나기까지 긴 개발기간과 수많은 시행착오가 있을테고 그게 발표되고 나서도 제품화/양산이 되어 상업적으로 의미를 가지게 될 때까지 어쩌면 그 이전보다 더 길고 어려운 과정들을 거쳐야 할 것입니다. 하지만, 그 과정 이후에 사람들이 해당 기술을 심리적, 사회적으로 받아들이는 것은 훨씬 더!!! 지난한 과정이 될 것입니다.
전력 소비가 늘어날 것에 대한 준비가 필요하다는 얘길 길게 했네요. 이와 더불어 불필요한 부분에 전기를 낭비하지 않는 것도 그만큼 중요한 것이 아닐까 싶습니다. 그 외에 집안 인테리어에서의 미니멀리즘 말고도, 기술에 대한 우리의 기대수준에서의 미니멀리즘도 한번쯤 고민해 봐야 하는 시점이 오지 않을가 하는 생각을 해 봅니다.
|
|
|
OpenAI, 음성 복제를 지원하는 Voice Engine 공개
OpenAI가 화자와 매우 유사한 자연스러운 음성을 생성하는 음성합성 기술인 Voice Engine을 공개했습니다. 15초의 짧은 음성 샘플을 이용해서 감성적이고 사실적인 목소리를 만들어낼 수 있다고 합니다. 현재 Voice Engine은 오용을 우려해서 소규모 그룹에게 비공개로 테스트를 진행하고 있다고 합니다. 기술적으로는 출처 추적이 가능한 워터마킹 등의 안전조치가 구현되어 있다고 하네요. 어찌됐건 이렇게 개발된 기술이 결국은 산업 전반에 광범위하게 사용될 것임을 알 수 있습니다. 우리가 이미 유사한 서비스나 기술이 시장에서 어떻게 판매되고 작동하고 있는지 많이 봐 왔기 때문이죠. OpenAI는 텍스트, 이미지나 비디오, 거기에 음성까지 전 분야에 걸친 기술력을 과시하고 있는 셈입니다. 사이트에 공개된 내용을 보면 Voice Engine을 사용해서 비디오 번역을 하고 있는 곳으로 HeyGen을 언급하고 있습니다. HeyGen은 최근 X(트위터) 상에서, 생성된 영상 속의 사람이 실제인물인지 아닌지 때문에 갑론을박하게 만든 영상의 생성 서비스를 제공한 곳이기도 합니다. ( 기사, 사이트) |
|
|
OpenAI, 헐리우드 영화사들과의 SORA 관련 협의 진행
OpenAI가 헐리우드 영화사들과 만나 자사의 비디오 생성 모델인 SORA와 관련된 논의를 했다는 소식이 있었습니다. 상업 수준의 영상 생성을 위한 수많은 스태프와 촬영 기자재, 높은 개런티의 배우들이 필요치 않고, 제작 기간도 엄청 단축시킬 수 있으므로 영화 제작에 SORA를 활용할 것을 제안했다고 합니다. SORA가 공개된 이후 꾸준히 제기된 우려가 그대로 남아 있는 상황에서 OpenAI의 제안을 헐리우드에서 어떻게 받아들일지가 참 궁금합니다. AI의 산업계 침투에 대한 인간의 대응 가운데 가장 앞단의 일 가운데 하나이기 때문이죠. 실제로 미국에서는 SORA를 보고 8억 달러 규모의 스튜디오 확장 계획을 보류한 프로듀서도 있었습니다. ( 기사) |
|
|
미국 빅테크기업의 데이터센터 확장을 위한 투자 계획
마이크로소프트가 OpenAI와 1000억 달러라는 역대급 규모의 자금을 데이터센터 구축에 투입한다는 계획을 세우고 있는 모양입니다. 2030년까지 수백만개의 AI칩을 갖춘 슈퍼컴퓨터를 포함한 데이터센터 구축을 하려는 것인데 이름도 'Stargate'라고 명명했다고 합니다. ( 기사) 아마존도 앞으로 15년 동안 데이터센터에 1500억달러(200조원)을 쏟아 붓기로 했다고 합니다. ( 기사)
AI서비스 확산이 가시화되고 있고 이를 위해서는 학습이건, 추론이건 거대한 규모의 GPU, NPU 기반 데이터센터가 필요하다는 것은 잘 알려진 일이라, 방향 자체보다는 그 규모가 주목을 끌고 있습니다. 우리 돈으로 100조, 200조 이런 수준이니까요... 얼마 전 OpenAI CEO인 샘 앨트만이 AI 반도체 생산을 위해 7조달러 (9000조)를 모금하는 계획이 보도된 적이 있었습니다. 당시 너무 터무니 없는 규모라 그대로는 힘들 것이고 규모가 축소되면 가능한 시나리오가 아닌가 하는 의견들이 있었는데, 그만큼 AI 반도체와 이를 기반으로 한 AI데이터센터의 수요는 확고한 것 같습니다. |
|
|
Gaussian Head Avatar:
Ultra High-fidelity Head Avatar via Dynamic Gaussians
|
|
|
Gaussian Head Avatar는 사실적인 3D 아바타를 생성하는 모델입니다. Gaussian Splatting을 이용해 적은 데이터만으로도 2K 해상도의 제어 가능한 표정으로 현실적인 얼굴 아바타를 만들 수 있다고 하죠. 아무래도 몸 전체 대비 얼굴 부분은 움직임의 폭이 작기 때문에 유리한 측면이 있겠지만 한편으론 개별 사람의 특징이 한곳에 모여있는 곳이기도 하다보니 어중간한 품질로 했다가는 티가 나기 십상입니다.
Gaussian Head Avatar는 이런 문제를 해결한 아주 사실적이고 세밀한 표현까지 지원하는 얼굴 아바타를 생성할 수 있도록 해 줍니다. 제어 가능한 3D 가우스 스플래팅을 이용해 아바타 얼굴 모양을 만들고, 동적인 표현을 모델링하기 위해 MLP 기반의 표현 조건부 변형 필드를 도입했으며, 안정적인 훈련/수렴을 위해 기하학적 가이드 초기화 전략을 개발했다고 합니다.
|
|
|
사진: Gaussian Head Avatar 모델 overview (출처) |
|
|
BasicPBC (Paint Bucket Colorization)
|
|
|
BasicPBC는 애니메이션 채색을 자동으로 해 주는 기술입니다. 첫번째 프레임을 기반으로 이후 프레임들의 색상을 자동으로 채색해 주는 방식으로 진행되죠. 저는 개인적으로 만화, 애니메이션 등을 좋아하는 편이라 지브리나 디즈니, 픽사 등에서 나온 2D, 3D 애니메이션을 가끔씩 보는 편입니다. 그런데 그 작품들의 뒷편에는 수많은 작업자의 땀과 노력이 숨어 있다는 것을 잊고 보는 경우가 많습니다. 예전 지브리 스튜디오의 작품 제작 과정이 담긴 영상을 본 적이 있었는데, 워낙 오래된 영상이어서인지 원화 한장한장을 직접 손으로 그려가고 있었습니다. 영화로 상연하려면 최소 1초에 30~60장(요샌 더 높겠죠?) 정도가 필요할텐데 몇 시간 분량을 그렇게 만들어내려면 무지막지한 노가다(?!)가 필요하게 될 겁니다. '센과 치히로의 행방불명'이라는 작품을 만들 때는 제작 시간을 맞추기 위해 한국의 디지털 애니메이션 제작사의 도움을 받기도 했었죠. ( 기사)
이렇게 디지털 애니메이션이라는 컨텐츠를 제작하기 위해서는 많은 수작업이 필요한데 이런 것들을 획기적으로 줄여줄 수 있는 하나의 기술인 셈입니다. 특히 웹툰 등을 애니메이션으로 제작하는 사례들이 많이 나오고 있는 상황이라 해당 도메인에서는 도입을 고려하는 곳들도 있을거라 생각합니다. BasicPBC에서는 작업자가 첫 한 프레임만 채색하면 AI 알고리즘을 통해 후속 프레임들에 자동으로 색상을 전파합니다. 기존의 알고리즘 방식에서는 세그먼트 간 매칭에만 초점이 맞춰져 가려짐, 주름 등과 같은 문제들을 처리하기 어려웠는데 이를 세그먼트 간의 포함관계까지 함께 이해하도록 네트워크를 학습한 매칭 파이프라인을 적용함으로써 이 문제를 해결했다고 합니다. 이와 함께 3D렌더링된 라인아트와 그에 상응하는 색상화 이미지를 포함하는 PaintBucket-Character 데이터셋을 함께 공개했습니다.
|
|
|
사진: BasicPBC 아키텍처 (상), 적용 결과 예시 (하) (출처) |
|
|
LITA: Language Instructed Temporal-Localization Assistant
|
|
|
최근 이미지나 비디오 영상까지 다루는 MLLM(Multimodal Large Language Model)들이 많이 나오고 있고 그 가운데는 영상의 내용을 이해하고 이를 요약하거나 내용에 대한 답변을 해주는 경우도 있죠. LITA는 이런 모델 가운데 'When'에 대한 질문 답변에 강점을 가진 모델이라고 할 수 있겠습니다.
LITA는 상대적 타임프레임을 표현하기 위한 시간 토큰과 정확한 시간 위치 파악을 하기 위해 미세한 시간 해상도 캡처를 위한 SlowFast 토큰(빠른 토큰과 느린 토큰이라는 2가지 유형 고려)을 도입했습니다. 학습 데이터로는 사람들이 주석을 달아 정확한 시간을 나타내는 타임스탬프를 추가하고 이 작업을 훈련하고 평가하기 위한 Reasoning Temporal Localization(RTL)이라는 작업을 적용했고, 결과적으로 기존의 비디오 LLM 들 대비 높은 성능을 달성했다고 합니다.
|
|
|
사진 : LITA 모델 개요 (상), LITA 적용 결과 예시 (하) (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|