변화를 기회로 생각하는 훈련이 필요합니다.
사진 : 'Hidden Figures' 영화의 한 장면 중 일부 Crop (출처)
|
|
|
안녕하세요, 구독자님.
이번 한 주도 보람차게 보내셨나요?
최근 대만에서 열린 컴퓨텍스에서 엔비디아의 CEO인 젠슨 황은 ' 모든 것의 가속화'와 ' 모든 움직이는 것의 자율화'를 언급했습니다. 기존 CPU를 이용하던 방식에서 CPU와 GPU의 결합을 통해 이룰 수 있는 가속컴퓨팅은 지속가능하다며 최대 100배가 빨라지는데 전력소모량은 3배만 증가시키는 결과를 얻을 수 있다는 수치까지 제시했죠. 이외에도 1년 단위의 GPU 업그레이드 계획, AI를 위한 차세대 고성능 네트워크 기술, 생성 AI 어플리케이션 개발을 지원하는 마이크로서비스 기술과 로봇을 기반으로 한 물리적 AI, 등등... 한번에 너무도 많은 것을 언급했네요. ( 글, 기조연설 영상)
아시는 바와 같이 엔비디아는 현재 AI분야에서 독보적인 위치를 차지하고 있습니다. GPU라는 하드웨어, CUDA 라는 소프트웨어 생태계, 그리고 이를 이용한 다양한 AI 기술 개발... 지난 번 소식 때도 똑같은 얘길 한 것 같긴 합니다. ^^; 어찌됐건 엔비디아의 이런 위상 때문인지, 이후에 나왔던 인텔, AMD 같은 기업들의 소식은 마치 함께 '反(반) 엔비디아 전선'을 형성한 것 같은 모습으로 비춰졌는데 1위를 따라잡기 위한 그들의 고군분투가 느껴졌기 때문인 것 같습니다. 그런데... 고작 10여년 전을 떠올려보면 IT 분야의 최강자는 다른 기업들이었습니다. 분야가 워낙 다양해서 일일이 언급하긴 어렵지만 하드웨어 부문만 보더라도 PC나 서버 CPU는 인텔, 모바일은 ARM, 메모리는 삼성 이런 공식같은 것이 있을 정도로 각자는 넘보기 어려운 강자였습니다. 그런데 AI의 등장과 함께 이 모든 것들이 단 몇 년만에 급변하는 것을 우리는 보고 있습니다. 심지어 LLM이나 생성형 AI 소프트웨어 부문에서는 순위가 채 1개월도 되지 않는 짧은 시간에도 엎치락뒤치락하며 바뀌기도 합니다.
새로운 기술이 나오고 이것이 받아들여지면 기존의 질서가 바뀌게 됩니다. 이런 것을 혁신이라고 하죠. 우리는 지금 AI로 인한 혁신의 시대를 살고 있습니다. 주도하는 몇몇 기업들을 빼고는 대부분 강제로 마주함을 당하고 있다는 느낌이 들죠. 이번 혁신도 다른 경우와 마찬가지로 기술적 측면을 넘어 우리를 둘러싼 세상을 해석하는 방식까지 바꾸도록 강요하고 있습니다. 그러다보니 개개인들은 자신의 시각을 변화에 맞춰 조정해내지 않는다면 많은 어려움을 겪게 됩니다. 변해버린 세상에서 심리적으로 뒤쳐지는 지체현상을 겪는 방식으로 말이죠.
얼마 전 유튜브에서 'Hidden Figures'라는 제목의 영화 요약편을 봤습니다. 흑백 인종 차별이 여전한, 소련과의 우주 경쟁에 한창이던 1960년대 미국을 배경으로 NASA (미항공우주국)에서 근무했던 흑인 여성 계산원(실제로는 수학자?)들의 실화를 그린 영화였습니다. 사람이 직접 수치 계산을 해내던 중에 IBM 컴퓨터가 소개되어 실직할 위기를 겪지만 앞서서 이를 활용하는 스킬을 익힘으로써, 도리어 이후에는 더 큰 기회를 얻게 되는 에피소드도 나옵니다. 우리가 매일매일 경험을 하듯 새로운 기술은 언제든 등장할 수 있죠. 그러니 영화 상의 흑인 여성 계산원들처럼 이번 AI의 등장을 위기보다는 기회로 보고 이를 활용할 때 나올 수 있을만한 세상의 질서나 삶의 모습을 상상해보고 이를 준비하기 위한 훈련을 해 나가야 할 것이라 생각합니다. |
|
|
6월은 잘 아시다시피 호국보훈의 달입니다. 최근 우크라이나-러시아 전쟁과 같이 세계 곳곳에서 들려오는 다툼의 소식을 접하면서, 한국전쟁 때 나라를 지키기 위해 목숨을 바쳐 싸워주셨던 분들께 감사하는 마음을 가지게 됩니다. 구독자님들도 이미 현충일에 묵념하면서 그런 생각을 해 보셨겠지만 다시 한번 감사의 마음을 나누는 시간을 가져보시기 바랍니다. |
|
|
오픈AI, 로봇 AI 부문 강화
오픈AI는 4년 전 해체했던 로봇팀을 부활시키고 Figure AI와 파트너십을 맺고 협력하기로 했다고 합니다. 얼마 전 OpenAI의 LLM 기술이 접목된 Figure 1 로봇의 시연이 있었죠? 사실 그 이후 Figure AI와의 협력은 업계에서 예상하고 있던 수순이기도 했습니다. AGI 개발을 위해서는 텍스트 데이터 만으로는 어렵고 사람이 가진 감각 대부분이 반영되는 물리적 세계의 데이터가 필요할 수 있다는 논의가 나오고 있기 때문이죠. 그러다보니 로봇, 그것도 휴머노이드 로봇과 같은 것을 이용한 모방학습 혹은 로봇자체가 수집하게 되는 데이터가 중요하게 여겨지기 시작했습니다. Figure AI외에도 테슬라, 구글 등에서도 이런 움직임을 보이고 있죠. (기사) |
|
|
앤트로픽, LLM의 내부 작동 방식 이해 실마리 찾아
LLM과 같은 복잡한 AI 모델들은 내부적으로 어떻게 작동하는지 이해하기 어렵고 그러다보니 예전부터 블랙박스라고 불려 왔습니다. 질문에 대한 답이 어떤 방식으로 도출되었는지를 정확히 설명할 수 없다는 것은 그 답을 신뢰할 수 있는가 하는가 하는 논의로 이어집니다. 최근 발표된 구글의 Gemini 최신 버전에서도 생뚱맞은 답변들을 하는 바람에 논란이 된 바 있죠. 이 문제 때문에 ' 설명 가능한 인공지능 (XAI: eXplainable AI )'이라는 분야가 화두가 되기도 했습니다. 이 와중에 앤트로픽은 Claude 3 Sonnet 모델에 대해 LLM 내부의 대략적인 개념 상태를 매핑하는 것을 성공했다고 발표했습니다. 즉, LLM 내부의 작동 방식을 개략적으로 이해할 수 있게 되었다는 것이죠. 뿐만 아니라 이를 기반으로 인위적인 조작까지 가능하다는 것도 알게 되었다고 하네요. ( 기사 , 기사, 발표글) |
|
|
사진 : 'Inner Conflict' feature에 가까운 feature map 예시 (출처) |
|
|
구글, 검색 순위 알고리즘 내부 문건 유출
구글의 검색 순위 알고리즘과 관련된 2500페이지 분량의 내부 문건이 깃허브에 공개되었다가 삭제되는 사건이 있었다고 합니다. 기존 구글의 주장으로는 사용자가 사이트에서 클릭하는 패턴과 사용자의 사이트 접속 데이터 등이 순위에 크게 영향을 미치지 않는다고 했으나 그렇지 않으며, 웹 사이트 내의 전문성, 권위, 신뢰성 등이 중요하다고 했으나 이번에 유출된 내용에 따르면 내용보다는 트래픽이 많은 대형 웹사이트가 검색 배열에서 높은 순위를 차지하도록 되어 있었다는 것이 공개된 것이죠. 이렇게 되면 중소 규모의 기업이나 신생 언론사 등이 검색 순위에서 밀리게 되는 셈입니다. 구글은 문서가 진짜이긴 하지만 현재는 적용되지 않는 버전이라는 것으로 넘어가려고 하는 모양새인데... 거짓말은 거짓말을 낳고 신뢰는 금이 가기 시작하면 더 크게 깨지기 마련인데 구글이 어떻게 추가적인 대책을 내놓을지 궁금해 집니다. (기사) |
|
|
NPGA:
Neural Parametric Gaussian Avatars
|
|
|
실시간으로 움직이는 실감나는 아바타를 만드는 것은 아주 어려운 일입니다. 머리카락이나 얼굴 표정 등 디테일한 부분들을 처리하기 위해서는 상당히 많은 컴퓨팅 연산과 고도의 컴퓨터 그래픽 기법이 필요하기 때문이죠. NPGA는 3D 가우시안 스플래팅 기법을 이용해 실제 사람처럼 움직이는 디지털 아바타를 만드는 방법으로 다양한 각도에서 찍은 비디오를 컴퓨터 그래픽과 기계 학습 기술로 처리해 사람의 머리를 매우 사실적으로 묘사한 3D 디지털 모델 (아바타)를 만들 수 있게 합니다.
우선 이 방식은 다양한 각도에서 찍은 비디오를 이용해 사람의 외모와 움직임에 대한 자세한 정보를 얻게 되며 얼굴 표면의 점들(위치, 색상 정보 포함, Gaussian Point Cloud) 정보를 이용해 대상 얼굴의 기본 3D 모델을 만든 뒤 움직임과 표정 변화를 반영하기 위해 NPHM (Neural Parametric Head Models)을 통해 일련의 지침을 사용합니다. 이를 통해 고품질의 실제와 유사한 이미지, 표정 등에서의 뛰어난 표현력을 가진 아바타를 만들 수 있게 되는 것이죠. 만들어진 아바타는 영화나 비디오 게임, 가상현실(VR), 메타버스나 온라인 회의 등에서 사용할 수 있습니다.
|
|
|
M3 : Matryoshka Multimodal Models
|
|
|
멀티모달 모델을 이용한 이미지 이해를 수행할 때, 이미지가 고해상도이거나 동영상의 길이가 긴 경우 많은 시각적 토큰 정보가 필요하므로 비효율적이게 됩니다. 이를 해결하기 위해 시각적 정보를 여러 단계의 세밀도로 나타낼 수 있도록 하는 모델이 소개되었는데 그것인 Matryoshka Multimodal Models (M3)입니다. 이 모델의 특징은 이미지를 필요에 따라 여러 단계의 시각적 토큰으로 나타내어, 정보가 점점 더 세밀해지는 구조를 만든다는 것으로 단계를 진행될수록 고수준 정보에서 세부 정보를 포함하게 된다는 것과, 이미지의 복잡도에 따른 적정한 크기의 토큰을 사용함으로써 최적의 성능과 자원 사용의 효율성을 극대화할 수 있다는 것입니다.
|
|
|
사진 : Matryoshka Multimodal Models의 아키텍처 (출처) |
|
|
텍스트를 이용한 이미지 생성 모델에서 깊이 지도, 스케치, 사람의 자세 등의 조건을 추가하기 위해 ControNet이라는 것을 사용했었습니다. 이미지의 경우는 대부분 잘 작동하지만 비디오에 적용하기 위해서는 각 프레임 별로 이 작업이 이뤄져야 하고 프레임 간에는 일관성을 보장하기 어렵다는 문제가 있었죠. CTRL-Adapter는 ControlNet을 효율적으로 재사용하여 이미지 또는 비디오 확산모델에 다양한 공간 제어 조건을 추가할 수도 있도록 만든 프레임워크입니다. 이를 통해 이미지와 비디오 생성 시 더 세밀한 제어가 가능해지고 연산을 위한 자원도 절약할 수 있습니다. 이 프레임워크는 미리 훈련된 ControlNet의 특성을 새로운 확산 모델에 맞게 조정하는 어댑터 모듈을 훈련시키는데, 이는 이미지의 공간적 특징과 비디오의 시간적 일관성 유지를 위한 공간/시간 컨볼루션과 다양한 조건에 따라 동적으로 특징을 조정하기 위한 공간/시간 어텐션 메커니즘으로 구성되어 있습니다.
|
|
|
사진 : CTRL-Adapter 프레임워크 개요 (출처) |
|
|
초상화 비디오를 만드는 한 가지 방법은 단일 이미지에서 이어지는 여러 장면들을 생성하는 것입니다. 이 때 텍스트, 오디오, 이미지 참조, 포즈, 깊이맵 등 다양한 신호를 이용할 수 있는데, 모든 신호가 동일하게 작동하진 않습니다. 특히 오디오 신호는 포즈나 참조 이미지 등에 비해 약하게 작동하는데 그러다보니 오디오 신호를 이용해서 비디오를 생성하는 것이 어렵습니다. V-Express는 점진적인 드롭 작업을 통해 비디오 생성 시 다양한 제어 신호를 고르게 작동하도록 만들어 주는 방법입니다. 이를 통해 오디오 신호를 이용해 인물의 입을 움직이게 하면서도 포즈나 이미지의 영향이 잘 반영된 초상화 비디오를 효과적으로 생성할 수 있게 되는거죠.
|
|
|
사진 : V-Express 프레임워크 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|