서로 소통하는 방법을 알아가야 합니다. 안녕하세요, 구독자님.
이번 한 주도 힘차게 보내고 계신가요?
얼마 전에 동물들이 내는 소리의 의미를 이해하기 위해 인공지능이 활용되는 사례와 관련된 기사를 읽었습니다. ( 기사, 기사) 각각 코끼리와 개에 대한 것이었습니다. 코끼리의 경우, 소통 과정에서 이름과 유사한 요소가 포함된다는 것을 발견한 것에, 개의 경우, 짖는 소리에서 성별, 품종, 소리의 뉘앙스를 알아채는 것에 인공지능 기술이 적용되었다고 하죠. 동물들의 소리를 일부라도 이해할 수 있게 된 것에 고무된 듯한 느낌을 받았습니다. 사람들이 말하는 언어 수준일지 아닐지는 모르지만 동물들도 서로 소통을 하고 있으므로 그들만의 의사 소통 수단을 당연히 가지고 있을텐데... 고도로 발전한 현재의 과학 기술 수준으로도 그것을 제대로 해독해 내지 못한다는 것이 한편으로는 의아한 일일 수도 있겠다는 생각이 들었습니다.
인간이라는 종은 국가나 민족, 혹은 문화적 배경에 따라 서로 다른 언어를 사용하고 있습니다. 축적된 수많은 데이터와 동시대에 함께 사용되는 여러 언어가 있어 상호 해석을 통한 연구가 가능하죠. 그런데 만약... 상호 비교를 위한 정보가 거의 남아 있지 않은 상황이라면 어떨까요? 로제타석이 발견되지 않았다면 고대 이집트 문자의 의미 해석의 난관을 넘기 어려웠을 것 같은 그런 상황이 벌어질 겁니다. 같은 종의 사람에 대해서도 이럴진대... 생물학적으로 전혀 다른 종의 동물들에 대해서는 더 어려울 것 같다는 생각이 들긴 합니다. 상대적으로 인간의 언어보다는 그 구조나 방식이 훨씬 단순할 것이라는 예상을 할 수도 있겠지만, 축적된 데이터 자체도 적거니와 실제 그 동물의 소리가 사람들이 예측한 바와 같은지 아닌지 정확히 확인할 수 있는 방법이 없기 때문에 난이도는 높은 작업일 겁니다. 인공지능 모델 학습으로 따진다면 GT(Ground Truth) 값이 없거나 불분명한 것과 비슷한 상황인게죠.
그럼 동물의 소리를 알아들을 수 있다면 어떤 점이 좋을까요? 동물의 행동에 대한 이해도가 높아지게 되면 사람과 동물이 어떻게 하면 가장 어울려 살아갈 수 있을지 방안을 찾는데 도움이 될 겁니다. 또한 이런 이해는 동물들을 특정한 목적으로 훈련시키는 것이나, 축산 등 산업적인 측면이나 환경,생태 측면에 필요한 정보로 활용될 수 있을 겁니다. 좀 더 상상의 나래를 더 펼쳐보면... 지구 자체와 소통할 수 있는 통로가 될 수도 있지 않을까요? 사람은 듣지 못하는 어떤 신호들을 이용해 동물들은 이미 지구와 소통하고 있을지도 모르니까요. 2023년 1월에 있었던 다보스포럼에서 ESP( Earth Species Project)의 CEO인 케이티 자카리안은 " 인간 중심의 사고방식을 바꾸고 지구상에서 공존하는 방법을 알아내려면 다른 종의 의사소통에 대한 이해가 매우 중요할 것"이라고 말했다고 합니다. ( 기사)
'동물들의 생각이나 소리를 이해할 수 있게 된 사람'이라는 소재를 가진 작품으로 헐리웃 영화 ' 닥터 두리틀'과 국내 영화 ' 미스터 주: 사라진 VIP' 가 있었죠. 저도 어린 시절 이런 능력이 있다면 얼마나 좋을까 하는 생각을 했던 적이 있었는데, 잠시 제 속을 들여다보니 지금도 그 마음이 약간은 남아 있었습니다. ^^;
대상을 '사람(도 동물!)'으로 바꿔보면 사토 마코토 원작의 일본 만화(영화로도 나왔죠) ' 사토라레'가 생각납니다. 자신도 모르게 자신의 속마음이 주변 사람들에게 들리게 되는 기이한 능력(' 의지전파과잉증후군(意志傳播過剩症候群)')을 지닌 사람(사토라레)들이 등장하죠. 이들은 엄청난 천재들로 국가에 큰 기여를 하고 있기 때문에 정부에서는 보호 겸 관리를 하게 됩니다. 지역 사람들은 국가가 주는 다양한 혜택을 누리는 대신, 사토라레의 생각을 듣고도 듣지 못하는 것처럼 연기를 하며 살아갑니다. 사토라레들은 원치않고, 알지도 못하는 상황에서 자신의 생각이 주변 사람들에게 낱낱이 까발려지게 되는데, 이 상황은 영화 '트루먼쇼'의 스토리 설정과 비슷합니다.
최근 일론 머스크의 뉴럴링크는 인간의 뇌에 BCI (Brain -Computer Interface) 장치를 삽입하는 임상실험을 진행했습니다. 장치를 이식받은 사지마비 환자는 생각만으로 비디오 게임을 즐기고 모니터에 자신의 의사를 표출할 수 있게 되었습니다. 뇌파 패턴을 인공지능을 통해 분석함으로써 어떤 생각을 하는지 파악할 수 있게 된 것인데 뉴럴링크는 이 기술을 통해 신경 손상을 입어 움직일 수 없는 사람들에게 도움을 주고 더 나아가서는 인간의 잠재력을 확장하는 수단으로 활용하려는 목표를 가지고 있다고 합니다. 하지만, 앞서의 예처럼 이 분야는 아직도 풀어야 할 것이 많은 '먼 길의 첫 시작점 근처'에 있습니다. 인공지능이 이런 기술 발전의 속도를 획기적으로 높여주길 바랄 뿐입니다.
|
|
|
Luma AI, 새롭고 강력한 비디오 생성 서비스 Dream Machine 공개
지난 번에 중국판 SORA라며 KLING을 소개했었는데 소식 전하고 바로 그 직후에 Luma AI라는 곳에서 Dream Machine이라는 새로운 텍스트 to 비디오 서비스를 공개했습니다. 이번에 공개된 영상은 역시나 쇼킹~! 했습니다. 생성 영상의 품질과 일관성, 그리고 현란한 카메라 움직임 반영 등, 어쩌면 체리 피킹일 수도 있겠지만 영상 그 자체로는 나무랄 데가 없어 보였습니다. Dream Machine은 일반 사람들에게도 공개되어 있어 누구나 쉽게 사용해 볼 수 있습니다. 서비스 사용에 제약이 있었던 SORA와는 달리 말이죠. 저도 테스트 삼아 프롬프트를 이용해 영상을 생성해 봤는데 대충 구글 번역해서 넣은 수준낮은 입력 내용에도 불구하고 나름 괜찮은 결과물을 만들어 주었고 영상을 다운받을 수도 있었습니다. 다만, 생성된 영상에는 'LUMA' 워터마크가 포함됩니다. (사이트)
|
|
|
코오롱베니트, 53개 기업이 참여하는 AI Alliance 발족
코오롱그룹의 IT서비스 전문기업 코오롱베니트가 53개 기업이 참여하는 AI Alliance 를 발족했습니다. 국내외 AI 시장 활성화를 위해 혁신AI기술, 솔루션, 인프라 공급기업이 모인 것이죠. 코오롱베니트는 IBM, Dell 테크놀로지 등 글로벌 IT 기업의 한국 총판을 맡고 있으면서 광범위한 파트너 네트워크를 보유하고 있는 터여서 실질적인 협력체계 구축이 가능할 것으로 기대됩니다. 소이넷도 혁신AI기술을 보유한 기업으로 AI Alliance에 합류하게 되었고 출범식 오후 전문 세션에서 AI기술을 적용한 적정 솔루션에 대한 발표를 진행했습니다. 아무쪼록 많은 협력 성공 사례들이 등장하길 기대해 봅니다. (기사, 기사)
|
|
|
사진 : 코오롱베니트 AI Alliance 출범식 (출처) |
|
|
AI와 상조의 만남, AI 아바타 기술을 이용한 'AI 추모 서비스'
딥브레인AI는 자사의 AI아바타 기술을 이용한 Re;memory 2 서비스를 출시하면서, 상조업체와의 협업을 진행하기로 했다고 밝혔습니다. 장례 문화의 트랜드가 매장 문화에서 화장 후 납골당 안치 또는 수목장 등으로 변화하고 있죠. 고인에 대한 추모 방식도 기술의 발전으로 인해 물리적 공간 대신 디지털 공간에서 진행되는 쪽으로 조금씩 이동하는 것 같습니다. 인공지능을 이용해 고인의 생전 모습과 목소리를 되살려 드리는 서비스가 등장하고 있는 것이죠. 이전에도 돌아가신 분의 생전 모습을 되살린 사례가 일부 방송에 소개된 바 있었는데 이 기술이 상조 비즈니스에 본격적으로 적용하는 것은 처음이 아닌가 싶어 소개해 봅니다. 인공지능이 얼마나 실생활 속으로 가깝게 접근하고 있나 하는 것을 보여드리기 위해서 말이죠. ( 기사) 거꾸로 이런 흐름에 대해 다소 부정적인 의견들도 있습니다. ( 기사, 기사) |
|
|
엔비디아, LLM 학습용 합성 데이터 생성 모델 공개
엔비디아에서 네모트론-4(Nemotron-4) 340B라는 이름의 LLM 학습용 합성 데이터 생성 모델을 오픈 소스로 공개했습니다. 잘 알려진 것과 같이 LLM의 교육에는 대용량의 데이터셋이 필요합니다. 그러다보니 제대로 성능이 나오는 LLM을 개발할 수 있는 곳이 빅테크 기업들로 한정되는 것이 사실입니다. 대부분의 AI 서비스 업체들은 공개된 베이스 모델을 이용하되 소규모의 자체 데이터셋으로 모델을 파인 튜닝을 하는 것을 최선으로 여길 수 밖에 없었습니다. 이에 엔비디아는 부족한 학습용 데이터셋을 합성 데이터로 채울 수 있는 방법을 제시하고 있습니다. 네모트론-4 340B는 9조개의 토큰으로 사전 학습됐고 4K 토큰 크기의 컨텍스트 창을 제공하며 50개 이상의 언어와 40개 프로그래밍 언어를 지원합니다. 해당 모델은 Base, Instruct, Reward 모델의 3가지로 구성되며, 엔비디아 Nemo 학습 프레임워크에서 동작하고 TensorRT-LLM을 이용해서 최적화되었다고 합니다. ( 소개글) |
|
|
사진 : 네모트론-4 340B 모델의 파이프라인 (출처) |
|
|
합성 데이터를 이용한 모델의 성능 붕괴를 방지하는 방안 제시
학습 데이터의 부족을 보완할 방법으로 위에 소개한 것과 같이 합성 데이터를 활용하는 방법이 제시되고 있긴 하지만, 합성 데이터만으로 학습할 경우, 모델 성능이 급격하게 떨어지는 '붕괴(Collapse)' 현상이 발생하게 됩니다. 이를 방지하기 위해 RLHF(인간 피드백을 통한 강화학습), 데이터 큐레이션, 프롬프트 엔지니어링 등의 방법이 연구되고 있으나 각각 한계가 존재했는데, 이를 해결하기 위해 메타와 뉴욕대학교, 베이징대학교 연구진은 강화학습 기술을 통해 모델의 성능 붕괴를 방지하는 합성 데이터 피드백 통합 방법을 제안했다고 발표했습니다. ( 기사) |
|
|
SuperGaussian은 기존의 비디오 업샘플링 모델을 활용하여 저해상도의 3D 모델을 고해상도로 변환하는 방법입니다. 우선 NeRF, Gaussian Splats, 저해상도 Mesh 데이터 등의 다양한 형태의 저해상도의 3D 모델을 입력으로 받습니다. 이 모델을 이용해 여러 각도에서 촬영한 비디오로 변환한 뒤, 미리 학습된 비디오 업샘플링 모델을 사용해 고해상도 비디오로 변환합니다. 그리고나서 Gaussian Splatting 기법을 사용해 업샘플링된 비디오로 고해상도의 3D 모델을 재구성하게 됩니다. 해당 기술은 단계 별로 모듈화되어 있어 부분적으로 다른 최신 기술로 대체할 수 있으며, 다양한 종류의 3D 입력 데이터 포맷을 지원하고 생성한 비디오 영상을 이용해 대규모 3D 데이터셋 없이도 고해상도 3D 모델을 생성할 수 있다는 특징이 있습니다.
|
|
|
사진 : SuperGaussian의 파이프라인(상), 적용 예시 (하) (출처) |
|
|
DreamGaussian4D는 시간에 따라 변화하는 동적 3D 장면(4D 콘텐츠)을 생성하는 최신 기술입니다. 이 기술은 콘텐츠 생성에 소요되는 시간은 줄이면서도 고품질의 사실적인 움직임을 만들어 낼 수 있고 생성된 모델은 일반적으로 많이 사용되는 Blender나 언리얼 엔진 같은 곳에서 쉽게 사용될 수 있어 애니메이션, 게임, 가상현실 등의 분야에 사용될 수 있습니다.
DreamGaussian4D는 이미지에서 4D Gaussian Splatting을 생성하는 단계와, 비디오에서 비디오로 텍스처를 정제하는 단계를 거쳐 장면을 만들어 냅니다. 즉, 이미지에서 고품질의 정적 3D 모델을 만들고, 그 다음에 모델의 위치, 회전, 크기 변화를 예측해 시간에 따른 움직임을 추가합니다. 모델의 텍스처를 프레임 별로 개선해서 움직이는 중에도 일관된 품질로 보이도록 만들게 됩니다. 이 과정에서 Gaussian Splatting 기술과 4D (3D공간 + 시간) 공간을 6개의 2D 평면으로 분해해 처리하는 HexPlane 기술을 사용한답니다.
|
|
|
사진 : DreamGaussian4D 프레임워크 (출처) |
|
|
LE3D : Lighting Every Darkness with 3DGS
|
|
|
LE3D는 여러 각도에서 찍은 노이즈가 많은 원시 이미지를 빠르게 학습해서 실시간으로 3D 장면으로 렌더링해서 재구성하는 기술입니다. 이를 위해 3DGS (3D Gaussian Splatting)이라는 새로운 방법을 사용하게 되는데 이는 장면들을 많은 작은 3D Gaussian 점들로 표현해 실시간을 렌더링하는 방식입니다. 기존 방식들과의 차별화되는 특징으로는 상대적으로 아주 적은 훈련 시간이 필요하다는 것과 노이즈가 많은 이미지에서도 고화질의 HDR 이미지를 생성할 수 있다는 것, 그리고 2K 해상도의 고화질 이미지를 실시간 렌더링해 낼 수 있다는 것 등이 있습니다. 이미지 리포커스 효과도 줄 수 있다고 하는데, 이를 위해 장면의 깊이 맵을 사용해 개체 표면에 가우시안을 집중시키거나(Depth Distortion Regularization) 근접 및 원거리 가우시안 위치를 조절해 장면 구조를 세밀하게 하는 작업 (Near-Far Regularization)을 통해 포커스가 필요한 영역을 정확하게 재조정할 수 있게 만든다고 합니다. 즉, 초기 장면을 렌더링하고 깊이 맵을 이용해 원하는 초점 영역을 지정한 뒤 리포커싱을 적용해서 전경 또는 배경의 초점을 조정함으로써 리포커스 효과를 제공하는 것이죠.
|
|
|
Follow-Your-Emoji는 입력된 정적 이미지를 기반으로, 목표로 하는 표정과 동작을 적용하여 초상화의 정체성과 시간적 일관성이 유지되는 애니메이션을 생성하는 기술입니다. 모델 학습을 위해 비디오 클립과 랜덤 참조 프레임(무작위 선택 프레임), 그리고 표정 인식 랜드마크(mediapipe 이용 3D 키포인트 추출한 것을 2D 랜드마크로 투영)를 사용하고, 얼굴 표정의 미세한 변화를 인식하고 반영하도록 돕는 세밀한 표정 손실 함수를 도입했습니다. 또한 길이가 긴 애니메이션 생성 시 시간적인 일관성 유지를 위해 키 프레임을 먼저 생성하고 이를 기반으로 중간 프레임을 생성하는 점진적 생성 전략을 사용합니다. 이외에 초상화 애니메이션 시스템의 성능을 평가, 검증하기 위한 벤치마크 데이터셋으로 EmojiBench를 함께 공개했습니다.
|
|
|
사진 : Follow-Your-Emoji 개요 (상), 생성된 영상 예시 (하) (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|