기술 발전속도를 따라가지 못하는 문화지체현상 안녕하세요, 구독자님.
이번 한 주도 잘 보내고 계신가요?
이번 한 주는 제게는 주목할만한 많은 일이 있었습니다. 평소 관심을 가지고 있던 SpaceX의 스타쉽 로켓 2차 시험 발사가 있었고 AI 분야 대표주자 중 하나인 OpenAI에는 CEO가 해임되는 정변이 일어났다가 정리되었죠. 네이버의 '각 세종' 슈퍼컴퓨터가 세계 순위 22위에 올랐다는 소식과 온디바이스 AI나 엣지AI 등을 위한 새로운 제품과 기술 소개 소식( 기사), 그리고 제가 즐겨 보는 SOD 채널에서는 중국에서 개발되었다고 하는 세계 최고 성능의 광전자 칩에 대한 소식도 있었습니다. ( 링크)
이렇게 많은 새로운 소식들을 접할 때마다 느끼는 감정은 '문화지체'라는 것입니다.
이 용어에 대해 나무위키에 나온 정의는 다음과 같습니다.
'문화지체(文化遲滯, cultural lag, culture lag)란 비물질 문화가 물질 문화를 따라잡지 못하는 현상을 이르는 말이다. 여기서 말하는 '물질 문화'는 주로 과학기술의 발달을 말하는 것이고, '비물질 문화'는 사람의 생활 방식부터 제도적인 부분까지 아우르는 것이다.'
최근 주변 프랜차이즈(가맹업) 음식점이나 터미널 등에서 키오스크 등을 이용해서 주문을 하는 사례가 많이 늘었는데, 코로나로 인한 비대면 문화의 확산과 직원 인건비를 줄이기 위한 용도로 자영업 하시는 분들이 많이 도입했기 때문이죠. 그런데, 스마트기기 사용에 익숙한 젊은층은 편하게 사용하지만 노인,중장년 세대는 사용에 어려움을 겪는 경우가 종종 있습니다. 연배가 조금이라도 있는 분들의 경우에는 본인이, 혹은 부모님들이 바로 그런 경우가 될 수 있겠네요. 이런 사례도 '문화지체'의 한 예가 될 수 있습니다. 그런데... 기술의 발전과 이를 실생활에서 도입하는 속도를 보면, '남의 일'에서 '주변인들의 문제'가 되었다가 '나의 문제'로 바뀌는 것이 순식간이겠구나 하는 느낌을 받을 때가 점차 많아지는 것 같습니다.
올 4월 미국 CBS 방송과의 인터뷰에서 구글의 CEO 순다르 피차이는 ' 기술 발전 속도와 우리가 사회적으로 생각하고 적응할 수 있는 속도가 불일치한다'고 했었죠. ( 링크) 새로 발표되는 기술과 이를 이용한 제품에 늘 관심을 가지고 찾아보고 있는 저도 줄곧 느끼고 있던 바인데... 특히 최근 1~2년 사이 그 속도가 더 급속히 빨라지고 있어 이젠 뉴스 조차도 따라가기 버거운 지경으로 가고 있는 것 같습니다. 이번 달 초 있었던 OpenAI Dev Day 때 GPTs의 등장으로 기존 LLM 기반의 AI 서비스를 해오던 기업들 다수에 충격을 줬던 것처럼, 또 어떤 획기적인 기술이 등장해서 사람들의 간담을 서늘하게 만들지 모르는 상황도 계속 이어지겠죠. 게다가 신기술에 대한 수용가능 속도도 나이가 들수록 떨어질 수 있으니 흠... 앞으로 점점 부담만 쌓일 것 같아 그것도 걱정입니다.
하지만, 어떤 산업 분야든 신기술이 접목될 때는, 늘 최신의 기술보다는 약간 올드해 보이더라도 많이 검증되고 실전 경험을 쌓은 것들이 선택되었다는 것은 그나마 뒤쳐지고 있다는 느낌 때문에 위기의식을 가진 저에게는 약간은 위안이 됩니다. 그런 뒤에 주저앉았던 트랙을 다시 박차고 일어나 느린 걸음으로라도 앞으로 계속 나아야겠죠.
하늘은 맑고 청명한데 칼바람이 가끔씩 느껴지는 날씨가 계속되고 있습니다. 지역마다 다르겠지만 제가 사는 곳의 새벽은 그렇습니다. 아무쪼록 찬바람에 몸 상하지 않도록 건강 유의하시기 바랍니다. |
|
|
- OpenAI 내부 격변... 그리고 영향
지난 주 금요일 OpenAI의 CEO인 샘 앨트만이 이사회의 결정에 따라 강제 해고됐습니다. 해고 소식은 그가 'APEC CEO 서밋 2023'에 참석하고 있는 동안에 전격적으로 진행되었고 대부분의 사람들이 그 이유와 배경을 알지 못한다는 것이 더 충격적이었습니다. 하도 밈이나 가짜뉴스가 판을 치는터라 처음에는 믿지 않았죠. 그 뒤에 트위터에 올라온 글들을 보고는 우와... 이럴 수도 있구나 하면 놀랐습니다. 아무래도 언젠가는 드라마로 한편 나오지 않을까요? ^^;
알려진 것처럼 OpenAI는 '인류에게 도움이 되는 AI를 개발'한다는 목표로, 비영리 부문의 이사회가 영리 부문을 관리하도록 되어 있죠. 영리부문은 인공지능 학습을 위한 인프라 때문에 Microsoft와 협력하고 있는 상태였고 최근 Dev Day를 통해 좀 더 확장 가능한 영리화 가능 활동에 대해 소개를 한 상태였습니다. 하지만, 이사회가 모든 의결권을 가지고 있는 독특한 구조이다보니 이런 부분에서의 충돌에 대해 심지어 영리조직의 49% 지분을 가진 최대주주 Microsoft조차 의결권을 행사할 수도 없었고 해임 소식도 바로 직전에나 들을 수 있었다죠.
샘 앨트만의 해임 직후, 공동창업자이자 이사회 의장을 맡고 있던 그랙 브록만도 OpenAI를 떠나겠다고 선언했고 줄지어 수백명의 직원들이 복귀가 되지 않을 경우, 집단적으로 떠나겠다는 성명을 발표하죠. 해임 발표 직후 후임으로 기술최고책임자로 있던 미라 무라티가 임시 CEO를 맡게 된다고 했다가 다시 트위치의 공동 창업자인 에멧 시어가 임시 CEO를 맡는 것으로 바뀌었습니다. 그 와중에 Mcrosoft의 CEO인 사티아 나델라는 샘 앨트만과 그랙 브록만이 합류한다고 발표했고 그 뒤 또 다른 트윗에서는 그 정보가 아직 최종 확정은 아니며 다시 OpenAI로 복귀할 여지가 있는 것처럼 여운을 남겼습니다. 정말 최종일지는 모르겠지만 11월 22일 OpenAI는 샘 앨트만이 CEO로 다시 복귀했다고 공식적으로 발표했습니다!!! AI 분야의 테크 기업 가운데 가장 주목을 받고 있는 곳이기도 한 OpenAI 내부에서는 도대체 무슨 일이 일어나고 있는걸까요? 그 자세한 내막이 밝혀지는데까지는 좀 더 시간이 필요하겠죠. 며칠 사이에 일어난 일 치고는 너무 스펙터클해서 분명 누군가는 이 사건의 배경을 뒤져서 영화나 책으로 쓰겠죠. ^^; 최종적으로 복귀로 결론이 났지만 사건이 진행되는 동안 트위터 글들을 보면 NVIDIA를 비롯한 많은 AI 기업들이 OpenAI를 그만둘 인재를 끌어가기 위한 시도들을 보이기도 했습니다. (기사)
|
|
|
- 구글이 AGI의 수준을 평가하는 기준 공개
구글이 범용인공지능(AGI)인지 측정할 수 있는 기준을 발표했습니다. 저는 최근까지 오래전 만들어진 '튜링테스트'라는 것을 통해 검증하는 줄 알았는데 실제로는 그것보다 많은 검증 과정이 있더군요. 하지만 그것들로도 제대로 된 분별을 할 수 없기 때문에 좀 더 포괄적인 프레임워크 제공을 위해 6가지 기준을 제시 했다고 합니다. 그리고 0(AI 아닌 상태)~5(인간 능력을 모두 뛰어넘는 초인공지능) 레벨까지 6단계로 구분했다고 합니다. 공개된 기준에 따르면 현재까진 나온 최고의 LLM이라고 불리는 ChatGPT, Bard, Llama2 등은 아직 1레벨 수준이라고 하네요. 아직 이 분야도 갈 길이 머네요. (기사)
- 현대차, 아마존과 전략적 제휴
현대차가 아마존과 전략적인 제휴를 맺었습니다. 아마존 플랫폼에서 현대차의 차량 판매를 진행하고 대신 현대차는 인프라를 AWS 기반으로 하면서 동시에 신차에 인공지능 음성비서인 아마존 알렉사를 탑재하기로 한 것이죠. 차량이 움직이는 스마트폰과 같은 상황에서 차량 내 사람들에게 다양한 정보를 제공하기 위한 음성 비서는 정해진 수순 같습니다. 최근 테슬라 CEO인 일론 머스크가 설립한 xAI에서 Grok을 발표했을 때에도 LLM 기반의 음성비서 기능이 테슬라 자동차에 들어갈 것으로 예상 됐던 것처럼 현대차도 비슷한 행보를 하는 것은 아닐까 생각됩니다.
다만, 아마존은 최근 뉴스를 통해 기존의 알렉사 기술 대신 생성형 AI 기술에 집중하기 위해 알렉사 관련 기술 인력을 감축한다고 발표했습니다. 수백명 수준이 될 것이라는 예상이 있었습니다. 아무래도 현대차와의 제휴에는 큰 영향은 없겠죠? (기사, 기사)
|
|
|
사진 : 로스앤젤레스 오토쇼에서 함께 등장한 현대차와 아마존의 경영진. (출처) |
|
|
D3GA - Drivable 3D Gaussian Avatars
|
|
|
3D 모델을 만들기 위해서는 많은 전문적인 과정과 노력이 필요하다는 것을 예전 뉴스에서 소개 드린 바 있습니다. 3D 스캐너나 ToF 카메라 등을 이용하는 방식에서 부터 단일 혹은 몇 장의 서로 다른 뷰에서 찍은 2D 사진들을 이용하는 방식까지 아주 다양한 기술들이 소개되었었죠. D3GA도 이런 발전의 한 사례입니다.
D3GA는 인간 몸의 3D 모델을 생성하고 움직이게 하는 새로운 방식입니다. 이를 위한 파이프라인은 다음과 같은 기술들을 사용하고 있습니다.
- 3D 가우시안 스플래팅 기술 : 다각도로 촬영된 비디오를 입력으로 사용하여 상세하고 생생한 모델 생성합니다.
- 케이지 변형 : 3D 모델을 움직이게 하기 위해 모델을 보이지 않는 케이지로 감싸고 이를 조작해서 현실적인 움직임 생성합니다.
- 다양한 네트워크를 통한 입력처리 : 3D 자세, 얼굴 임베딩, 관점, 케이지 등의 다양한 입력을 여러 개의 네트워크를 통해 처리하며 이것들은 아바타의 부분 별 케이지의 변위, 변형, 색상/불투명도 조정합니다.
- 컬러 및 불투명도 계산 : 각 픽셀의 색상과 불투명도를 네트워크에서 예측한 색상과 가우시안 밀도를 결합해서 계산합니다.
- 정제를 위한 다양한 손실함수 사용 : 색상 손실, 의복 손실(올바른 의복 분리를 위해), 네오-후케안 손실(예측된 사면체의 구조를 조절하기 위해) 등 다양한 손실함수를 사용해서 아바타의 사실성을 향상시킵니다.
아쉽게도 아직 코드는 공개되지 않았습니다. ^^;
|
|
|
연초에 Microsoft가 VALL-E를 발표했었는데, 3초 정도의 짧은 음성 샘플 데이터만으로 그 사람의 목소리를 복제할 수 있다고 했었습니다. 발표 당시에는 코드까지 공개되진 않아서 직접 목소리로 테스트를 해 볼 수 있지는 않았지만, 제공된 합성음의 수준이 우와~ 정도는 되었던 것 같습니다.
이번에 소개하는 StyleTTS 2는 인간수준의 TTS (Text to Speech) 합성을 위한 모델입니다. 그동안 많은 TTS들이 발표되었는데 나올 때마다 새로운 방식을 적용하고 품질도 더 나아지는 것 같습니다. Style TTS 2는 VALL-E 대비 훨씬 더 적은 양의 데이터를 이용해서 높은 수준의 음성 합성을 만들어낸다고 하며 합성되는 음성의 수준을 높이기 위해 다음과 같은 몇 가지 새로운 기법들이 적용되었습니다.
- Style Diffusion
음성 스타일을 잠재 무작위 변수로 모델링하여 확산 모델을 통해 샘플링합니다. 이 방법은 참조 음성 없이 텍스트에 가장 적합한 다양한 음성을 생성할 수 있도록 해 주며 그 외에도 억양, 강조, 발음 속도 등 다양한 음성 특성을 포착합니다.
- End-to-End Training with SLMs
WavLM과 같은 대규모 사전 훈련된 음성언어모델(SLM; Speech Language Model)을 적대적 훈련에 사용하는 방식으로 E2E(End-to-End) 훈련 프로세스를 도입했습니다. 이를 통해 음성의 자연스러움을 향상시킬 수 있다고 합니다.
- Differentiable Duration Modeling : 자연스러운 음성의 리듬과 속도를 맞추는 데 중용한 지속시간 모델링에 새로운 접근 방법을 선택합니다.
- Direct Waveform Synthesis : 멜-스펙트로그램을 파형으로 변환하는 사전 훈련된 보코더같은 구성요소에 의존하지 않고 직접 파형을 생성하며 이를 통해 기존 다른 TTS 대비 효율성과 속도가 더욱 향상되었다고 합니다.
|
|
|
PF-LRM (Pose-Free Large Reconstruction Model)
|
|
|
PF-LRM은 서로 겹치는 부분이 거의 없는 몇 개의 정렬되지 않은 이미지로부터 3D 객체를 재구성하고 동시에 카메라 위치도 추정하는 모델입니다. 쇼핑몰 중에 상품의 이미지를 3D로 변환해서 정보 제공을 하는 곳들이 간혹 있는데, 대부분 전문적인 촬영 기기를 이용해서 특정 각도로 회전하면서 사진을 찍고 이를 합쳐서 3D로 보이게 하는 방식을 이용합니다. PF-LRM은 일반 카메라로 찍은 2D 사진 몇 장을 이용해서 비슷한 효과를 낼 수 있는 모델인 셈입니다. 이런 용도의 3D 객체 재구성 모델들은 실제로 이전에도 많이 소개된 바 있습니다.
PF-LRM의 주요 특징을 몇 가지로 요약하면 다음과 같습니다.
- 동시 추정 : NeRF 기술을 이용해 카메라 위치와 객체의 형태, 외관을 동시 추정합니다.
- 단일 스트림 변환기 모델 사용 : 3D 객체 토큰과 2D 이미지 토큰 사이의 정보 교환을 위해 사용되며 직접적인 위치 추정 방식 대비 정확도가 높습니다.
- 차별화된 PnP Solver : 각 뷰에 대한 조악한 기하학적 구조 (point cloud 형태)에 기반하여 카메라 위치를 추정 시 사용합니다.
이 모델은 약 100만개의 객체를 포함한 대규모 데이터셋에서 훈련되었고 위치 추정 정확도와 3D 재구성 품질면에서 높은 성능을 보인다고 합니다.
|
|
|
사진: PF-LRM 모델의 파이프라인 개요 (상,출처) 적용 사례 (하, 출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|