새로 발표되는 기술에 대한 선택적 관심두기 안녕하세요, 구독자님.
설 연휴는 잘 보내셨나요?
저는 언제나 그렇듯 몸은 힘들어도 오랜만에 가족들을 만나다보니 다녀온 후의 마음은 푸근했습니다. 구독자님도 마찬가지셨겠죠?
제 경우, 늦게 출발한 탓도 있겠지만, 귀경길에 오랜 시간을 보내야 했습니다. 실제로 크게 막히는 곳이 없었는데도 시간은 평년 대비 1~2시간이 더 걸렸죠. 막히지도 않았는데 시간이 더 걸렸다니 무슨 말인가 하실 수도 있겠습니다. 친절한 '네비님'의 안내를 따랐는데, 이번에는 평소와는 달리 중간중간 안 막히는 국도를 기가 막히게 찾아서 알려주더군요. 막히지는 않았지만 국도 자체의 최고속도 제한과 간간히 나오는 교통신호 체계, 과속방지턱, 그리고 다양한 속도 제한구역들이 기다리고 있었죠. 덕분에 간간히 주변 경치 구경도 하면서 올 수 있긴 했습니다. ^^;
평소의 생활을 돌아보면, 저는 새로운 기술이 적용된 문명의 이기를 빨리 받아들이는 편입니다. 새로운 제품이 나오면 얼리어답터(단, 가성비 제품에 대해서만...)가 되기도 하죠. 다양한 기술과 제품을 시험해보고 이를 어디에 어떻게 적용해야 좋을지를 상상해 보는 것은 늘 즐거운 일입니다. 7~8년 전엔 클라우드펀딩을 통한 새로운 제품 소개가 유행이었고 그때도 Kickstarter 등에 푹 빠져 살긴 했었습니다. 몇몇은 실제 구매를 해서 아직도 사용하고 있기도 합니다. 이런 성향의 단점은 테스트 후의 제품들은 다 집안 어딘가에 쌓여서 누군가의 표현에 의하면 '이쁜 쓰레기'가 된다는 거죠. ^^;
AI 기술은 이제 생활 곳곳에 스며들고 있습니다. ChatGPT 이후로 사람들이 AI 기술을 접할 때의 거부감이 상당히 옅어졌다는 것도 느껴집니다. 기업 경영자들도 업무 전반에 AI 수용성을 높여야 한다고 말하고 있고 조직들은 AI기술을 어떻게 적용해야 할 지 고민(만?)하고 있으며 기업용 어플리케이션을 개발하는 많은 테크기업들은 그런 곳들을 공략하기 위해 하나둘씩 기능을 추가하고 있습니다.
이런 AI 분야에서도 고도로 복잡한 R&D 영역이 아닌 실생활 활용의 영역이라면, 재미난 제품과 서비스를 접하고 여기서 파생된 또 다른 것들을 구상해보는 즐거움은 마찬가지로 존재합니다. 하지만, 새로운 기술들이 너무 많이, 그리고 빨리 나오기 때문에 선택적으로 흘려 버려 가면서 즐겨야 한다는 생각을 하게 됩니다. 그렇지 않으면 그 추세에 휩쓸려 재미를 찾기보단 쫓기는 심정만 느끼게 될테니까요.
설 연휴에 안 막히는(?!) 국도로 안내해 준 친절한 네비님을 한치의 의심도 없이 받아들인 저이다보니 앞으로 AI기반의 자율주행 기술이 나오면 그 또한 선뜻 받아들이지 않을까 싶습니다. 이 외에도 앞으로 등장하게 될 많은 AI기반 생활 서비스들 하나하나가 기대됩니다. 유튜브에서 이목을 끄는 짤(숏폼영상)을 찾아보듯 저는 또 새로운 소식들이 나온 것이 없나 하이에나처럼 어슬렁거리며 둘러 보려 합니다. 이만... |
|
|
샘 알트만, 반도체 산업 재편을 위해 7조 달러의 자금 모금 계획
OpenAI의 CEO인 샘 알트만이 글로벌 반도체 산업의 재편을 목표로 5조 ~ 7조 달러 규모의 모금을 계획하고 있다고 합니다. (기사) 7조 달러면 우리 돈으로 9100조원... 우리나라의 2024년 1년 예산이 656.6조원이니 이보다 15배 가량이 되는 어마어마한 규모입니다. 우리나라의 상장기업 총 시총 (코스피, 코스닥)이 2023년 11월 기준 2328조원 가량이라고 하니 이번에 모금하려는 금액이 그보다 무려 4배에 가깝다는 얘기가 됩니다. ( 링크)
워낙 터무니없는 규모이다보니 한쪽에서는 OpenAI가 개발 중인 기술이 AGI에 거의 도달했고 이로 인해 만들어질 새로운 시장들의 규모가 그만큼 커질 것을 의미하는 것이 아니냐는 상상력이 가미된 설을 내세우고, 또 다른 쪽에서는 AI의 발전을 위해 현재의 AI반도체 공급량과 공급수준이 잠재적인 걸림돌이 된다고 판단해 NVIDIA의 제약을 벗어날 수 있는 생태계 환경을 구축해야 한다는 절박감 때문이라는 설도 있습니다. 반대로 NIVDIA의 젠슨 황의 인터뷰에서는, 향후 반도체의 성능 향상이 비약적으로 향상될 것이라 총량 자체가 크게 늘 필요는 없을 것이므로 AI칩 개발에 그렇게 많은 돈이 필요치는 않을 것이라는 의견이 있었습니다. ( 영상) 여튼 샘 알트만이 진행하는 이 프로젝트의 본 목적이 어떤 것이든 가까운 미래에 뭔가 큰 변화의 바람이 또 한번 불어올 것은 분명해 보입니다. |
|
|
OpenAI, 새로운 Text to Video 모델인 Sora 발표
어제 OpenAI에서 새로운 비디오 생성모델인 Sora를 공개했습니다. 그러다보니 이번 뉴스레터에 급하게 추가하게 되었네요. ^^; 앞서의 소식도 그렇고... OpenAI의 행보가 심상치 않아 보입니다. 내부적으로는 기술적인 점핑이 이루어지지 않았을까 하는 생각이 들게 만드는 것들이 하나둘씩 보이기 때문입니다.
Sora는 최대 60초의 고화질 영상을 생성할 수 있습니다. 예전 소식들에서 누차 말씀드린 것처럼 나와있는 대부분의 생성모델을 통한 비디오 영상 생성 결과물은 일단 길이에서 짧고, 급격한 행동 변화를 제대로 반영하지 못하고, 영상의 디테일도 다소 떨어진다는 단점이 있는데 Sora 사이트에 나온 예시 영상(생성 후 수정이 되지 않은 원본이라고 함)을 보면 이런 부분들이 상당한 수준으로 개선이 되었다는 것을 알 수 있습니다. 등장하는 복수의 캐릭터와 배경, 피사체 등에 대한 세부 정보를 활용할 수 있고 카메라 움직임을 따라 가는 것도 가능합니다. 특히 사용자가 제시한 내용이 제 물리적인 세계에서 어떻게 존재하는지를 이해한다고 설명되어 있는 것이 놀라웠습니다. 참고로 딥페이크 등으로 인한 오용 가능성 때문에 모델은 한정된 테스터 그룹에만 공개가 되어 있다고 합니다. (링크) |
|
|
KAIST, 인간의 추론 능력을 극대화시키기 위한 연구 결과 발표
KAIST 뇌인지과학과 이상완 교수팀(제1저자 상명대 이지항 조교수)에서 인공지능을 이용해 인간의 추론 능력을 극대화시키는 연구 결과를 발표했습니다. 인간이 생활속에서 학습하는 방식 가운데 한번의 경험으로부터 빠르게 결론을 이끌어내는 원샷 추론 방식이 있는데, 여기에 강화학습을 결합해서 전두엽과 해마가 가장 효율적으로 작동할 수 있는 최적 조건을 찾아내는 방식을 채택했고 126명의 피험자 대상으로 최대 40% 학습효율 향상이라는 효과를 거뒀다고 합니다. ( 홍보글) 이는 뇌과학에 대한 깊은 이해와 인공지능 기술의 결합이라는 절묘한 조합에서 나온 결과물인 셈입니다. 뉴럴링크가 진행하는 인간 뇌와 인공지능 칩의 결합도 결은 다르지만 AI 기술의 급격한 발전에 인간이 소외되지 않기 위해 할 수 있는 노력의 한 방편인 것처럼, 앞으로도 이런 종류의 다양한 연구들이 지속적으로 이뤄져야 할 것 같습니다. |
|
|
Cohere for AI, 101개 언어 지원하는 다국어 모델 Aya 공개
Cohere사의 비영리 연구기관인 Cohere For AI에서 오픈소스 다국어 언어 모델인 Aya를 발표했습니다. 119개국 3,000명의 독립연구원들과 2023년 1월부터 1년간 'Aya Project'를 진행한 결과물이라고 하죠. 이번에 공개된 Aya는 101개 언어로 기능을 확장했는데 리소스가 부족한 다양한 언어가 포함되었고 이전 대비 2.5배 이상 더 많은 데이터를 이용해 학습을 진행했다고 합니다. 학습 데이터셋 (Aya Dataset)도 함께 공개했는데 기존 데이터셋을 100개 이상의 언어로 기계 번역하고, 거기에 67개 언어에 대해 해당 언어를 유창하게 구사하는 사람들을 선별해서 주석을 추가한 204,000개의 프롬프트를 포함하고 있다고 합니다. ( 사이트, 데이터셋)
공개되어 있는 대부분의 언어모델들이 주로 영어를 기본으로 하고 있어 사용 인구가 많지 않은 전세계 다양한 언어들을 제대로 지원하지 못하고 있다는 것은 이미 알려진 사실입니다. 이 때문에 Aya와 같은 움직임들이 나타나고 있는 것이죠. |
|
|
이전에도 비디오 합성 기술에 대해 소개드린 바가 있지만 정적인 이미지를 이용해서 움직임이 큰 역동적인 움직임의 영상을 생성한다는 것은 상당히 어렵습니다. 이번에 바이트댄스에서 발표한 비디오 영상 합성 모델인 Boximator는 그런 측면에서 많은 진전을 보이고 있는 것 같습니다. 기존 공개되었던 PixelDance 를 베이스 모델로 하고 있습니다. 아시다시피 바이트댄스는 숏폼 영상 플랫폼 글로벌 1위인 TikTok의 개발사인데, AI를 이용한 영상의 생성이라는 부분은 이미 하고 있는 비지니스 도메인에 딱 맞아 떨어지는 기술이라고 할 수 있겠습니다. Boximator는 soft box와 hard box를 이용해서 피사체의 처음과 최종 위치를 지정하고 motion path로 움직임을 제어하는 방식으로 동작됩니다. 상당히 직관적이죠?
아쉽게도 현재 영상과 논문으로만 소개되어 있고 데모는 메일로만 요청을 받아 대응하는 형태입니다. 2~3개월 내에 개선된 데모 사이트를 공개하겠다고 되어 있네요.
|
|
|
사진: Boximator 사용 방식 설명 (출처) |
|
|
NVIDIA에서 다국어 멀티태스킹 모델인 NeMo Canary를 발표했습니다. 인코더-디코더 모델로, 인코더에서는 Fast-Conformer 아키텍처를 이용한 효율화를 통해 컴퓨팅 리소스 사용량을 대폭 절감했고 디코더에서는 출력 토큰을 명시적으로 제어할 수 있는 방법을 제공한다고 합니다. 10억 개의 매개변수를 가진 Canary-1B 모델은 영어, 독일어, 프랑스어, 스페인어의 4개 언어에 대해 자동 음성-텍스트 인식(SAR: Speech-Audio Recognition)을 지원하며, 독일어, 프랑스어, 스페인어와 영어간의 상호 번역 기능도 제공합니다. 평균 단어 오류율이 6.67% 수준으로 HuggingFace Open ASR 리더보드에서 1위를 차지하고 있고 여러 벤치마크에서 SOTA 성능을 달성했다고 합니다.
모델의 가중치는 CC BY-NC 4.0 라이선스에 따라 배포되고, 훈련코드는 Apache 2.0 라이선스르 따르고 있습니다. 아쉬운 것은 단 4개의 언어만 지원한다는 것인데... 흠... 아무쪼록 좀 더 범위가 확대되었으면 좋겠네요.
|
|
|
사진: 다른 모델들과 Canary 모델의 ASR 오류율 비교 (출처), HuggingFace leaderboard(하) |
|
|
Stable Audio는 Stability AI에서 공개한 오디오 생성 모델입니다. Stable Diffusion의 오디오 버전이라고 할 수 있습니다. Stablility AI에서는 최근 T2I, T2V, T2A 모델들을 계속 발표하고 있는데 역시 생성형 AI의 선도자의 면모를 보여주는 것 같습니다.
Stable Audio는 사전 훈련된 오토인코더의 Latent Encoding Space에서 작동하는 확산 기반의 생성 모델로, AudioSparx라는 음원 라이브러리를 통해 확보한 80만개가 넘는 다양한 종류의 오디오 파일(음악, 사운드 효과, 악기소리 등)로 구성된 데이터셋을 이용해 학습을 진행했다고 합니다. 텍스트 프롬프트와 오디오 길이, 시작시간에 따라 오디오를 생성할 수 있는데, A100 GPU에서 44.1 kHz 샘플 레이트의 95초짜리 스테레오 오디오를 단 1초 내에 생성할 수 있다고 합니다.
모델을 학습하고 실행하기 위한 코드 자체는 stable-audio-tools github 저장소(링크)에 MIT 라이선스로 공개되어 있습니다. 웹을 통한 서비스는 무료(기능 및 상용 사용 불가)와 유료로 제공된다고 하는데 아무래도 모델 학습에 사용한 데이터가 상용서비스를 제공하는 곳의 것들이어서 이런 제약사항이 생긴게 아닌가 싶습니다.
|
|
|
사진: Stable Audio 모델 아키텍처 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|