현재 AI기업들은 어떤 도움이 필요할까요? 안녕하세요, 구독자님.
이번 한 주도 힘차게 보내고 계신가요?
얼마 전, 일론 머스크가 설립한 AI 스타트업 xAI가 오라클의 GPU 서버 클러스터 사용과 관련해 진행하던 협상이 무산되었고, 대신 엔비디아 GPU를 대규모(10만 개의 H100)로 구입해서 자체 데이터센터를 구축하기로 했다는 기사를 읽었습니다. 한 기업이 자체 AI 기술 개발을 위해 이 정도의 투자를 할 수 있다는 것은 참 부러운 일입니다. 게다가 xAI의 이 투자규모가 다른 빅테크의 투자 규모에 비해 더 큰 것도 아니라는 것은 더 놀라운 일입니다. (메타는 올해 말까지 35만 개 구입을 선언했습니다.)
여튼 이 사건은 진행하던 계약의 금액이 100억 달러 (한화 약 14조원)으로 어마어마한 규모였던터라 사람들의 주목을 끌 만했습니다. 협상이 무산된 원인 가운데 하나가 xAI 쪽에서 시스템 구축 완료 시간을 앞당기라고 계속 재촉 해 왔기 때문이라는 얘기도 있습니다. 그만큼 LLM과 생성형AI 분야는 누가 기술 주도권을 잡고 갈 것인가가 초미의 관심사이기도 합니다. 일론 머스크 입장에선 멀찌감치 치고나간 앙숙 샘 알트만의 OpenAI 기술을 그렇게라도 해서 빨리 따라잡고자 하는 조바심을 가졌을 것 같습니다. 재미난 것은 협상 결렬로 여유가 생긴 GPU 슈퍼컴퓨터 자원을 오라클이 OpenAI에게 제공하기로 결정했다는 사실입니다. ( 기사)
오라클과 xAI, OpenAI의 이야기를 꺼낸 것은 AI 분야, 특히나 생성형 AI와 초거대 언어 모델의 개발 분야에서 GPU를 포함한 물리적인 인프라 자원의 중요성이 그만큼 크고 대규모의 투자가 필요하다는 것을 말하기 위해서입니다. 글로벌 빅테크가 주도하는 시장에서 기술 종속을 탈피할 수 있다는 것은 아주 중요합니다. 우리나라로 따지면 IT 분야에선 검색 시장이, 문화 분야에선 영화 시장이 대표적인 사례라고 할 수 있습니다. 물론 이 분야들도 분위기가 급변하고 있어 1~2년 뒤면 다른 얘기를 해야 할지도 모르겠습니다.
시장 경쟁은 이미 규모의 싸움이라 승리하려면 혹은 살아남으려면 웬만한 국가 수준인 글로벌 빅테크 기업이거나, 혹은 국가 차원의 전폭적인 지원을 받을 수 있는 조건이 필요합니다. 개별 기업 단위의 접근으로는 한계가 있으니까요. 하지만, 현황은 아직 기대에 못 미치고 있는 것이 사실입니다. 비근한 예로 메타가 35만개의 H100 GPU를 확보하겠다고 한 것에 반해 최근 오픈한 국가AI데이터센터는 1000여 개 남짓한 H100 GPU를 보유하고 있죠. ( 기사) 앞서 빅테크들이 확보한 수량을 생각하면... 워낙 비싸기도 하고 구하기도 힘들기 때문이겠지만 너무 비교가 되는 것은 어쩔 수 없네요.
주변 사람들의 얘기를 들어보면, AI가 국가간 무한경쟁 형태로 진행되고 있는 상황이라 대규모 투자가 필요하다는 것에는 대부분이 공감하고 있지만 집중해야 하는 방향에 대해서는 의견이 분분했습니다. 어떤 이는 AI 인프라가 우선이다, 또 다른 이는 AI의 실행, 즉 기업들의 도입을 촉진하는데 방점을 둬야 한다, R&D 연구개발 인력의 양적, 질적 향상에 투자해야 한다, 응용 서비스의 확산으로 방향 전환을 하고 여기에 집중해야 한다 등등으로 말이죠. 가용한 돈과 시간이 한정되어 있는데 이해 당사자들의 다양한 의견 조율이 어려워 기업이나 국가 차원 둘 다 선택과 집중이 어어려울 것 같아 걱정입니다.
Andreesen Horowitz(a16z)라는 미국의 VC(벤처캐피털)가 있는데 이곳은 일반적인 VC들과는 달리 대규모로 GPU를 확보한 후 이를 AI스타트업에 대한 투자 유치에 활용하는 독특한 행보를 하고 있다고 합니다. 잘 알려진 바와 같이 고성능 GPU는 생성형 AI나 LLM 등의 서비스를 제공하는 AI 스타트업에게는 반드시 필요한 리소스입니다. 하지만, 구하기도 어렵고 비용도 높아 스타트업들이 이를 활용하기는 어렵죠. a16z는 스타트업들에게 필요로 하는 자금 외에도 GPU 리소스에 대한 접근권을 제공함으로써 AI 스타트업의 실질적인 성장에 도움을 주고 있는 것이죠. 이런 대상 가운데 비디오 생성 서비스 DreamMachine을 공개했던 Luma AI도 포함되어 있다고 합니다.
현재 국내의 AI 스타트업들은 어떤 것이 필요할까요? 해외 업체와의 경쟁을 위해, 종속을 벗어나기 위해 LLM이나 생성형AI 분야의 연구를 지속적으로 해오는 곳도 있을 것이고 그렇지 않고 도메인 쪽에 AI를 도입하는 응용 서비스를 개발하는 곳도 있을 것입니다. 전자의 경우에는 자금도 자금이지만 무엇보다도 AI 인프라와 활용할 수 있는 다양한 데이터가, 후자의 경우는 연구개발을 지속적으로 해나가기 위한 우호적인 투자환경의 활성화와 다양한 수요처의 발굴 및 기업 간 협업이 필요할 것 같습니다. 체력이 되는 중견, 대기업, 그리고 정부의 AI 스타트업들에 대한 아낌없는 투자와 지원을 기대해 봅니다.
|
|
|
KAIST 연구팀, CXL 기술 기반의 AI 가속기 개발
KAIST 정명수 전기및전자공학부 교수 연구팀이 CXL(Compute Express Link)를 활성화한 고용량 GPU 장치에서의 메모리 성능 최적화를 위한 기술을 개발했다고 합니다. CXL 컨트롤러를 통해 GPU와 메모리 확장 용 저장 장치를 직접 연결하는 구조 기술인 'CXL-GPU'로 GPU 메모리 공간에 확장 장치의 메모리 공간을 통합시켜 GPU 장치의 메모리 읽기/쓰기 성능을 최적화했습니다. 한정된 GPU 메모리 공간의 이슈와 GPU 메모리, 장치 메모리 간의 속도 차이와 데이터 이동으로 인한 지연 이슈를 함께 해결할 수 있는 대안이 개발된 것이라고 볼 수 있습니다. LLM이나 생성형 AI처럼 대규모 GPU 메모리가 필요한 분야에 적용되어 비용과 성능이라는 두 마리 토끼를 함께 잡을 수 있게 되길 기대합니다. (기사) |
|
|
OpenAI, 2023년 내부 메시징 시스템
OpenAI에서 작년 초에 해킹으로 인해 직원 간 대화와 인공지능 관련 기술 일부가 유출되었다고 합니다. 해당 내용은 이사회에 보고되었지만 이 사실은 대중에게 공개되거나 기관에 보고되지 않고 숨겨졌다고 하네요. 당시 기술 프로그램 관리자였던 레오폴드 아셴브레너가 임원진에게 보안 관련 개선 필요성을 어필하는 제안을 전달했지만, 어찌된 일인지 정보 유출 혐의(당사자는 부당하다며 반발)로 해고되었다고 하죠. (기사) 세상에서 가장 많은 주목을 받고 있고 AI 비즈니스에 지대한 영향력을 미치고 있는 OpenAI가 보안이 뚫렸고 이 사실을 숨겨왔다는 것은 저에게는 이해가 되지도 않고 한편으론 위험해 보이기도 합니다. |
|
|
구글, Gemini 1.5 Flash, Pro 출시
구글이 Gemini 1.5 Flash와 1.5 Pro의 정식 버전을 출시했습니다. Gemini 1.5 Flash는 GPT-3.5 Turbo와 동급 모델로 짧은 지연 시간, 100만 토큰 지원, 저렴한 서비스 가격 등의 이점을 제공합니다. Gemini 1.5 Pro는 텍스트, 이미지, 오디오, 영상 등 다양한 멀티모달과 최대 2백만 토큰 컨텍스트를 지원하고 ' Sparse Mixture of Experts(MoE)' 기법을 채택해 계산 부하 및 비용을 줄이며 정확한 결과를 제공할 수 있게 되었다고 합니다. (기사) |
|
|
프랑스에서 등장하는 걸쭉한 AI 스타트업들
AI 스타트업의 성지 하면 대부분 미국 실리콘밸리를 떠올립니다. 애플, 구글, 메타, 엔비디아 등의 빅테크 기업 본사가 자리 잡고 있기 때문이죠. 최근 분위기가 시애틀 등으로 테크 기업들이 일부 이전을 하고 있다고 하지만 그래도 썩어도 준치일 것 같습니다. 유럽 쪽은 프랑스에서 Mistral, Codestral 등의 모델을 공개한 Mistral AI, GPT-4o를 능가하는 것으로 평가받고 있는 Claude 3.5 Sonnet을 공개한 Anthropic AI와 같은 유명 AI 스타트업들이 등장하고 있습니다. Mistral AI의 경우, 최근 네이버가 간접투자를 통해 지분을 확보했다는 뉴스도 있었습니다. ( 기사) 최근에는 AI 에이전트 기반 AGI 구축을 목표로 하는 Holistic AI (이후 'H'로 회사명 변경)라는 스타트업이 2.2억 달러의 투자유치를 했다고 밝혀 화제가 되었습니다. ( 기사) |
|
|
Youtube, 저작권 있는 음원 삭제 기능 공개
유튜브 영상에서 크리에이터가 동영상에 포함된 저작권 있는 음원에 대해 몇 가지 관리를 할 수 있는 기능이 새로 공개되었습니다. 크리에이터들이 영상을 게시한 후 저작권 있는 음원이 포함되어 침해 신고를 받는 경우, 대부분 영상을 아예 내리거나 혹은 음원을 변경 후 다시 제작해서 대체하는 방법을 사용했왔습니다. 아무래도 많은 작업이 필요하고 유튜브 입장에서도 조회를 통해 수익을 낼 수 있는 영상이 사라지는 것이므로 해결책이 필요했겠죠. 이번에 공개된 기능은 저작권 있는 음원에 대해 잘라내기(Trim out segment), 음원 교체(Replace song), 음원 소거(Mute Song)와 같은 편집 옵션을 제공하는 것입니다. 한 예로 음원 소거의 경우, 침해 신고를 받은 음원만 또는 그 타임프레임에 속한 음원 전부(배경음, 대화 제외) 중에 선택할 수가 있다고 하네요. ( 영상) |
|
|
SenseTime, 멀티모달 모델 SenseNova 5o 공개
안면인식 기술로 잘 알려진 중국의 센스타임(SenseTime)이 상하이에서 열린 'World Artificial Intelligence Conference (WAIC)'에서 오디오, 텍스트, 이미지, 비디오 처리를 지원하는 멀티모달 모델인 'SenseNova 5o'를 공개했습니다. 지난 4월 말 경, 자연어 처리, 이미지 생성 등의 기능을 제공하는 5.0 버전을 공개한 바 있는데, 여기에 오디오와 비디오 처리 기술이 추가된 새 버전이 나온 것인데 8개 주요 지표 가운데 5개에서 GPT-4o보다 성능이 더 뛰어나다는 테스트 결과도 함께 공개했습니다. (기사) |
|
|
사진 : SenseNova 5o와 타 모델간의 성능 비교 (출처) |
|
|
Kyutai, 음성 비서 서비스 Moshi 공개
프랑스의 AI 스타트업인 Kyutai에서 지난 주 실시간 챗봇 서비스 Moshi를 공개했습니다. 사람의 감정을 이해하고 다양한 스타일로 대화할 수 있다고 합니다. 흠... 여기까지만 보면 GPT-4o의 대화 장면이 떠오릅니다. Moshi의 특징을 보면, 속삭이거나 악센트가 있는 말투를 포함해 70개의 감정과 대화 스타일을 지원하고, 두 개의 오디오 스트림을 이용하는 방식을 이용해 동시에 듣고 말할 수 있으며 무엇보다도 일반 PC 등에서 구동이 가능한 경량 버전이 제공되고 160ms 이내의 지연을 지원한다는 것입니다. 실제 데모 영상을 보면 사람 화자가 말을 하는 중에도 말을 끼어들거나 할 정도로 반응 속도가 엄청 빨랐습니다. 심지어 너무 불편할 정도로 반응이 빠르다는 느낌이 들 때도 있었죠. 그리고, 부하가 많이 걸릴 경우, 답변 내용이 번아웃된 사람이 대답하듯 힘들어하는 경우도 있는 것 같습니다. 현재는 사이트에서 직접 테스트를 해 볼 수 있습니다. 대기자가 많아 줄을 서야 하지만 말입니다.
|
|
|
사진 : Moshi 서비스의 실시간 데모 장면 (출처) |
|
|
Mobile-Agent-V2는 알리바바 그룹이 공개한 모바일 기기 상에서 내비게이션과 실행의 개선을 돕는 작업 도우미 기술입니다. 모바일 기기에서 작업을 자동으로 처리하기 위해서는 사용자의 지시나 행동의 의도 등을 파악하고 기기 상에서 동작하는 다양한 기능들을 다룰 수 있도록 만드는 것이 필요한데, 이 목적으로 최근 에이전트 기술이 많이 연구되고 있습니다. 스마트폰에서의 자동화 처리를 위해 예전에는 단순한 룰 기반의 IFTTT(IF This Then That)라는 기술을 사용하기도 했습니다. IFTTT의 경우 단순하지만 광범위한 작업에 사용될 수 있었던 반면, Mobile-Agent-V2는 복잡한 작업과 다단계 작업을 효과적으로 처리할 수 있다는 장점이 있습니다.
Mobile-Agent-V2에는 Planning/Decision/Reflection이라는 3개의 특수 에이전트가 있으며 각각은 다음과 같은 역할을 수행합니다.
- Planning 에이전트 : 이전 작업들을 요약하여 진행 상황을 텍스트로 정리합니다.
- Decision 에이전트 : 정리된 진행 상황을 바탕으로 작업을 수행하며, 중요 정보는 기억 장치에 업데이트 합니다.
- Reflection 에이전트 : 작업 전후 상태를 보고 오류를 식별하여 수정합니다.
Mobile-Agent-V2는 긴 작업 내역과 복잡한 화면을 효율적으로 탐색하고 중요한 정보를 기억하는 능력이 뛰어나며 결과적으로 어려운 작업에서 성공률이 55% 수준까지 끌어올릴 수 있었다고 합니다. (기존 단일 에이전트 성공률은 20% 수준)
|
|
|
사진: Multi-Agent 방식 개요 (상, 출처), Mobile-Agent-v2 동작 방식 (하, 출처) |
|
|
LivePortrait는 정적인 초상화 이미지를 생동감 있게 움직이는 비디오로 변환하는 기술입니다. 실제 동영상들을 참고해서 얼굴 표정이나 머리 움직임 등을 추출하고 이를 제시된 정적 이미지에 적용하는 방식이죠. 6900만 개나 되는 많은 수의 고품질 프레임을 모델 학습에 이용하다 보니 다양한 상황들도 잘 지원한다고 합니다. 실시간 영상 변환이 되므로 이를 잘 활용하면 재미있는 콘텐츠나 실감 영상 혹은 화상회의 도구 등을 만들 수 있을 것 같습니다.
사용된 기술 요소로 Implicit Keypoints (얼굴의 특정 지점을 표시하는 간단한 점들로 얼굴 움직임을 효과적으로 제어할 때 사용), Stitching (이미지 간 매끄러운 연결을 통해 일관된 영상 생성에 사용), Retargeting(눈, 입 등의 특정 부분을 개별적으로 제어해서 원하는 움직임을 생성할 때 사용) 등이 있습니다.
특징으로는 효율적인 모델 구조를 들 수 있습니다. 모듈들이 최적화되어 있어 빠른 추론 속도를 제공하는데 RTX4090에서 12.8ms 수준이라고 합니다. 게다가 스티칭, 리타게팅 등의 기술이 적용되어 자연스런 표정이나 동작표현이 가능하고 다양한 입력 소스와 동작 비디오를 지원하는 유연성도 제공합니다.
|
|
|
사진 : LivePortrait의 Stage 1, 2 파이프라인 (출처) |
|
|
StyleShot: A SnapShot on Any Style
|
|
|
StyleShot은 다양한 스타일이 자유롭게 적용된 고품질의 이미지를 생성하는 모델입니다. 스타일을 참조할 텍스트나 이미지에서 특징을 추출하고 사용자가 입력한 텍스트 프롬프트나 이미지에 스타일을 적용해 결과 이미지를 생성하는 방식을 취하고 있습니다. Stable Diffusion을 기반으로 하고 있고 StyleGallery라는 다양한 스타일을 포함한 훈련 데이터셋으로 학습되었으며 모델 성능의 종합적 평가를 위한 StyleBench를 제공합니다. StyleShot은 테스트 시 별도의 튜닝 없이 스타일 전이가 바로 가능하다는 장점을 제공합니다.
적용된 기술 요소는 다음과 같습니다.
- 다중 레벨 패치 임베딩: 이미지의 다양한 크기의 패치로부터 스타일 정보를 추출하여 더욱 풍부한 스타일 표현을 학습합니다.
- 디컬러라이제이션 및 HED 디텍터: 원본 이미지에서 스타일 정보를 제거하고 순수한 컨텐츠 정보를 추출합니다.
- Style-Aware Encoder: 스타일 참조 이미지로부터 스타일 임베딩을 추출합니다.
- Content-Fusion Encoder : 사용자 입력(텍스트 또는 이미지)과 스타일 참조 이미지를 융합해 최종 스타일화된 이미지를 생성합니다.
- 평행 크로스-어텐션: 스타일 임베딩을 Stable Diffusion 모델에 병렬 크로스-어텐션 모듈을 통해 통합합니다.
- 노이즈 주입: U-Net 기반의 안정적인 확산 모델에서 스타일과 텍스트 임베딩을 결합하여 최종 결과물을 생성합니다.
|
|
|
사진 : StyleShot의 아키텍처 개요 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
- 무인매장에서 활용될 수 있는 무인자동판매기와 성인인증장치, 그리고 이상행동 감지 등의 솔루션 및 서비스를 공급받을 수 있는 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|