[소이뉴스] 기술의 징검다리를 떠올려 봅니다.

신기술과 이를 바탕으로 한 응용 기술에 대한 단상

2023. 11. 10.

[소이뉴스] 기술의 징검다리를 떠올려 봅니다.

이 메일이 잘 안보이시나요?

새로운 정보를 전해 드리는 소이뉴스입니다.

안녕하세요, 구독자님.

이번 한 주도 잘 보내고 계신가요?

바로 어제 Humane이라는 스타트업이 'Ai Pin'이라는 기기를 출시했습니다. (링크) 스마트 와치 크기의 자그마한 제품인데 전화, 마이크, 스피커, 카메라, 레이저 빔프로젝터를 내장하고 있어 사진이나 영상을 촬영하거나, 음성 명령이나 손동작 같은 제스처를 인식하여 지시한 사항을 이행하고 결과를 소리나 화면(손바닥 투사)에 보여줄 수 있습니다. 음성지시는 아마존 알렉사처럼 동작하고 다른 언어를 사용하는 상대방과 대화할 때 통역 기능을 제공하기도 합니다. 한마디로 말해서 라이프로깅부터 업무 미팅까지 대부분의 일상 생활에 다 활용할 수 있다는 말입니다. 오호... 이 정도 되면 뭔가 또 세상에 큰 임팩트를 줄만한 녀석이 나타났구만 하면서 얼리어답터들은 검증을 하려고 하겠죠.

참고로 Humane의 설립자는 Imran Chaudhri와 Bethany Bongiorno인데 각각 디자이너와 개발자로 Apple에서 오랫동안 핵심적인 역할을 하던 인물들입니다. 그래서 제품의 디자인이나 사용자의 경험, 그리고 작은 디바이스 내에 최적화된 소프트웨어 개발이 가능했을 것이라 생각됩니다. (참고로 저는 아직 이 제품을 영상에서만 접했을 뿐입니다 ^^;)

그런데 내용을 보다보니 기시감이 들었습니다. 어디선가 봤는데 싶었거든요. 기억을 되살려 찾아보니 그건 2009년도에 TED 영상에 소개된, Pranav Mistry라는 분이 개발한 'SixthSense'라는 기술이었습니다. (링크) 비록 당시엔 음성이나 전화 기술 자체는 포함되어 있지 않았지만 카메라와 빔 투사 기술, 제스처 감지 등을 이용한 다양한 활용법을 제시했죠. 보여준 적용 사례 중 일부는 실제 동작하는 것이 아닌 컨셉인 것도 있었을거라 생각하지만 당시로는 발상만으로도 굉장히 획기적인 것이었습니다. 저도 장난감 삼아 적외선 LED와 빔 투사 기능을 이용해서 화이트보드를 만들어서 가지고 놀았던 기억이 있네요. ^^;

사진: Pranav Mistry가 SixthSense 기술을 활용한 사례를 보여주는 장면 (출처)

참고로 Pranav Mistry는 MIT 박사 출신으로 2012년 삼성의 미국 R&D 기지인 SRA의 총괄, 2015년에는 33세로 삼성전자 최연소 임원, 2017년에는 SVP(Senior Vice President)를 역임했고 2020년 인공인간 'NEON' 프로젝트를 진행한 후 2021년 삼성을 떠났습니다.

Humane의 Ai Pin은 가깝게는 영화 'Her'에 나온 휴대기기와도 비슷합니다. 앞의 'SixthSense'는 실제로 보여준 프로토타입 기술이고 후자는 상상속의 초미래 기술이어서 직접 비교할 수는 없지만, 컨셉의 계보로 따지면 과거와 현재를 이어주는 징검다리 역할을 했다고 생각됩니다. 과거의 'SixthSense' 가 'Her에서의 휴대기기'를 거쳐 현재의 'Ai Pin'으로 말이죠. 스마트폰, 스마트글래스, 스마트워치도 다 비슷한 선상에 있긴하지만 형태나 착용 방식을 고려해보면 생각해서 제외했으니 양해 바랍니다.

세상에 완전히 없던 것이 바로 등장하는 경우는 흔치 않습니다. 대부분의 기술은 나와 있는 것을 개선하면서 진화해가죠. 그런만큼 기존에 없던 것을 내놓는다는 것은 매우매우 어려운 일이라 생각합니다. 어느 한 사람이 80억 세계사람들의 머리를 대신할 순 없을테니까 말이죠. 처음 아이디어를 내는 것도 어렵겠지만 그것을 현실화해서 심지어 대량으로 생산까지 한다는 것은 차원이 다른 어려움이 기다리고 있을 겁니다. 하지만 한편으론 누군가의 어깨에 올라서서 그 다음을 상상하는 것은 늘 즐겁고 흥미진진한 일이지만 다른 누군가가 올라탈 어깨가 된다는 것은 그보다 더 뿌듯하고 자랑스러운 일이 될 수도 있습니다. 새로 등장하는 많은 스타트업들 중에 이런 '어깨'를 지향하는 곳들이 있을 겁니다. 어려운 길이지만 그 길을 만들어 가면서 뒤에 오는 다른 이들이 더 즐겁게 그곳을 지날 수 있도록 판을 까는 역할도 해 주길 기대해 봅니다. 어찌하다보니 이번 소식에서도 새로 나온 제품 하나에서 뜬금없는 생각의 가지치기를 하는 상황이 되어 버렸네요. ^^;

아침 출근길에 매일 보던 은행나무, 단풍나무의 잎들이 어제 밤 내린 비에 완전히 다 떨어졌더군요. 기온도 뚝 떨어져 이제는 겨울 옷들을 본격적으로 꺼내 입어야 할 것 같습니다. 아무쪼록 환절기, 그것도 급격하게 찾아오는 계절의 변덕을 잘 이겨내시길 바랍니다.

인공지능 관련 뉴스

OpenAI 개발자 행사
ChatGPT의 개발사인 OpenAI에서 오랜만에 개발자 데이를 열었습니다. 샘 앨트먼 OpenAI CEO와 사티아 나델라 마이크로소프트 CEO가 참석했습니다. GPT-4 Turbo 모델에서 입력 토큰의 길이가 128K로 늘고 이미지 인식 기능 등이 추가되었다는 소식도 있었는데 사실 이 부분은 이미 아는 사람들이 많이 있었죠. 그 외의 다른 중요한 발표가 몇 가지 있었는데 그 내용은 다음과 같습니다. (영상)
- GPTs : 특정한 목적에 맞춘 사용자 지정 버전의 GPT들. 전문강사들의 강의 내용을 가지고 파인튜닝을 해서 그 사람처럼 대화를 이어나갈 수 있는 GPT를 말합니다. 그런데 이걸 만드는 걸 코딩없이 말로 손쉽게 할 수 있도록 지원합니다. Andrey Kapathy가 예전 트윗으로 이렇게 얘기한 적이 있었죠. "가장 핫한 새로운 프로그래밍 언어는 '영어'"라고... (링크)
- GPT Store : 개인화된 에이전트들을 거래할 수 있는 마켓 플레이스입니다. AI 용 앱스토어 같은 개념이라고 보면 됩니다. 위의 GPTs를 이용한 수익화를 할 수 있는 길을 열어주면서 OpenAI도 본격적인 수익화를 시작하겠다는 발표인 셈이죠. 어쩌면 미래에는 앱 스토어는 애플과 구글이, VR앱 스토어는 메타가, 자동차 앱 스토어는 테슬라가, AI 앱스토어는 OpenAI와 MS가... 이렇게 분야 별로 양분하는 세상이 올 수도 있지 않을까요?

사진: OpenAI DevDay 키노트 영상 (출처)

xAI Grok 출시
일론 머스크가 설립한 인공지능 기업 xAI에서 Grok이라는 LLM 모델 발표 했습니다. 워낙 많은 LLM이 있어서 그 가운데 하나인 거 아니냐 할 수도 있지만 제가 별도로 소개하는 이유는, 일론 머스크가 예전에 OpenAI의 ChatGPT 대항마 개발을 선언했었고, 트위터라는 거대 SNS의 데이터를 활용하고 있으며 무엇보다도 이를 주도하고 있는 일론 머스크 자신이 지능형 자동차, 인간형 로봇, 뇌 인터페이스 기술을 개발하고 있는 기업들도 함께 운영하고 있기 때문입니다. 나중에는 그 기술들이 서로 연계가 될 것으로 기대되기 때문이죠. 330억개 매개변수를 사용하는 상대적으로 경량화된 모델이며 실시간 트위터 정보를 활용하고 약간의 위트나 유머를 가미했다는 차이도 있죠.
일론 머스크 관련 기업들은 언제나 놀라운 기술 개발 속도를 보여주고 있습니다. 옵티머스 로봇 개발도 수개월만에 프로토타입을 선보였고 이번 Grok도 xAI 설립 후 8개월만에 나왔죠. 베타 서비스에서 보여준 인상이 이후 업글레이드 시 어떤 형태로 바뀌게 될지는 사뭇 궁금합니다. 현재 베타 서비스는 테스트를 위해 선정된 사용자들에게만 제공됩니다. (소개, 소개영상(안될공학))
삼성전자 'Samsung Gauss' sLLM 공개
삼성전자가 11월 8일 서울 R&D 캠퍼스에서 열린 '삼성 AI 포럼 2023'에서 'Samsung Gauss' 라는 이름의 sLLM 모델을 공개했습니다. 자체 개발한 언어모델로 스마트폰 등에서 동작할 수 있는 온디바이스 AI를 타겟으로 개발된 것으로 예상되고 있습니다. 이유는 지난 3분기 컨퍼런스콜에서 생성형 AI 탑재를 천명한 바 있기 때문입니다. 앞서 xAI의 Grok도 자동차라는 디바이스 탑재될 것이란 예상이 있는 것처럼, 삼성전자의 이번 발표도 사용자들이 사용하는 최종 단말 디바이스인 스마트폰에서 동작할 수 있는 AI를 표방하는 것 같아 주목을 끌었습니다. 최근 삼성전자와 AI반도체 업체인 리벨리온이 함께 고성능 반도체 '리벨' 을 제작한다고 발표했던 기사도 있었기에 혹시나 하는 개인적인 기대도 있죠. (아닐 수도 있음!!!) 최근 젊은세대들의 관심이 아이폰 쪽으로 몰리고 있다고 하는데 아무쪼록 새로운 신기술을 과감하게 도입해서 신박하고 힙한 기능들로 그들의 이목을 끌어왔으면 하는 바램입니다. (링크)

사진: 삼성전자가 공개한 Samsung Gauss 모델 (출처)

인공지능 기술

Movie-ASD

Movie-ASD는 영상 속에서 현재 말하고 있는 사람(활성화자)을 감지하는 (CMIA; Cross Modal Identity Association) 프레임워크입니다. 영상에서 현재 말하는 사람을 알아내는 것은 생각보다는 쉽지 않은 기술입니다. 사람이 직접 분간한다고 해도, 소리가 날 때 사람들의 얼굴, 특히 입모양 움직임이 있는지를 지켜봐야 하는데 그것도 그 순간만이 아니라 일정한 시간에 반복되어 나타나야 제대로 알 수 있죠. 소리는 하나인데 여러 사람의 입모양이 동시에 변한다면, 혹은 화면 상에 보이지 않는 사람의 목소리라면 등등. 너무도 많은 엣지 케이스가 존재하기 때문이죠.

기술적으로 얼굴과 음성 간의 관계를 도출할 때 시각적 활동(입모양, 얼굴 변화 등)과 음성신호 간의 상호작용을 확인하는 방법과 화자의 얼굴과 음성이 동시에 나타나는 것을 파악하는 방법 등이 사용되는데 Movie-ASD는 이 두가지 방식을 융합해서 사용합니다. 즉, 시각적 활동, 음성신호, 화자 ID를 함께 사용하는 것이죠. 이를 이용하면 화상회의 때 누가 말하고 있는지를 파악하고 그 사람 쪽 영상을 활성화하거나 트래킹하는 용도 등으로 활용할 수 있습니다.

참고) 논문, 소개글, 코드(깃헙)

사진: 활성 화자식별의 연관방식 설명(상), 실행결과(하)

SPHINX

SPHINX는 Task, Domain, Embedding이 혼합된 다중 모드 언어모델 (MLLM)입니다. 아래 파이프라인 그림을 보면 다양한 용도로 활용할 수 있도록 뭔가 많은 것들이 혼합되어 있다는 것을 눈치챌 수 있습니다. 시각적 질문응답(VQA), 다단계 밀집 캡션, 참조 표현 이해, 객체감지, OCR, 문서 레이아웃 감지, 자세 예측, 텍스트 감지 등등 아주 다양한 것을 할 수 있습니다. SPHINX는 LLama2-Accessory 툴킷을 기반으로 만들어졌으며 HuggingFace에 베타버전의 사전 학습 모델이 공개되어 있고 로컬에도 이 다운받아 동작시킬 수 있습니다.

참고) 논문, 코드(깃헙), 데모

사진: SPHINX의 pipeline (상), 제공하는 기능들 (하)

인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?

(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.

혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?

AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?