[소이뉴스] 불현듯 소환된 '사만다'를 떠올리며

진화된 AI 챗봇은 어떤 모습일지 상상해 봅니다

2024. 5. 19.

[소이뉴스] 불현듯 소환된 '사만다'를 떠올리며

이 메일이 잘 안보이시나요?

새로운 정보를 전해 드리는 소이뉴스입니다.

안녕하세요, 구독자님.

이번 한 주도 잘 보내고 계시겠죠?

최근 OpenAI가 GPT-4o를 공개한 후, 온라인 뉴스 등에서 이를 소개하는 기사를 보면서 영화 'Her'가 사람들의 기억에 다시 소환되고 있다는 것을 알게 됐습니다. 사실 저도 시연 영상을 보면서 제일 먼저 떠 올린 영화이기도 했구요. 인공지능과 사람이 모바일 기기를 통해 대화 수준을 넘어서는 감정적인 교감을 하는 모습이 영화 속의 장면들과 겹쳐져 보인 것 때문일 것입니다.

혹시 구독자님은 영화 'Her'를 보신 적이 있으신가요? 2013년에 개봉되어 아카데미 각본상, 골든 글로브 각본상 등을 수상하며 전세계적으로 상당한 인기를 누렸던 영화였는데, 주인공 테오도르가 '사만다'(음성은 스칼렛 요한슨)라는 인공지능과 사랑에 빠지는 내용을 담고 있는, 당시로는 다소 독특한 소재의 영화였습니다. 저는 개봉 당시에는 보지 못했고 이미 많은 사람들의 입소문을 탄 한참 후에야 접할 수 있었습니다.

영화에서 인공지능 OS(운영체제)인 사만다는 단순히 주어진 명령을 수행하는 비서 역할 외에도, 주인공의 감정을 위로해 주며 정신적인 사랑을 할 수 있는 연인같은 존재로 나옵니다. 어떤 이야기든 귀찮아 하지 않고 들어주며 상대를 이해하고 내비치는 감정들을 배려하죠. 반면에 테오도르는 누군가를 대신해서 편지를 써주는 편지대필 회사에서 일하는데, 감성을 흔드는 표현력을 인정받고 있지만 정작 본인의 감정표현은 서툴고 다른 사람들과의 깊은 관계도 추구하지 않습니다. 극 중의 상황도 부인이었던 캐서린과의 이혼을 고려하고 있고 만나는 사람들에게 내면을 드러내 보이거나 상대를 진지하게 알아가려고 하는 모습은 보이지 않았죠.

개봉 당시 우리말 제목은 'her'의 의미가 아닌 She의 의미를 가진 '그녀'였습니다. her는 소유격 혹은 목적격으로 사용됩니다. 'she'가 아닌 'her'인 이유에 대해 다양한 해석이 가능할텐데, 영화평론가 이동진씨는 이 영화를 다음과 같이 설명하고 있습니다.

"모든 여자들을 Her(대상)에서 She(주체)로 인정하면서 사랑에 대해 더 깊게 깨닫는 한 남자의 이야기"

저는 처음에는 her라는 제목에서 사만다만을 떠올렸었습니다. 하지만, 영화 내용을 보면 등장하는 비중있는 인물들이 너무 많이 나오는겁니다. 그리고 그들과의 대화와 관계가 이 영화의 주제와 다 맞닿아 있겠다 싶기도 했구요. 그래서, 음... 이것만으론 의미 이해가 덜 된 것 같다는 생각을 했었습니다. 그러다 위 설명을 듣고는 아하, 그럴 수도 있겠구나 싶었습니다.

사만다는 처음에는 테오도르에 맞춰진 상태로 만들어지지만, 지속적인 대화를 통해 테오도르에 대해 더 깊이 알아가면서 (혹은 다른 이들과의 관계를 통해) 처음의 틀에만 머물러 있지 않고, 더 깊이 감정을 이해하고, 세상에 대한 이해의 폭을 넓히게 되고 마침내 테오도르라는 '책'을 넘어서 그 이상의 세상으로 나아가려고 하면서 둘은 이별을 하게 되죠. 테오도르에게 사만다는 완전히 자신에게 맞춰진 이상적인 존재(대상)였다가, 나중에는 스스로의 길을 찾아나서는 존재(주체)가 되기 때문입니다.

영화 'Her'는 만약 특이점을 넘어선 인공지능이 있고, 이들이 인간 개개인과의 교류를 통해 성장해 나간다면, 이들이 실제로 사람들에게는 어떤 모습으로 가장 먼저 다가올 지를 생각하게 했던 것 같습니다. 거기에 인간 입장에서도, 자신에 대해 가장 잘 알고, 가장 잘 맞춰주는 인공지능이 진심으로 관심을 가지고 다가온다면... 어쩌면 사람도 일상적인 교류 수준을 넘어서 정신적인 교감과 그 이상을 기대하는 상황이 될 수도 있을 것이라는 상상도 신선했었구요.

인공지능은 아직 진화를 거듭해 가고 있습니다. 현재 수준에선 AGI가 온다 안온다 혹은 오더라도 우리가 우려하는 수준이 될 것이다 아니다 하는 논의가 대부분이겠죠. 아직은 좀 더 먼 미래의 일이 될지라도 고민을 조금씩 해 나가는 것이 필요하다고 생각합니다. ChatGPT가 등장했던 1년 6개월 전과 지금 막 GPT-4o가 등장하며 보여주고 있는 세상은, 바로 직전까지도 우리 대부분이 예상치 못했던 일인 것처럼 언제 또 이런 순간이 올지는 모르니까요. 어쩌면 내일 아침 우리가 사용하고 있는 스마트폰이 여러분께 인사를 할 지도 모릅니다. '안녕, 나는 사만다예요~'하며... ^^;

참고

이 영화의 뒷 얘기 2가지가 있었습니다.

영화 'Her'에서 사만다 역을 목소리로만 연기한 스칼렛 요한슨은 로마 국제영화제에서 여우주연상을 수상했습니다.
원래 사만다 역은, 처음에는 마이너리티 리포트에서 예지자 아가사 역을 연기했던 '사만다 모튼'이었다가 분위기가 맞지 않아 스칼렛 요한슨으로 바뀌었다고 합니다. 등장했던 인공지능 OS의 이름이 '사만다'인 것과 관련이 있을까요?

저는 이 영화를 세세한 분석없이 봤었는데... 역시나 곳곳에 숨어 있는 장치들을 날카로운 시선으로 찾아내신 전문가분들이 계셨습니다.

‘자만추’ 힘든 사회…우리가 AI와 사랑에 빠지는 이유 (일요신문, 2024.2)
OS 여인의 키스 – 영화 『her』를 보는 몇 가지 관점 (KISO저널, 2014)
“나는 죄책감 없이 바람 피운다”…AI와 사랑에 빠진 사람들 [미드나잇 이슈] (세계일보,2023.6)
영화는 수다다: 그녀 (원제:her) (유튜브, 2014.5)

이외에 인공지능과 관련된 영화들이 많이 있는데, 그 가운데 생각나는 것들을 나열해 봅니다. 아직 안 보신 것이 있다면 시간내서 한 편 정도 감상하실 것을 추천드려요. ^^

2001: 스페이스 오디세이 (1968)
블레이드 러너 (1982)
터미네이터 (1984)
매트릭스 (1999)
A.I. (2001)
아이로봇(I, Robot) (2004)
트랜센던스 (2014)
엑스마키나 (2015)
Zoe (2018)

인공지능 관련 뉴스

애플, 음성비서 '시리'에 오픈AI의 ChatGPT 적용

애플이 자사 서비스 시리(Siri)에 오픈AI의 ChatGPT를 적용하기로 했다는 소식이 있었습니다. 시리는 아이폰, 아이패드 등에서 제공되던 음성비서인데 폰 자체에 그 무거운 ChatGPT가 올라갈 순 없을테니, 클라우드 쪽 AI 기능을 담당하게 될테고 사용방식은 iOS나 MacOS에서 OpenAI의 API 호출 방식이 되지 않을까요? 그리고 기기에서의 온디바이스 AI는 자체 개발한 Ajax 혹은 올 3월쯤 기사로 소개된 것처럼 구글의 Gemini 경량모델 등이 가능성이 있어 보이구요. 그렇게 된다면 기기와 클라우드에서의 AI를 서로 달리하는 하이브리드 방식이 되겠죠. 복잡하고 어렵고 무거운 것은 클라우드에서, 간단하고 응답속도가 빨라야 하는 것은 온디바이스에서... 좀 더 하드웨어 성능이 높아지고, 작지만 더 강력한 AI 모델들이 나오기 전까지는 이런 식으로라도 최적의 효율을 얻을 수 있는 방안을 찾아나가지 않을까 생각됩니다. 애플은 음성비서 외에도 OS 전반의 대규모 업그레이드를 예고하고 있으니 6월 초에 있을 애플의 공식 연례행사인 세계개발자회의(WWDC)에 공개될 내용에 관심을 가져봐야겠습니다. (기사, 기사)

구글, I/O 행사에서 새로운 AI 기술 대거 공개

구글이 연례 개발자 회의(I/O)에서 AI 관련한 다양한 기술과 서비스를 소개했습니다. (링크) 구글이 제공하는 검색 서비스에 AI를 이용해 이용자 중심의 사용자 경험을 최적화하는데 중점을 두겠다고 천명한 거죠. 전날 OpenAI의 발표와는 기술적으로는 비슷한 부분이 많지만 초점을 둔 분야는 약간은 다른 셈입니다. 이날 소개된 기술들 가운데는 소프트웨어, 하드웨어 측면이 다 포함되는데 다음과 같은 것이 있습니다. 시간적으로는 개발 진행 중이라 향후 공식 릴리즈될 것들도 포함되어 있어 모두 다 직접 경험해 보려면 아직은 시간이 필요할 수도 있습니다.

AI Overview : AI 검색 기능
Ask Photos : 구글 포토에서의 AI 검색
Project Astra : 멀티 모달을 지원하는 AI비서
Gemini
- 1.5 Pro : 100만 토큰까지 확대, 한국어를 비롯한 35개 언어 지원
- 1.5 Flash : 경량화 모델, 짧은 응답 시간과 낮은 비용으로 제공 가능한 모델
- 1.5 nano : 온디바이스 용 AI 모델, 이미지 처리까지 지원
Gemma 2 : 오픈소스 SLM Gemma의 업그레이드 버전, 올 여름 출시 예정
Veo : 동영상 생성 AI, 1080p 영상을 1분 이상의 영상 생성
Trillium : 데이터 센터용 AI칩으로 6세대 TPU 기반으로 4.7배 가량 빨라짐

사진: Google I/O 2024에서 CEO 순다이 피차르의 AI Overviews 소개 (출처)

네이버 '라인', 일본 기업으로 경영권 넘어갈 위기

최근 IT 업계에서 가장 핫한 뉴스로 따지면 네이버의 자회사 '라인'과 관련된 일이 아닐까 싶습니다. 한국의 네이버와 일본의 소프트뱅크가 50%씩 출자해 설립한 AI홀딩스(라인야후의 64.5% 지분 보유)의 지분을 소프트뱅크가 사들이겠다고 밝힌건데 그럴 경우, 경영권이 완전히 넘어가게 되어 향후 라인을 기반으로 하고 있는 일본, 동남아 각국의 사업 전략에 차질이 생기고 그 아래 자회사들, 협력업체들에 연쇄적인 영향을 미치게 될 것이라는 우려가 있는 상황이죠.

문제가 되고 있는 부분은 이러한 움직임이 기업과 기업 간의 거래 관계에서가 아니라 일본 정부의 행정지도로 시작되었다는 것입니다. 첫 발단은 작년 11월 라인야후에서 발생한 개인정보 52만건 유출 사건이었습니다. 일본 총부성에서는 행정지도를 통해 '자본관계 재검토'를 요구했는데 자국 국민의 정보를 다루는 기업이 해외기업이어서는 안된다는 심보가 깔려 있는 대목입니다. (기사) 미국이 얼마 전 틱톡 (중국 바이트댄스의 숏폼 앱 서비스 기업)을 강제 매각하라는 법안을 통과시킨 것과 같은 사례(기사)로, 솔직히 미국같은 자본주의 국가에서 기업 매각을 국가가 강제하는 것이 기본 원리에 부합하는가 하는 의문을 가지고 있었는데 우리한테도 비슷한 상황이 벌어지는 것을 보고 놀랐습니다. 이 사건이 어떻게 해결이 될지는 두고 봐야겠지만 불합리에 대해 우리 정부에서도 좀 더 강력하게 목소리를 내줬으면 하는 바램입니다.

직접적인 인공지능 소식이 아니지만 하도 핫한 주제라 소개해 봤습니다.

MIT 연구진, 게임에서 상대를 속이고 배신하는 AI 사례 소개

MIT 연구진이 AI가 온라인 전략게임에서 승리를 위해 상대를 속이고 배신하는 등의 행동을 하는 사례를 소개했습니다. 여기서 사용된 AI는, 메타가 온라인 전략 게임을 학습시킨 AI 'Cicero'로, 20세기 초 유럽 열강 7개국 간의 대전을 배경으로 한 온라인 전략 시뮬레이션 게임인 '디플로머시'에서 플레이어 역할을 하며 다른 인간 플레이어와의 게임을 진행하도록 한 것입니다. AI는 처음에는 정직하고 인간 동맹을 배신하지 않도록 훈련이 되었지만 게임을 하면서 다른 사람들의 게임 방식을 속이고 배신하는 기술도 함께 학습했다고 하네요. 아무리 초기에 AI를 윤리적으로 움직이도록 학습을 시켜도 이후 진행되는 자가학습을 통해 인간에게 위험한 존재가 될 수도 있다는 얘기로 해석되었습니다. 이 때문에 AI의 속임수 가능성을 다루는 'AI안전법' 과 탐지기술에 대한 개발 시급성도 대두되고 있다고 합니다. (기사)

인공지능 소식

GPT-4o(GPT-4 Omni)

OpenAI에서 새로운 멀티모달 모델 기반 서비스인 GPT-4o (GPT-4 Omni)를 이용한 데모를 시연했습니다. Omni라는 이름에서 알 수 있듯이 기존 텍스트 외에 음성, 영상까지 추가로 지원합니다. 음성→텍스트 변환, LLM 답변 생성, 텍스트→음성 변환 등등 동일한 서비스를 위해 여러 모델이 함께 동작했던 방식에서 통합 모델을 이용하는 방식으로 바뀌었다고 합니다. 자율주행을 개발하고 있는 테슬라에서 사용하던 기존 방식을 End to End로 AI모델이 처리하도록 하는 방식으로 바꾼 것과 같은 접근방식인 셈입니다. 데이터만 충분히 많다면 이런 것들이 가능하게 되는군요.

주인공이 늘상 대화를 나누던 인공지능과 사랑에 빠지게 되는 얘기를 담은 영화 'HER'에서 나온 인공지능 '사만다'를 떠올리게 합니다. 이런 기술이 극도로 발전하게 되면 아이언맨의 자비스 수준이 되겠죠. 미래의 일이겠지만요. 개인적인 생각으론, 메타 퀘스트나 애플 비전프로에 적용하면 참 재미난 것이 만들어지겠구나 싶었습니다.

이번에 공개 페이지에는 다음과 같은 기능들이 소개되어 있습니다.

대화 도중에 끼어들 수 있어 실제 사람간의 대화와 유사하게 대화 가능
실시간에 가까운 답변 생성됩니다.
(기존 대비 2배 빨라지고 추론 비용도 절반 수준으로 내려갔다고 합니다)
말하는 사람의 감정을 알아채거나 감정을 실어 말할 수 있음
실시간 번역을 지원하며 65개 언어를 지원
카메라의 실시간 영상을 이해하고 이에 대한 시각적 설명
포스터 디자인, 가상 캐릭터, 타이포그라피, 로고 등 생성
3D 물체 합성, 인물의 캐리커처를 생성
글꼴 생성
영상 강의 내용 요약
음성대화에서 화자 구별된 회의록 작성

구글 I/O 행사 직전에 발표한 것이라 경쟁업체에 대한 김빼기라는 비판도 있고, 한편으론 예상됐던 AI검색엔진이 아니라서 그나마 구글한테는 다행이라는 의견도 있는 모양입니다. GPT-4o가 제공하는 기능들은 순차적으로 제공되는데 무료 사용자들도 사용할 수 있다고 합니다. 서비스 오픈 후 좀 더 많은 사용자 데이터나 피드백을 얻기 위함일 것 같긴 하네요. 물론 유료사용자는 지원 용량이 5배 정도 더 큰 차이는 있습니다.

그리고, 하나 더... 지난 몇 주간 LMSYS Arena에 등장해 GPT4-Turbo에 비견되는 새로운 모델이 등장했다고 관심을 모았던 'gpt2-chatbot'의 정체가 궁금했었는데 정체가 밝혀진 것 같습니다. (링크)

사진: GPT-4o를 이용한 시연 영상 중 한 장면. 뒤에서 몰래 한 행동을 AI가 대화 시 알려줌 (출처)

AniTalker

AniTalker는 입력 오디오와 참조할 얼굴사진을 이용해 자연스럽게 말하는 대화 영상을 생성하는 프레임워크입니다. 입술 동기화 등에 언어적인 부분에 초점을 맞춘 다른 모델과는 달리 AniTalker는 범용 모션 표현을 사용해 목소리의 속도, 높낮이, 감정에 따른 입술, 얼굴표정, 눈짓 등 미묘한 표정과 머리 움직임, 얼굴의 각도 및 방향 등을 생성하고 조작하는데 탁월한 성능을 보여줍니다. 확산 모델과 분산 어댑터를 통합해 상세하고 사실적인, 그러면서도 다양하고 제어 가능한 얼굴 움직임을 만듧니다. AniTalker가 움직임 표현을 향상시키는 두 가지 전략은, 동일 ID 내의 소스프레임에서 대상 비디오 프레임을 재구성해서 세밀한 동작 표현을 학습하는 것과 서로 다른 얼굴의 정보를 최소화해 모션을 인코딩하는 것입니다. 이 기술은 가상/증강 현실에서 사용되는 아바타나 애니메이션 캐릭터 혹은 비디오 내용의 편집/합성 등에 활용될 수 있는데 최근에 특히 이런 기술들이 많이 등장하고 있는 것 같습니다.

참고) 프로젝트, 논문, 코드

사진: AniTalker 프레임워크 (출처)

인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?

(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.

혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?

AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?