물리적 거리, 심리적 거리의 차이를 생각합니다 안녕하세요, 구독자님.
이번 한 주도 잘 보내고 계신가요?
4월 8일부터 미국, 캐나다, 맥시코 북미 전역에서는 개기일식이 있었습니다. 대륙을 횡단하는 루트 때문에 미국 내에서는 개기일식이 일어나는 지역들의 숙소의 예약이 일찌감치 완료됐고 이 광경을 보려는 관광객들 때문에 때아닌 대이동도 있었던 모양입니다. 가까운 2017년 개기일식 때는 에어비앤비 매출이 무려 90%나 상승했었다고 하는 얘기도 있었습니다. 이번 개기일식에는 우리나라 한국천문연구원에서도 개기일식 때 발생하는 태양의 코로나 연구와 NASA와 공동 개발한 우주정거장 용 코로나그래프 장비 핵심 연구를 위한 지상 관측을 수행하기 위해서 관측단을 파견했다고 합니다. (기사)
일식 (Solar Eclipse)란 달이 해를 가려 해의 일부 혹은 전부가 보이지 않는 현상인데, 이 가운데 전부가 보이지 않을 때를 개기일식(Total Solar Eclipse)이라고 부릅니다. 뉴스 꼭지에 올린 사진은 반지모양을 띄는 금환일식에 추가로 한쪽 끝부분이 반짝이는 모습인데, 이 모양 때문에 '다이아몬드 반지의 순간'이라는 불리기도 한답니다. 달이 해를 완전히 가리기 직전과 직후에 잠시동안 볼 수 있다는데요... 이걸 보여주며 프로포즈를 하는 사람들도 있지 않았을까 하는 생각을 해 봤습니다. ^^;
일식은 달과 지구가 공전을 하다가 태양-달-지구가 일직선 상에 놓이게 되어 가려지기 때문에 발생하게 됩니다. 달이 지구를 한달에 한번 공전을 하니 일식도 같은 주기로 발생할 것 같은데 그렇진 않고 18개월 정도의 주기를 가진다고 합니다. 이는 태양의 경로, 지구와 달의 공전 궤도가 같은 평면상에서 움직이는 것이 아니라 약 5도 가량 불일치하기 때문에 그것들까지 다 맞아떨어져야 하기 때문이라네요.
개기일식이란 것을 생각해 보면 달이라는 작은 천체가 태양이라는 거대한 천체를 완전히 가리는 것이죠. 그건 달이 지구에 훨씬 가까이 있기 때문에 가능한 것인데, 사람이 살아가는 측면을 보더라도 엄청나게 커다란 사건도 내 일상과 바로 맞닿아 있지 않으면 그리 중요하게 느껴지지 않는 것과 비슷하다고 볼 수 있겠습니다. 지금 지구상에서 벌어지고 있는 두 개의 큰 전쟁이나 지구 곳곳에서 일어나고 있는 이상기후 현상이 그 예라고 할 수 있을 겁니다. 거리 상으로 멀리 떨어진 곳에서 발생하는 사건들 때문에 늘 위기의식을 느껴 가슴 졸이며 살아야 하는 것은 아니겠지만, 인터넷과 통신의 발달로 이미 지구 위의 어느 곳이건 물리적인 거리보다 훨씬 가까워져 버렸기 때문에 관심을 완전히 놓아서는 안 될 것 같습니다.
일식에 대해 조사하다보니 알게 된 한 가지 신기한 사실이 있습니다. 개기일식 때 보면 달이 해를 거의 같은 크기로 가리는 것을 알 수 있습니다. 지구에서는 해와 달의 크기가 거의 같게 보인다는 거죠. 대략적인 수치이긴 하지만,, 태양의 직경이 달의 약 400배, 그런데 태양까지의 거리가 달까지 거리의 약 400배... 사실 우리가 개기일식을 보게 되는 것에는 이런 우연이 한몫하고 있습니다. 우연은 또 한가지 더 있네요. 지구 직경의 약 1/4인 달은 태양계 다른 행성들의 위성 크기 비율을 보더라도 비정상적으로 크다는 것이죠. 과학계에서 달의 기원을 설명하는 한 이론으로, 원시지구가 원시 다른 행성과 충돌한 후 파편이 튀어나가 생겼다는 '충돌설'이 있는데 이 이론 자체도 엄청나게 희박한 우연이 겹쳐져야 나올 수 있죠. 우린 그런 결과를 늘 보며 살아가고 있는 겁니다.
이번 개기일식처럼 미국 대륙을 관통하는 것은 앞으로 20년 후나 가능하다고 합니다. 물론 미국 이외의 곳에서는 그 전에도 볼 수 있는 곳이 많이 있겠죠. 우리나라에서 개기일식을 볼 수 있는 것은 2035년 9월 2일 오전 9:40 경, 북한 평양과 강원도 고성 등지가 될 것이라고 합니다. 무려 10년이나 넘게 남았고 게다가 남한의 동쪽 최북단에서만 볼 수 있으니 아쉽긴 합니다. 명절은 아니지만 그때쯤 세기의 이벤트라면서 많은 사람들이 이를 보기 위해 미국의 사례처럼 이동하겠죠? 아마 저도 열심히 개기일식을 보기 위해 달리고 있을 것 같습니다. ^^;
참고 사항
- 일식과 개기일식에 대한 설명 (링크, 링크)
- 개기일식 관련 뉴욕타임 뉴스 보도 (링크)
글을 읽기 위해 아래로 스크롤 하다보면 개기일식이 진행되는 모습을 볼 수 있습니다. ^^;
- 일식 가이드 앱 소개 (링크)
- 태양까지의 평균거리 : 1억 4960만 km
달까지의 평균거리 : 38만 km 태양의 직경 : 1,392,700km. ( 139만㎞) 달의 직경 : 3,476km
|
|
|
OpenAI, GPT-4 Turbo 업그레이드
OpenAI가 최근 GPT-4 Turbo의 기능을 대폭 업그레이드 했다고 밝혔습니다. Claude나 Gemini 등이 새로운 버전과 기능을 계속 내놓고 있는데 반해 GPT-4는 한동안 큰 변화가 없었습니다. 물론 그 사이 SORA 등의 쇼킹한 기술 발표가 없진 않았지만 GPT-4 자체의 변화가 아니었던터라 사람들에겐 그렇게 느껴졌던 것 같습니다. 이번에 소개된 업그레이드 내용을 보면, 입력 토큰의 양이 최대 300페이지로 늘어난 것, DALLE-3의 이미지, 텍스트-음성변환 지원 등이 새로 추가되었고, 전반적으로 모델의 벤치마크 성능이 높아진 것으로 볼 수 있습니다. 특히 경쟁자인 Claude3-Opus 나 Gemini Ultra 1.0을 MMLU, MATH, HumanEval 등등 다수의 벤치마크에서 뛰어넘었고, 거기에 추가해서 학습에 사용된 데이터가 2023년 4월까지의 정보로 확대되었다고 합니다. ( 기사) |
|
|
xAI, 첫번째 멀티모달 모델 Grok-1.5V 출시
3월 말경에 xAI는 X(트위터)에서 사용되는 LLM인 Grok을 오픈소스로 공개했었습니다. 이후 약 보름 정도가 지난 4/12, xAI는 멀티모달 LLM인 Grok 1.5v를 출시했습니다. 텍스트 뿐 아니라 문서, 다이어그램, 차트, 스크린샷, 사진 등의 다양한 자료를 처리할 수 있게 된거죠. 최근 LLM 쪽의 추세이기도 해서 크게 주목을 끌지 못할 수도 있을텐데, 제 관심을 끈 것은 공개된 벤치마크 결과 가운데 RealWorldQA, TextVQA 등 몇몇 분야에서 Claude 3 Opus나 Gemini pro 1.5, GPT-4V 등을 넘어서는 결과를 보였고 공개되는 기술의 발전 속도가 남다르다는 느낌을 받았기 때문입니다. ( 기사) |
|
|
구글, 'Infini-attention' 기술 소개
구글에서 LLM의 컨텍스트 창의 길이를 무한 확장할 수 있는 'Infini-attention' 기술과 관련된 논문을 발표했습니다. LLM에서 토큰의 길이를 늘이기 위해서는 입력 처리를 위한 메모리와 계산량이 기하급수적으로 증가하게 되는데 이를 해결하기 위한 방안을 제시한 것입니다. 'Infini-attention' 기술은 기존의 Attention 메커니즘에 메모리 압축 기법을 통합한 것인데, 지정된 컨텍스트 길이를 초과하는 경우, 이전의 상태를 압축 메모리에 저장했다가 다음 컨텍스트를 처리할 때 이를 활용하는 방식을 취한다고 합니다. 이 기술이 적용하면 메모리의 추가없이 토큰의 갯수를 최대 100만개 수준으로 확장할 수 있다고 합니다. ( 기사) |
|
|
사진: Infini-attention 개요 (출처) |
|
|
Stability AI CEO, 회사를 떠나 탈 중앙화 AI 관련 기업 설립 예정
에마드 모스타크가 자신이 설립한 Stability AI를 떠나 탈 중앙화 AI 관련 기업을 설립할 예정이라고 합니다. Stability AI 자체는 최고운영책임자(COO)인 샨 샨 웡과 최고기술책임자(CTO)인 크리스찬 라포르테가 향후 영구 CEO를 선출하기 전까지는 공동 CEO를 맡게 됩니다. Stability AI는 생성형 모델인 Stable Diffusion으로 잘 알려진 곳이죠. 그는 사임을 하면서 AI 업계의 권력 분산과 탈중앙화, 거버넌스 등을 강조했습니다. 오픈소스 프로젝트들을 예로 들면서, LLM의 소스가 공개되어도 학습에 사용된 데이터가 영어권 중심으로 이뤄지고 있다는 것이나 OpenAI 등 오픈소스가 아닌 쪽도 학습에 사용하는 데이터에 대한 독점적인 통제를 하고 있다는 측면 등의 위험성이 실재하고 있죠.
에마드 모스타크에 대해서는 언론 기사를 보면 긍정과 부정 양면이 다 존재합니다. Stabiity AI를 설립한 초기에는 펀드매니저를 하면서 번 개인 자금으로 당시 Stable Diffusion을 개발하던 연구진들에게 컴퓨팅 자원을 제공했었죠. 제 경우, 바로 그 당시 에마드의 영상을 접했던터라 이런 긍정적인 모습만 알고 있었고 한동안은 더 그러고 싶습니다. ^^; 하지만 그 이후 회사를 운영하면서 발생한 다른 잡음들이 하나둘씩 알려지고 있는 것도 부정할 수는 없겠죠. ( 기사) |
|
|
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
|
|
|
VASA -1 은 마이크로소프트에서 발표한, 단일 이미지와 음성 오디오 클립을 사용해 생생하게 말하는 얼굴 영상을 만들어내는 프레임워크입니다. VASA-1을 이용하면 오디오와 동기화된 입 모양 뿐만 아니라 다양한 얼굴 뉘앙스와 자연스러운 얼굴 움직임을 실시간으로 생성할 수 있다고 합니다. (RTX4090에서 170ms 지연, 512x512 영상을 40fps로 생성)
기존에도 유사한 기술들이 소개된 바 있습니다. 하지만 기존 방식들은 주로 오디오 내용에 따라 입술 모양의 싱크를 맞추는 것에 집중하고 있어 얼굴 표현의 미묘한 뉘앙스를 전하는 것도 어렵고 머리 움직임도 자연스럽지 않았습니다. VASA-1은, 사이트에 공개된 예시를 보면 흠... 딥페이크로 사용되면 '대부분' 못 알아보겠구나 하는 우려가 될 정도로 품질이 좋아 보입니다. 이 기술을 연구 목적으로만 개발했고 외부로 공개할 계획은 없다고 밝히긴 했습니다만... 마이크로소프트가 가진 Copilot이나 OpenAI의 SORA 등 자사 서비스와 관련있는 곳에 적용하지 않을까 예상됩니다.
|
|
|
사진: 얼굴과 동적인 머리 움직임을 생성해내는 VASA-1 프레임워크. (출처) |
|
|
Rho-1 은 SLM(Selective Language Modeling)이라는 방법을 사용하는 언어 모델입니다. 기존의 언어 모델 훈련은 모든 토큰에 대해 다음 토큰 예측 손실을 균일하게 적용해 왔었는데 그 가정을 깨는 발상을 적용한 것입니다. SLM은 원하는 분포와 일치하는 유용한 토큰에만 선택적으로 학습합니다. 참조 모델을 사용해 사전 학습 토큰을 점수화하고, 언어모델을 이용해 초과 손실이 더 크게 나타나는 토큰들에 집중 손실로 언어모델을 학습 시킵니다. 결과는 특히 수학 작업에서 좋게 나왔다고 하며, 15B OpenWebMath 코퍼스에 대한 지속적인 사전 학습 시 9개 수학 작업에서 최대 30%의 가량의 정확도 향상을, 일반 토큰에서 사전 학습을 진행할 때도 15개의 다양한 작업에서 6.8% 향상을 가져다 준다고 합니다.
|
|
|
사진: Rho-Math 를 이용한 수학문제 풀이 예시 (출처) |
|
|
MagicTime은 시간이 지남에 따라 변화하는 비디오 (타임랩스 영상)를 생성하는 모델입니다. 별의 움직임이나 밀물과 썰물 현상, 꽃의 개화나 나비의 우화 과정 등을 담기 위해 카메라 혹은 카메라 보조장치에서 제공하는 타임랩스 기능을 이용하는 경우가 많이 있는데 그런 영상을 만들어 주는 모델이라고 보면 됩니다. 기존의 영상 생성 모델들이 물리적인 지식이 반영되지 못해 움직임이 제한되고 다양성이 부족했던 것에 반해 MagicTime은 그런 부분들을 해결하고 있습니다. 제대로 된 영상 하나를 생성하기 위해 많은 시간과 노력, 시행착오가 필요했던 분야였는데... 물론 실제 느낌이 어느 정도까지 나올지는 모르겠지만 그런 작업들을 대체할 수 있는 기술이 나왔다는 것이 놀랍습니다.
이를 위해 MagicTime에서는 아래와 같은 기술요소를 도입했다고 합니다.
- MagicAdapter Plan : 공간적, 시간적 훈련을 분리하고, 영상에서 더 많은 물리적 지식을 인코딩하고 사전 훈련된 텍스트를 이용하여 메타모픽 영상을 생성하도록 텍스트-비디오 모델을 변환
- 동적 프레임 추출 (Dynamic Frame Extraction) 전략 : 보다 폭넓은 변화 범위와 급격한 물체의 변형 과정을 다뤄 일반 비디오보다 더 많은 물리적 지식을 포함하게 함
- Magic Text-Encoder : 메타모픽 비디오 프롬프트에 대한 이해를 향상시킴
- ChronoMagic : 특별히 큐레이팅된 타임랩스 비디오-텍스트 데이터셋
|
|
|
사진: MagicTime 모델의 접근방식 개요(상), 생성된 영상 예시 (하) (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|