자연, 생태 관련 자료 정보를 공유합니다. 안녕하세요, 구독자님.
지난 추석 연휴는 잘 보내셨나요?
이번엔 유독 연휴가 길어 집에만 있기에는 답답해서, 기간 내내 지방을 돌았습니다. 주로 충남과 전남 쪽이었는데 그러다보니 여파가 좀 있었습니다. 수요일 출근길이 월요일 증후군에 여독까지 겹쳐 버스에서 내내 꾸벅꾸벅 졸기만 했었죠. 그래도 지인들과 만나서 즐거운 시간을 보냈던 터라 오랫동안 찾아뵙지 못했던 마음의 짐은 어느 정도 덜긴 했습니다.
오랜만에 남도의 바다에서 낙조도 즐기고, 시골에서 농사짓는 분 집에 머물면서 땅콩 수확 등 밭일도 하며 귀농귀촌과 관련된 몇 가지 정보 겸 체험담을 들을 수 있는 소중한 시간을 보냈는데 그러다 보니 도시에서 '건물들 틈에 끼어 사는' 현재 삶의 방식이 한편으론 측은하게 여겨지기도 했습니다. 스마트폰에 파묻혀 사는 아이들에게 '화면'에서 벗어나서 실 생활을 하라고 하잖아요? 그런데 도시생활이 바로 그 '스마트폰 화면' 같이 느껴졌다고 할까요... 여튼 이런저런 생각을 많이 하게 한 좋은 여행이었던 것 같습니다.
이번 소식에서는 여행 중에 느낀 자연,생태의 소중함 때문에 그와 관련된 짧은 글을 과 그동안 새로 나온 소식, 기술들을 소개해 드리겠습니다.
날씨가 부쩍 쌀쌀해졌습니다.
아무쪼록 환절기에 건강 유의하시기 바랍니다. |
|
|
국립생태원에서 2021년 NIE 포럼을 개최하면서 인공지능이나 가상기술 등을 생태 연구에 접목한 사례 발표를 한 것이 있었습니다. 외부 전문가 강연 형태였는데 유튜브에 공개된 것들이 몇몇 있어서 목록을 적어 봅니다. 비록 2년 전의 것이긴 하지만 다소 일반 사람들에겐 생소한 분야라 관심을 가질 분이 있을 것 같아서입니다.
국립생태원 2021년 NIE 포럼
-
영상) [2021 국립생태원 NIE 포럼]강연2_형태인지 | 인공지능 활용 생물 영상분석과 미래생태연구·교육 전망 (국립생태원, 2021.11)
-
영상) 2021 국립생태원 NIE 포럼] 강연4_가상 생태계 구현을 통해 생태 미래를 예후한다 (국립생태원, 2021.11)
포럼의 전체 영상은 이곳에서 확인 가능합니다.
글 제목을 '자연과 생태'라고 적고 보니 지금은 사라진 월간 생태전문지가 생각났습니다. 출간 1호부터 쭉 구독을 해 오다가 폐간된다고 통보받고 많이 아쉬웠었죠. 국내 유일하다시피한 월간 생태전문지였기 때문입니다. 자라나는 아이들의 시야를 우리 주변으로 넓혀주기 위해서라도 자연이나 생태 등에 대한 정보 생성, 공유의 장이 꾸준하게 이뤄져야 하지 않을까 생각됩니다. (참고: '자연과생태'는 당시의 잡지명이기도 했지만 현재는 해당 출판사명이기도 합니다)
국내에서 자연생태하면 떠 오르는 곳이 몇 군데 있는데 그 가운데 제 경우 가장 먼저 떠오르는 곳은 환경부 산하의 국립생태원입니다. (참고로 저는 이 분야 일을 하진 않습니다. ^^;) 다른 기관들도 많이 있을텐데 유독 이곳을 먼저 떠 올리는 것은 연구출판물로 아주 훌륭한 자료들을 많이 공개하고 있기 때문입니다.
개인적으로 생태도감을 좋아하는 편인데 서점에 가서 인쇄본을 구입하려면 워낙 많은 분야로 나눠져 있고 좋은 도감의 경우, 특성상 종이질이나 페이지수 등의 이유로 워낙 고가라 선뜻 구입하기가 힘듭니다. 그런데 국립생태원에서 공개한 자료들은 PDF 파일 형태라 패드 등에 넣고 다니며 볼 수 있어 편리하고 무료로 배포되는 터라 부담도 없습니다.
- 한국의 생태계교란 외래생물 (링크)
- 우리가 지켜야 할 나비들 도서 (링크)
- 멸종위기 야생생물 (링크)
국립생태원 외에도 이런 자료를 구할 수 있는 곳으로는 국립생물자원관이 있고 그곳에서 공개한 자료들도 많은데 그 가운데 제 아이가 가장 좋아했던 건 이것이었죠. 갯민숭달팽이의 아름다운 모습에 반해서 한동안 도감 상의 종을 거의 다 외우다시피 했을 정도였죠.
짧게 생태와 관련된 정보 몇 개만 이렇게 던져두고 이젠 다른 소식으로 넘어가겠습니다. ^^
|
|
|
10월 12일 (목)에 구로청년회관에서 글로벌창업사관학교와 서울청년창업사관학교가 함께 하는 연계 컨퍼런스행사 OPEN GATE(오픈게이트)가 개최됩니다. 소이넷은 글로벌창업사관학교 2기 우수 스타트업 출신으로, 컨퍼런스에 초대되어 전시 부스를 운영하게 되었습니다. 혹시 이곳을 방문하게 되시면 뵐 수 있겠네요. ^^ |
|
|
최근 있었던 새로운 소식을 알려 드립니다.
- 화웨이가 만들 AI 모델, '폭우' 예측 기간 대폭 확대
중국의 대표적인 IT 기업인 화웨이가 AI 기반으로 일기예보 강수 예측 기능을 발표했습니다. '판구'라는 초거대 모델에 기능 고도화를 한 것인데요, 이를 이용하면 강수 예측이 가능 시점을 기존 최대 3시간 전에서 8배로 늘어난 24시간 전까지로 확대할 수 있다고 합니다. 이 뿐만 아니라 광산업, 정부, 운송, 날씨, 의료, 가상인간, R&D의 다양한 영역에 걸친 클라우드 기반의 AI 서비스를 함께 발표했습니다. (기사, 기사)
- OpenAI가 Multi Modal을 지원하는 신규 기능을 오픈
지난 주 핫했던 소식이었는데 추석인사로 대신하는 바람에 전하지 못했던 내용입니다. OpenAI가 ChatGPT에 음성, 이미지 등 멀티 모달 지원할 수 있는 기능이 통합될 예정이라고 합니다. 공개된 영상에는 아마존의 알렉사나 시리같이 서로 음성대화나 이미지 업로드 등을 하면서 이를 기반으로 ChatGPT에게 지시를 하는 과정이 담겨 있었습니다. (링크)
- TESLA 인공지능 로봇 옵티머스 기능 업데이트 영상 공개
TESLA는 자사가 개발 중인 양산용 인공지능 휴머노이드 로봇 옵티머스의 신규 영상을 공개했습니다. 영상에서는 로봇이 자신의 팔과 손 위치를 시각정보를 기반으로 스스로 보정하고 테이블 위에 놓인 물체를 정확히 분류해서 집고 지정된 위치로 옮기며 사람의 작업 방해나 옮긴 물체가 쓰러졌을 때 이를 바로 잡는 행위까지 해 내고 있습니다. 맨 마지막엔 요가 자세로 한발로 균형을 잡으며 '나마스테'라는 인사말 자막과 함께 해당 요가자세를 보여주기도 했습니다. 기술수준도 많이 향상됐지만 무엇보다도 발전속도에 놀라게 됩니다. 해당 영상의 공개는 차별화된 기술력을 공개하면서 이를 보고 뛰어난 로봇, 인공지능 공학자들의 인재를 끌어오기 위함인 것 같습니다. 당장은 아니겠지만 기능이 더 고도화되고 시판가도 현재 목표치인 2000만원 선으로 나온다면 제조 현장에서 사용되는 것은 물론이고 가정용으로도 활용될 수 있지 않을까 싶습니다. '아버님 댁에 보일러 놔 드려야겠어요'라던 광고 카피가 있었는데, 어쩌면 조만간 '부모님 댁에 로봇 한대 놔 드려야겠어요'로 바뀔지 누가 알겠습니까? (영상)
|
|
|
사진: Tesla bot에서 자신의 팔의 기준점을 캘리브레이션하는 장면 (출처) |
|
|
LLM (Large Language Model)은 일반적으로 한정된 길이의 텍스트 프롬프트 (나중에 토크나이저를 통해 토큰으로 변환)를 받아들입니다. Llama2의 경우, 학습된 토큰은 2조개 수준이지만 실제 입력 가능한 토큰(Copntext Length)의 수는 4K(4096)개로 제한되는데, 디코딩 단계에서 이전 토큰의 key-value 값을 캐싱하기 위해 막대한 메모리가 필요하게 되는 제약 때문이죠. 아래 깃헙 링크 상의 비교 영상에서 일정 를 넘어갔을 때 한쪽은 점차 속도가 떨어지다가 나중에는 Out Of Memory 발생으로, 다른 한쪽은 일정한 속도로 지속적으로 처리되는 확연한 차이를 볼 수 있습니다.
StreamingLLM은 이런 LLM들을 미세조정없이 거의 무한한 시퀀스 길이로 일반화될 수 있도록 해 주는 프레임워크입니다. 가장 최근의 토큰과 Attention Sink만 유지하고 중간 토큰을 폐기하는 방식으로 말이죠. 이를 통해 최대 400만개 이상의 토큰을 Sliding Window Attention 재계산 방식 대비 최대 22.2배 빠르게 처리할 수 있게 되었다고 합니다. 물론 이 방식에도 제약은 있습니다. 원본 모델의 Context Window 자체가 확장되는 것이 아니므로 긴 텍스트 입력 시 장기 기억을 활용하는데는 한계가 있다는 것이죠. 길지 않은 문장으로 서로 대화를 이어나가는 챗봇 방식의 애플리케이션 등에 적용되면 효과를 볼 수 있을 것 같습니다.
|
|
|
사진: StreamingLLM의 방식과 기존간의 방식 (상)과 성능 (하) 비교 (출처) |
|
|
Ray Conditioning: Trading Photo-consistency for Photo-realism in Multi-view Image Generation
|
|
|
Ray Conditioning은 사진 상의 특정 클래스 이미지(예: 얼굴)에 대해 제공되는 3D 구조화를 거치지 않고도 시점 제어를 할 수 있도록 하는 기술입니다.
얼굴사진을 GAN 방식으로 합성하는 사례를 보면 많은 경우, 3D 표현을 먼저 합성한 다음 2D 이미지로 렌더링하여 시점 전반에서 사진 일관성을 보장하는 과정, 즉 '2D 사진→3D 구조화→특점 시점의 2D 사진' 과 같은 절차로 작업이 진행됩니다. Ray Conditioning은 이런 방식 대신 카메라 광선 묶음의 이미지 생성기를 조절하는 방식을 채택하고 있습니다. 이렇게 할 경우, 3D 구조화를 거칠 경우, 발생할 수 있는 기하학적인 결함과 이로 인한 세부 묘사에서의 손실을 초래하지 않기 때문에 실물에 더 가까운 사진을 합성할 수 있다고 합니다.
|
|
|
사진: Ray Conditioning 모델 아키텍처(상), 결과물 (하) (출처) |
|
|
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
|
|
|
LaVie는 기본 T2V (Text to Video) 모델, 시간 보간 모델 및 비디오 초해상도 모델로 구성된 계단식 비디오 잠재 확산 모델에서 작동하는 통합 비디오 생성 프레임워크입니다. 이를 통해 시각 현실적(Photo Realistic)이면서도 시간적 일관성을 띈 고품질의 비디오의 합성과 사전 학습된 T2I (Text to Image) 모델을 기반으로 한 창의적인 생성 특성을 함께 갖도록 했습니다.
저자들은 품질, 다양성, 미적 매력을 우선시 하는 2500만개의 텍스트-비디오 쌍으로 구성된 Vimeo25M이라는 데이터셋도 함께 공개했습니다. 논문 저자들이 파악한 핵심 사항은 단순한 시간적 self-attention과 상대적 위치 인코딩(relative positional encoding)의 결합이 비디오 데이터에 내재된 시간적인 상관관계를 적절히 포착하며, image-video 미세조정이 고품질의 창의적인 결과물을 생성하는데 핵심 역할을 한다는 것입니다.
|
|
|
사진: Lavie 모델의 파이프라인 (상), 적용 결과 (하) (출처) |
|
|
3D Gaussian Splatting for Real-Time Radiance Field Rendering
|
|
|
Radiance Field는 사진이나 비디오 캡처된 장면으로 부터 새로운 시점의 합성 영상을 만들어낼 때 기반이 되는 기술입니다. 이를 기반으로 한 NeRF 관련 모델들이 최근 많이 소개되었는데 그런 것들 중에는 NVIDIA의 Instant-NGP 같은 것들이 있습니다. 그런데 이 기술이 가지는 문제는, 입력 영상들 별로 훈련과 렌더링을 하는데 많은 연산이 필요하고 생성에도 많은 시간이 소요된다는 것입니다. 영상의 해상도가 커진다면 더더욱 그렇겠죠.
이를 해결하기 위해 3D Gaussian Splatting 기술이 제안되었습니다. 여기에는, 빈 공간에서의 불필요한 연산 배제와 장면 최적화를 위한 연속 체적 복사 필드의 속성을 보존하는 3D 가우시안 장면 표현, 3D 가우시안의 인터리브 최적화/밀도 제어, 이방성 공분산 최적화 수행, 이방성 스플래팅 지원 및 훈련 가속화와 가시성 인식 렌더링 알고리즘 적용 등 다양한 세부 기술이 포함되어 있다고 합니다.
3D Gaussian 방식을 통해 얻을 수 있는 잇점은 높은 품질의 영상, 실시간 렌더링 (100 fps 수준), 그리고 빠른 학습 속도입니다.
참고로 본 연구 결과물은 연구 목적의 비상업적 활용 조건의 라이선스로 공개되었습니다.
|
|
|
사진: 3D Gaussian splatting 방식 개요 (상), 타 모델과의 비교 (하) (출처) |
|
|
T2V (Text to Video) 방식의 영상 제작은 생성되는 장면간의 시간적인 일관성 보장이 어렵기 때문에 주로 짧은 비디오 클립 정도를 생성하는데 중점을 둡니다. 그런데 만약 이보다 훨씬 긴 영상을 찍어야 한다면 어떨까요? 나름 전체 플롯을 짜고 그에 맞는 장면을 계획하고 이에 대한 전환방식까지 고민하게 되겠죠?
VideoDirectorGPT는 이런 목적으로 활용될 수 있도록, 비디오 콘텐츠 계획 및 기반 비디오 생성을 위해 LLM 지식을 사용하는 일관된 다중 장면 비디오 생성을 위한 새로운 프레임워크 입니다. 텍스트 프롬프트가 주어지면 이를 기반으로 LLM을 이용한 Video Planner가 비디오 계획을 장면 계획을 하고 Video Generator가 장면들을 생성하게 됩니다. 장면 계획에서는 장면 관련 개체, 배경 목록, 프레임 별 레이아웃, 개체 및 배경에 대한 일관성 그룹화 등이 포함됩니다. 장면 생성에서는 layout2Vid를 이용해 앞서 생성된 영상 계획을 기반으로 렌더링을 진행합니다. Video Planner와 Video Generator는 각각 총괄감독과 연출(혹은 촬영감독)이 영화에서 하게 되는 역할과 비슷한 것 같습니다.
|
|
|
사진: 텍스트에서 긴 멀티 장면 비디오를 생성하기 위한 ViedoDirectorGPT (출처) |
|
|
사진: Coref-SV 프롬프트에 따라 Video Generator가 생성한 예시 영상 비교 (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|