새로운 인공지능 기술을 소개합니다. 안녕하세요, 구독자님.
이번 한 주도 행복한 한 주 보내고 계신가요?
저는 지난 주에 아이와 함께 야생조류를 구조하고 치료하면서 다시 야생으로 돌아갈 수 있도록 훈련시키는 곳을 다녀 왔습니다. 하남에 있는 한강생물보전연구센터인데요... 이곳에서는 주변에서 볼 수 있는 까마귀, 까치, 어치에서부터 천연기념물로 보호받고 있는 각종 매 종류, 예를 들어 참매, 말똥가리, 송골매, 황조롱이 등과 독수리(날개를 심하게 다쳐 이곳에서 계속 지내야 한다는 얘길 들었습니다), 그리고 독수리를 제외하고는 국내에서 가장 큰 축에 속할 것으로 생각되는 수리부엉이까지 볼 수 있었습니다. 운좋게 황조롱이를 직접 훈련을 시키는 장면과 수리부엉이의 근엄해 보이지만 귀여운 모습을 바로 코앞에서 볼 수 있었죠. 다른 곳에서는 결코 해 보지 못할 색다른 체험이었습니다. |
|
|
아주 예전, 집 근처 공원 높은 나무 위 둥지에서 떨어져 잔디밭에 놓여 있던 어린 새 두 마리를 집으로 데려가서 며칠 동안 키웠던 경험이 생각났습니다. 그곳 근처가 워낙 야생 고양이가 많이 있던터라 놔두면 바로 잡혀 먹힐 것이 뻔 했죠. 당시 새에 대해 잘 몰랐던 저는 까치 새끼겠거니 했고 거주하고 있던 구청의 담당 부서에 전화해서 문의했더니 까치는 위해조수로 지정되어 있어 데려다줘도 야산에 방사한다고 했습니다. 제대로 날지도 못하는 녀석들을 방사해 봐야 역시나 들고양이의 먹이 밖에 안 될 것 같아 서울에 있는 조류보호협회에 연락했고 다행히 서울시에서는 위해조수가 아니라서 보호가 가능하다고 해서 데려갔었죠. 아직도 기억납니다. 협회 담당자 분이 제가 데려간 녀석들을 보고 하신 첫 말씀이...
"어? 이 녀석들은 어치인데요? 어치는 보호종이라 사시는 곳에서도 받아줬을텐데..."
헉... 그랬습니다. 제가 까치로 착각했던 녀석들은 토종새인 어치였던 겁니다. 얼마 전 청와대에서 어치를 회복시켜 날려 보내는 행사까지 했었다는 얘기도 덧붙여 주셨죠. 까치와 어치를 착각했다는 부끄러움이 순간 스쳐갔습니다. ^^;
이렇게 오래 전 기억을 떠올린 이유는, 3일이라는 짧은 기간동안 함께 했던 경험, 즉 직접 고기를 사서 다지고 각자의 입 속에 넣어주고 돌아다니며 싼 똥들을 치우느라 정신없었던 바로 그 경험이, 20년 가까이 지난 후에도 새들(특히 어치 ^^;)를 볼 때마다 몸속 세포 속에 뭔가가 숨어 있다가 발현되는 것 같은 느낌을 받았기 때문입니다. 기술도 좋고 사업도 좋지만 가끔 한번씩은 우리가 다루는 기술들이 모사하고 있는 자연의 신비를 직접 보고 체험해 볼 수 있는 기회를 가지는 것이 필요하며, 아이들에게도 어렸을 때부터 자연과 자주 접할 수 있는 기회를 최대한 많이 가지게 해 주는 것이 중요할 것 같습니다. 많은 아이디어의 원천은 자연에서 올테니까요. ^^
|
|
|
사진 : 짧은 시간 함께 지냈던 어린 어치의 모습 |
|
|
바이오 인식시스템 인증 획득
소이넷은 'SoyFace 1.0'으로 한국인터넷진흥원(KISA)로 부터 얼굴인식 알고리즘 성능 분야에 바이오 인식시스템 인증을 획득했습니다. 최근 무인판매시스템이나 출입통제 쪽 산업 수요가 확대됨에 따라 저희도 기존 보유 기술을 확장해서 산업에 적용하는 시도를 하고 있습니다. 안면식별 기반의 무인판매기 시스템 개발을 완료한 상태이며, 이를 다양한 형태의 제품으로 확장하는 작업을 진행 중입니다. 그 중 일부는 기업 납품이 진행되고 있고 나머지 다른 제품군도 올 연말 혹은 내년 초 쯤에 시장에 선보이게 될 것 같습니다. 기대해 주세요. ^^ |
|
|
- 구글, GNoMe (Graph Networks for Materials Exploration) 발표
구글에서 GNoMe이라는 '신소재를 생성하는 인공지능'을 발표했습니다. 단 17일만에 무려 220만개의 안정적인 구조를 가지는 신소재 결정체를 발견했고 이 가운데 38만개는 안정적인 구조를 띠고 있어서 합성을 하기 유망하다고 합니다. 단백질 예측 인공지능인 알파폴드를 발표했던 DeepMind(현재는 구글 연구조직으로 합쳐짐)에서 또 한번의 쾌거를 거둔 것인데요, 이번에 발견한 수량은 이전 800년 가량 동안의 성과와 비슷하다고 합니다. 17일과 800년... 얼마나 빨리 기술의 발전이 이뤄지고 있는지 가늠이 되시나요? 발견된 내용에는 초전도체 연구와 전자제품의 획기적 성능 개선을 가져올 수도 있을 그래핀과 유사한 52,000개의 새로운 계층 화합물이나 배터리 성능 향상에 사용될 수 있는 528개의 잠재적인 리튬 이온 전도체도 포함되어 있습니다. 재료공학 분야에서는 새로운 장이 열리는 것 아닌가요? (관련글, 기사)
|
|
|
사진: GNoME 모델이 사용하는 2가지 pipeline (출처) |
|
|
- 구글, 차세대 새성형 AI 모델 Gemini 공개
Gemini는 구글이 OpenAI의 ChatGPT에 적용된 GPT4의 경쟁제품으로 개발한 멀티모달 모델로, Gemini Ultra, Gemini Pro, Gemini Nano 이렇게 3개의 버전으로 출시됐습니다. 각종 벤치마크에서 GPT4와 인간 전문가 수준을 상회한다는 Ultra는 영상으로 소개만 될 뿐 공식 서비스로는 공개되지 않았는데 내년 초에 유료화되어 나오지 않을까 예상되고 있습니다. (공개 영상은 충격적이게 멋집니다!!!) Pro 버전은 일반인 대상의 대량 서비스를 위해 성능을 다소 희생한 것으로 기존 Google Bard에 기존 모델을 대체되었고, Nano는 온 디바이스에 적용될 수 있는 가벼운 모델인데 Google의 스마트폰인 Pixel 폰에 적용될 것으로 예상됩니다. (소개글, 소개영상)
구글이 칼을 갈고 단 기간에 너무 많은 중요 발표를 하는 바람에 어떤 것을 먼저 소개할까 하다가 너무 생성형 모델 쪽 내용들이 많다보니 주목도 측면에선 첫번째가 될 것 같지만 GNoMe에 이어 두번째로 소개하게 되었습니다. 구글 리서치(Google Reasrch)의 딥마인드(DeepMind)와 브레인(Brain) 팀이 구글 딥라인드(Google DeepMind)라는 조직으로 통합된다는 소식이 올 봄 쯤에 있었던 것 같은데 최근 나오는 발표들을 보면 역시나 하는 생각을 하게 됩니다. 새로운 혁신은 그런 것을 생각해낼 수 있는 '인재'에서 출발하는 것 같습니다.
|
|
|
사진 : MMLU 벤치마크에서 GPT4와 인간전문가 수준을 넘었다는 설명 (출처) |
|
|
- 네이버 통합검색에 생성형 AI 검색 서비스 '큐'를 적용
네이버가 통합검색에 생성형 AI 검색 서비스 ‘큐(CUE):’를 적용했다고 발표했습니다. 시범 운영을 이전에도 하고 있었고 일부에게는 공개가 되어 있었죠. (아쉽게도 저는 아직 대기 목록에만 올라 있어서 직접 사용은 해 보지 못했습니다.) CUE는 네이버가 제공하고 있는 기존 서비스, 즉 쇼핑, 로컬 등등과 함께 연계해서 제공될 수 있고, 질문자의 의도를 감안해서 그에 맞는 검색 결과를 제공합니다. ChatGPT에 질문해도 알 수 없었던 현재 시점의, 한국 특화된 내용을, 그것도 한국 사람들이 가장 편하게 느끼는 사용자 경험으로 정보를 제공하는 것이죠. 아무래도 글로벌 업체가 이 부분에서는 밀릴 수 밖에 없을 것 같습니다. 다만, 다른 영역... 즉, 사용자가 찾고자 하는 더 넓은 정보의 범위를 편의성이 아닌 전문성에 입각해서 제공해 줄 수 있느냐하는 측면이 앞으로 네이버가 글로벌 검색엔진 업체들과 맞장을 떠야 할 지점이라고 생각되네요. 국내 업체의 선전을 간절히 기대합니다! (기사)
|
|
|
사진: 네이버의 Cue 서비스 적용 예시 (출처) |
|
|
- 세계 최초로 심야 자율주행버스의 정기 운행을 시작
서울시에서는 오는 11월 4일부터 심야 시간에 자율주행으로 운행하는 버스 서비스가 시작된다고 밝혔습니다. 합정역~동대문역 구간의 중앙버스전용차로 9.8km를 합정역과 동대문역에서 각각 오후 11:40에 출발해서 70분 간격으로 2회 운영한다고 합니다. 야간에 택시 잡기 힘든 상황과 중앙버스전용차로라는 다소 제한된 조건으로 운영하면서 안정성을 확보하겠다는 것도 고려했을 것으로 판단됩니다. 시작은 무료로 진행하고 내년 상반기 중 유료 전환 계획이 있다고 하네요. (기사) 판교에서는 낮에 무인자율주행 버스가 돌아다니기도 하는데 저는 구경만 하고 직접 타 본 적이 없는데 한번은 경험을 해 봤으면 좋겠습니다. 최근 테슬라나 중국의 리오토나 니오 등이 자율주행 기술을 새로 소개하는 영상을 자주 내 놓고 있는데 조만간 실제 상용 서비스를 우리나라에서도 경험할 수 있게 되길 바랍니다.
|
|
|
비전 모델의 경우, 분류, 분할, 객체감지, 자세추정, 키포인트 감지 등 다양한 기능을 위해 사용되는데 이때 학습에 사용되는 원본 이미지의 품질은 모델의 성능을 좌우하는 중요한 요소입니다. 대부분의 경우, 기본적인 전처리 후에 개별적으로는 사람에 의해 판별되는 경우가 많고 일부는 이러한 과정을 자동으로 처리할 수 있는 도구를 별도로 개발해서 사용하고 있습니다. 바로 이런 분야에서 사용할 수 있는 기술이 CleanVision입니다. CleanVision은 모델의 훈련을 위해 사용되는 데이터의 품질을 보장하기 위해 사전에 원시 이미지 자체의 문제를 식별하는 용도로 사용할 수 있는 기술로 지원하는 문제 유형은 다음과 같습니다.
- Exact Duplicates : 동일한 이미지
- Near Duplicates : 시각적으로 '거의' 동일한 이미지
- Blury : 세부 사항이 흐릿한 이미지 (촛점 안 맞는 경우)
- Low Information : 콘텐츠가 부족한 이미지 (이미지 내 내용이 거의 없는 경우)
- Dark : 노출 부족으로 불규칙하게 어두운 이미지
- Light : 노출 과다로 불규칙하게 밝은 이미지
- Grayscale : 색상이 부족한 회색조 이미지
- Odd Aspect Ratio : 비정상적인 화면 비율 이미지 (과다한 종횡비)
- Odd Size : 비정상적으로 작거나 큰 이미지
|
|
|
사진: CleanVision을 이용해 식별할 수 있는 이미지 문제 항목 예시 (출처) |
|
|
Seamless Communication Model
|
|
|
Seamless는 Meta가 야심차게 내놓은 Seamless Communication 세트입니다.
Meta는 각각의 기능을 담당하는 별도의 모델들을 아래와 같이 발표했습니다.
- SeamlessM4T v2
100개 이상의 언어 번역을 지원하는 파운데이션 모델로 S2ST(Speech-to-speech translation), S2TT(Speech-to-text translation), T2ST(Text-to-speech translation), T2TT(Text-to-text translation), ASR(Automatic speech recognition) 등의 기능을 제공합니다.
- SeamlessExpressive
기존 번역 서비스에서는 화자의 감정과 의도 전달이 제대로 되지 않는 단점이 있었습니다. SeamlessExpressive는 말하는 스타일 (예: 속도, 억양, 운율, 목소리 톤이나 숨을 고르기 위해 잠시 멈추는 등)을 그대로 유지하면서 화자의 감정과 의도를 전달할 수 있도록 합니다. 현재 공개된 데모 사이트에서는 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 중국어 등만 선택할 수 있는데 조만간 더 확대되겠죠?
- SeamlessStreaming
서로 다른 언어를 사용하는 사람들이 실시간으로 대화를 나눌 수 있도록 하는 모델입니다. 약 2초 가량의 지연이 생긴다는데 동시통역보다는 못하겠지만 나와 있는 다른 통역 어플을 생각하더라도 거의 실시간이라고 볼 수 있겠습니다.
그리고 위의 세 모델을 결합한 것이 Seamless입니다. 종합선물세트 같은거죠... 얼른 테스트 해 보고 싶은 생각이 들지 않으시나요?
|
|
|
Animate Anyone은 사진 속 사람이나 캐릭터를 마치 실제처럼 움직이는 비디오로 만들 수 있는 기술입니다. 최근 한장의 정지사진을 이용해서 3D 모델을 만들어내는 기술을 많이 소개했었는데요, 이 모델은 약간은 결이 다르게 움직이는 비디오를 생성해 줍니다.
주요 특징으로는 세부적인 특징 추출과 유지를 위해 ReferenceNet을, 캐릭터의 움직임을 제어하기 위해 Pose Guider를, 그리고 부드러운 비디오 전환을 위해 효율적인 시간 모델링 접근 방식을 사용하고 있습니다. 이를 통해 사람이나 만화 캐릭터를 포함해서 다양한 캐릭터들을 이용한 애니메이션을 만들 수 있죠. 짧은 인상으론, 유튜브나 틱톡 등에 유행하는 숏폼 생성을 이 모델을 이용해서 정말 손쉽게 만들 수 있을 것 같다는 생각이 듭니다.
저자는 문서와 코드를 오픈소스로 공개하기 위해 현재는 정리 작업을 하고 있다고 하니 테스트 해 보려면 조금 더 기다려야 합니다.
|
|
|
사진: Animate Anyone 의 처리 흐름 개요 (출처) |
|
|
FSGS(Few-Shot Gaussian Splatting)는 효율적이고 실시간으로 3D 장면을 렌더링할 수 있는 새로운 기술로, 적은 수의 훈련 데이터로도 높은 품질의 3D 재구성과 뷰 합성을 가능케 하는 접근 방식입니다. 깃헙에는 'Real-Time Few-shot View Synthesis using Gaussian Splatting' 으로 소개 되어 있죠. 제가 주목한 부분은 실행 속도였는데 논문에서는 200 fps가 넘는 속도를 언급하고 있었기 때문입니다. Nvidia Instant-NeRF도 렌더링 소요시간이 수ms라고 했으니 비슷할 수는 있겠네요. 하지만 FSGS가 단순히 속도만 빠른게 아니라 Accuracy 또한 높다고 하니 둘 다 뛰어난 놀라운 녀석인 것 같습니다.
FSGS는 다음과 같은 주요 요소를 포함합니다.
- Proximity-guided Gaussian Unpooling
'Gaussian Unpooling'이라는 기법을 사용해, 적은 수의 초기 가우시안(훈련 데이터로부터 얻은 3D 포인트)으로부터 새로운 가우시안을 생성하여 장면을 보다 효과적으로 커버하며, 이 과정은 기존 가우시안과 그 이웃 사이의 거리를 측정하여 새로운 가우시안을 적절한 위치에 배치함으로써 이루어집니다.
-
Monocular Depth Estimator 사용 사전 훈련된 단안 깊이 추정기를 사용하여 추가적인 가상의 훈련 뷰를 생성하여 가우시안 최적화 과정에 기하학적 가이드를 제공합니다.
-
실시간 렌더링 속도 및 높은 시각적 품질 200FPS 이상의 속도로 사실적인 이미지를 렌더링할 수 있으며, 특히 다양한 데이터셋에서 고품질의 렌더링 결과를 달성합니다.
-
효과적인 뷰 합성 적은 수의 훈련 뷰만을 사용하여도 효과적인 뷰 합성을 수행함으로써 복잡한 3D 장면에서도 높은 품질의 사실적 이미지를 생성할 수 있습니다.
* SfM (Structure from Motion) : 2차원 영상으로부터 3차원 정보를 추출하여 3D로 재구성하는 것 (링크)
|
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|