더 나은 결과를 위한 협력에 대해 생각해봅니다. 안녕하세요, 구독자님.
이번 한 주도 즐겁게 잘 보내고 계신가요?
주초에는 모처럼 눈 소식이 있었습니다. 제법 쌓이기도 했고 덕분에 동네에는 눈오리(눈덩이를 뭉쳐서 동물 모양으로 찍어낸 것)들을 심심찮게 볼 수 있었습니다. 제가 어렸을 때는 큰 눈사람 하나 정도 만들고 마는 수준이었는데, 요새는 아이들 용으로 나온 눈을 다룰 수 있는 도구들이 많아져 예전엔 보지 못한 재미난 것들을 볼 기회도 가끔씩 생깁니다.
눈도 잘 뭉쳐지는 것과 그렇지 않은 것이 있는데 이번에 온 눈은 그래도 제법 잘 뭉쳐졌습니다. 그런데 이렇게 성질이 다르게 나타나는 이유가 뭔지 아시나요? 바로 습도 때문이라고 합니다. 눈 자체가 작은 물방울이 얼어 결정을 이루는 것인데 습도라니...라고 하실 분도 있을텐데, 여기서는 '상대적인' 습도를 의미합니다. 눈 결정을 이룬 후에도 녹고 어는 과정이 반복될 수 있는데 이 과정에서 습도가 상대적으로 높으면 잘 뭉쳐지는 눈으로, 그렇지 않으면 가루처럼 부스러지는 눈으로 된다는 것입니다. ( 링크) |
|
|
눈처럼 같은 성분의 물질들 조차도 주변환경이나 조건에 따라 뭉쳐지고 흩어지고가 달라지는 것을 보면 다른 것들은 오죽할까 싶습니다. 서로의 이익을 위해 최선을 다해야 하는 비즈니스 환경에서는 더 말할 나위도 없겠죠. 하지만, 정말 시너지를 낼 수 있는 협력 관계라면 마다할 이유도 없습니다. 중요한 것은 눈의 경우와 마찬가지로 잘 뭉쳐지게 만들 '습도' 같은 조건을 어떻게 만들어낼 것인가 하는 것이겠죠.
경기가 나빠지고 사업 환경이 열악해지면 대부분 자기 살기에 바빠서 협력보다는 경쟁을 우선시 하는 경향이 생기게 됩니다. 하지만, 정작 이때 필요한 것은 협력일텐데 말이죠. 어느 미국 학교의 인디언 아이들의 사례 얘기가 생각납니다. 예전에 어디서 읽었는지 찾질 못해서 어느 기사에 인용된 것을 옮겨봅니다.
미국의 어느 학교에 인디언 아이들이 전학을 왔다. 어느 날 선생님이 “자, 여러분 이제 시험을 칠 터이니 준비하세요”라고 말했다. 백인 아이들은 우리가 그랬던 것처럼 필기도구를 꺼내고 책상 가운데에 책가방을 올려 짝꿍이 엿보지 못하게 함으로써 시험 칠 준비를 했다.
그런데 인디언 아이들은 마치 게임이라도 하려는 듯 책상을 돌려 둥그렇게 모여 앉는 것이 아닌가? 그래서 선생님은 “얘들아, 시험 칠 준비하라고 그랬잖니?”하고 화를 냈다. 이에 인디언 아이들이 말했다. “선생님, 저희들은 예전부터 어려운 문제가 있을 때마다 서로서로 도와가며 해결해야 한다고 배웠어요.”
|
|
|
사진: Bing Image Creator를 이용해서 생성 |
|
|
중소기업 간 협업지원사업 선정
소이넷이 중소벤처기업부에서 진행한 협업지원사업의 농공상 융합분야 협업기업으로 선정되었습니다. 소상공인 최적화 무인판매기 및 스마트기기 공급 사업을 진행하는 도시공유플랫폼, 하드웨어 제조사 하나시스와 함께 소이넷은 안면식별, 제품인식 등의 인공지능을 포함한 플랫폼 소프트웨어 전반을 담당하는 3사 협업을 진행하고 있습니다. 이번 선정 결과는 세 기업들이 가진 고유 역량들의 시너지 효과를 인정받은 것이라고 할 수 있습니다. 협업지원사업 선정으로 향후 정부지원사업 참여자격 우대, 중소기업진흥공단의 협동화 자금 융자 혜택, 혁신바우처 사업 가점 부여 등의 혜택을 누릴 수 있게 되었습니다. 앞으로 더 멋진 결과를 만들어내기 위해 힘을 합쳐 더 열심히 노력하겠습니다. |
|
|
마이크로소프트, sLLM Phi-2를 MIT 라이선스로 변경
sLLM(smaller LLM, 경량화 대형언어모델)으로 잘 알려진 마이크로소프트 Phi-2가 MIT 라이선스로 변경되었습니다. Phi-2는 2.7B의 매개변수로 13B 가량의 더 큰 모델들보다 뛰어난 성능을 제공해서 관심을 끌었었죠. 가볍고 성능 좋은 측면에서는 Google의 Gemini Nano 등과 견줘지고 있는 모델이기도 합니다. 작년 12월 공개 당시에는 연구목적으로만 사용할 수 있도록 제한이 걸려 있었는데 이번에 MIT 라이선스로 바뀌면서 이런 제약이 완전히 없어졌습니다. ( 기사) |
|
|
OpenAI, GPT Store 공식 런칭
지난 연말, OpenAI의 Sam Altman이 CEO에서 해고되었다가 다시 복귀한 사건이 있었던 것은 대부분 알고 계시죠? 바로 그 사건 전인 11월 6일 개발자 행사에서 OpenAI는 GPTs와 이를 위한 GPT Store에 대해 언급한 바가 있습니다. ( 링크) 그 글에 따르면 GPT Store의 공개 계획은 원래는 11월 말이었는데 해고 사건 등의 내홍 때문에 공개 일정이 올초로 연기되었었죠. 그 서비스를 이번에 공식적으로 시작하게 된 것입니다. GPT 스토어는 개인화된 GPT서비스들의 마켓플레이스인 셈인데 각자가 자신의 전문성을 활용해 만든 GPTs 들을 공개해 두면 이를 다른 사람들이 가져와서 사용할 수 있는거죠. Apple의 주요 수입원인 App Store와 같은 것이 AI 분야에 생긴 셈인데 OpenAI가 사업적으로 어떻게 활용하냐에 따라 달라질 수도 있겠지만 이 때문에 AI 시장에는 또 다시 큰 변화가 올 것 같습니다. ( 기사) 이미 발 빠른 국내 AI 기업들 가운데는 자체적으로 준비해 오던 서비스와는 별도로 OpenAI의 것과의 연동을 하는 방식으로 GPTs를 준비하고 있는 곳들도 있다고 합니다. 역시 기회는 왔을 때 잡아야 자기 것이 되죠. 참고로 GPTs 자체는 GPT Builder를 이용해 만들고 테스트 할 수 있습니다. |
|
|
Figure AI, AI기반 휴머노이드 소개
Figure AI 라는 미국 스타트업에서 AI 기반 휴머노이드 로봇의 업데이트 버전을 선보였습니다. 처음 본 느낌은, '어라, 테슬라의 옵티머스와 너무 비슷하지 않나?' 하는 것이었습니다. 로봇의 사양 측면, 즉 무게, 이동속도, 인공지능의 개발 방식, 특히 외관 형상 등이 말이죠. 놀라운 것은 이 업체 또한 채 2년이 되지 않은 스타트업이라는 것이란 겁니다. 도대체 글로벌에는 뛰어난 '선수'들이 왜 이렇게 많은건지... 내보인 기술력 대비 상대적으로 테슬라에 비해 주목을 적게 받고 있는 것 같아 소개해 봅니다. 하지만, 최종적으론 대량생산과 양산이 관건이겠죠. ( 링크, 영상) |
|
|
AnyText :
Multilingual Visual Text Generation And Editing
|
|
|
Diffusion 기술을 이용한 Text to Image 모델은 이제 거의 일상화가 되어 가고 있는 것 같습니다. 저만해도 어떤 이미지가 필요할 때 예전에는 무료 이미지를 제공하는 사이트에서 검색해 보는 것이 우선이었는데 최근에는 Bing Creator나 Firefly 같은 생성형 AI 기반의 서비스를 찾게 되었거든요. ^^; 그런데, 텍스트에서 이미지를 생성하는 모델에서도 몇 가지 어려운 부분들이 남아 있는데요, 그 가운데 하나가 이미지 내에 정확하고 일관된 텍스트를 넣어 구성하는 것입니다.
AnyText는 이미지에 정확하고 일관된 텍스트를 그려 넣어주는 데 중점을 둔 모델로 확산 파이프라인과 함께 두가지 핵심 요소인 보조 잠재 모듈, 텍스트 임베딩 모듈로 구성되어 있습니다. 보조 잠재 모듈(Auxiliary latent module)은 텍스트 글리프, 위치, 마스크된 이미지 같은 입력을 이용하여 텍스트를 생성이나 편집을 위한 잠재적인 Feature를 생성하고, 텍스트 임베딩 모듈(Text embedding module)은 OCR(광학 문자인식) 모델을 이요해서 획데이터를 임베딩으로 인코딩하고 토크나이저로부터 이미지 캡션 임베딩과 혼합하여 배경에 통합되는 텍스트를 생성하는 역할을 합니다.
AnyText는 여러 언어의 문자를 지원하며, 여러 언어로 된 OCR 주석이 포함된 300만 개의 이미지-텍스트 쌍을 포함하는 대규모 다국어 텍스트 이미지 데이터셋인 'AnyWord-3M'을 함께 공개했습니다.
* 글리프 (glyph)는 문자의 모양이나 형태를 나타내는 그래픽 기호를 의미한답니다. (링크) |
|
|
사진 : VideoPoet 모델 개요 (상), 모델의 순차 레이아웃 (하) (참조) |
|
|
Mobile Aloha는 스탠포드대학에서 발표한 이동식 베이스에 장착된 저가형 원격 조작 기기의 오픈소스 프로젝트 결과물입니다. 놀라운 것은 이 연구를 진행한 사람이 교수님 한 분과 학생 2명이라는 거죠. (3명 다 구글 딥마인드의 연구원이기도 해서 구글에서 한 연구라고 언급되기도 했습니다.)
인간의 시연을 통한 모방 학습을 통해 로봇 공학은 비약적으로 발전하고 있습니다. 2023년 5월 소개된 Tesla 옵티머스와 관련된 업데이트 영상을 보면 사람의 실제 행동에서 데이터를 수집하고 이를 바탕으로 로봇의 움직임을 학습시키는 것이 나와 있습니다. (이런 방식을 Imitation Learning이라고 부르기도 합니다) 그런데 이걸 위해서는 작업을 할 수 있도록 도와주는 H/W 기기(로봇+센서)와 S/W가 필요한데 이번에 소개된 Mobile Aloha는 이 목적에 맞춰 개발된 저비용, 전신 원격 조작 인터페이스를 제공하는의 오픈소스 기기 및 소프트웨어인 셈입니다. 이 기기를 개발하기 위해 필요한 부품 목록과 3D 프린팅을 할 수 있는 도면 등도 공개되어 있어 어느 정도 기반 지식을 가지고 있는 분 (또는 기업)들은 실제 동일한 방식으로 구현을 해 볼 수도 있을 것 같습니다. 이때 소요되는 개발 비용이 획기적으로 낮아서 더 의미있게 보입니다.
사용 예시 영상을 보면 어지간한 집안, 사무실 잡일에 적용할 수 있을 것 같습니다. 하지만, 데모영상을 공개한 저자들의 다른 실패 사례 영상을 보면, 원격 동작 구동이 아직은 완전하진 않으며 고도화를 해야 할 여지가 많이 남아 있다는 것을 알 수 있습니다. 그래도 이런 동작들로부터 충분한 데이터가 수집되고 학습을 제대로 시키면 향후에는 쓸만한 가사 도우미 로봇이 나올 것 같긴 합니다. 공개된 데모 정도의 행동과 관련해선, 50번 정도 사람의 행동을 보여주고 학습을 시키면 약 80% 이상의 수준으로 그 작업을 해낼 수 있다고 합니다.
얼마 전 유튜브 채널 에스오디(SOD)에서 도요타에서 개발 중인 로봇 기술을 소개( 영상)한 바가 있었는데 그것과도 방식은 유사합니다. 하드웨어, 소프트웨어가 단순하고 저비용이면서 오픈소스화 되었다는 것을 제외하고는 말이죠.
|
|
|
사진 : Mobile ALOHA 장비 및 학습한 동작 (상), 장비 상세 스펙 (하) (출처) |
|
|
Instruct-Imagen: Image Generation with Multi-modal Instruction
|
|
|
앞서 언급한 것처럼 Text to Image 모델을 통한 이미지 생성은 상당한 발전이 있었습니다. 하지만, 여러 양식(예: 사물에 마스크와 특정 스타일을 함께 적용하는 것 등등) 을 포함하는 복잡한 지침을 처리하고 일반화하는 것은 어려운 일입니다. 이를 위해 다중 모드 복잡성을 모델에 효과적으로 전달할 수 있는 방법이 필요하게 됩니다.
Instruct-Imagen은 구글에서 공개한 멀티모달 명령어를 사용한 이미지 생성 모델입니다. 이미지 생성을 위한 다중 모드 지침(multi-modal instruction)을 도입해 다양한 생성 의도를 표준 형식(예:텍스트, 가장자리, 스타일, 주제 등)으로 통합하고 사전 훈련된 텍스트-이미지 확산 모델을 다음의 두 단계의 프레임워크로 미세조정했다고 합니다. 첫번째 단계는 외부 다중 모드 컨텍스트에 기반한 생성을 강화하기 위해 검색 증강 훈련을 사용하여 모델을 적응시키는 것이고, 두 번째 단계는 다중 모달 지시어로 작업의 본질을 표현한 다양한 이미지 생성 작업(예: 주제 기반 생성 등)에 적응된 모델을 미세 조정하는 것입니다. 이를 통해 Instruct-Imagen은 처음보는 더 복잡한 작업에 대해서도 뛰어난 일반화 능력을 보여준다고 합니다.
|
|
|
사진 : Instruct-Imagen 모델의 2단계 학습 파이프라인 개요 (상), 모델의 제로샷 일반화 (하) (출처) |
|
|
ODIN: A Single Model for 2D and 3D Perception
|
|
|
ODIN은 2D RGB 이미지와 3D 포인트 클라우드를 모두 분할하고 라벨링할 수 있는 트랜스포머 기반의 모델로 Microsoft, CMU, Stanford 대학이 공동으로 발표했습니다. 3D 객체인식을 위해서는 센서가 측정한 다양한 시점에서의 RGB-D 이미지를 후처리해서 얻은 3D 포인트 클라우드 데이터를 이용하게 되는데 이때 촬영된 시점들의 2D 이미지를 이용하는 방법과 후처리 후 나온 3D 포인트 클라우드 데이터를 이용하는 방법 간에 성능 차이로 인해 두 경우를 위한 각각의 모델 아키텍처를 적용해야 한다는 주장들이 나오기 시작했습니다. ODIN은 그럴 필요없이 하나의 모델에서 2D RGB 이미지와 3D 포인트 클라우드 데이터를 한번에 처리하면서도 다양한 인스턴스 분할 벤치마크에서 SOTA를 달성했습니다.
* 곧 코드도 공개될 예정이라고 합니다. |
|
|
사진 : ODIN 모델 개요(상), ODIN 모델의 아키텍처 (하) (출처) |
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 재미나고 흥미로운 소식을 가지고
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|