최근 이슈가 되고 있는 초거대 모델이란?
하루가 멀다하고 새로운 인공지능 모델들이 발표되고 있죠. 정말 최근에는 그 속도를 따라가기가 힘듭니다. 매일같이 새로운 기술들을 뒤져보고 있는 저도 발표된 모델들을 접한 지 채 1달도 되지 않아 동종 분야에서 이를 뛰어넘는 새로운 모델이 발표되는 것을 보고 헉... 소리를 낼 수 밖에 없었습니다.
이런 와중에 최근 초거대 모델에 대한 기사를 자주 접하게 됩니다. 초거대... 도대체 어느 정도로 크길래 이런 수식어가 붙는건지, 이런 모델을 개발하는 목적이 뭔지, 그리고 어떤 활용도가 있길래 이렇게까지 빅테크 기업들이 너나할 것 없이 뛰어들고 있는지 궁금했습니다.
그래서, 아주 얇고 가볍게 조사해 봤습니다. ^^;
|
|
|
초거대 모델이란?
초거대 모델이란 인공지능 학습에 사용되는 parameter의 수가 '엄청나게' 큰 모델을 의미합니다. 너무 단순하게 얘기했나요? 흠... 대부분의 글들에서도 정의를 제시하기 보다는 다른 예를 들어 설명하는 것이 많아서 이렇게 표현하는게 이해가 더 쉬울 것 같았습니다.
인공지능 분야에서는 한동안 더 높은 성능 (Accuracy)을 달성하기 위해 인공지능 모델의 알고리즘이 중요하냐 더 많은 데이터가 중요하냐는 논쟁이 있었습니다. 좀 더 나은 뉴럴넷 구조를 만들기 위해 수많은 시도가 이뤄지고 있는 와중에, 기존보다 훨씬 많은 데이터를 더 큰 네트워크로 학습을 시키면 더 높은 성능을 달성할 수 있다는 결과들이 발표되면서 말이죠. 주로 언어 영역에 많이 사용되어 초거대 언어모델로도 불리고 있답니다.
이런 경향에 맞춰 진행된 것이 초거대 AI 모델의 개발이었습니다. 구글이 Transformer 기반의 BERT를 내 놓으면서 슬슬 분위기를 띄웠고 이후에 OpenAI의 GPT3가 발표되면서 불이 붙었죠. 이후로 많은 빅테크 기업들이 각자의 초거대 모델을 연구하고 있다고 발표하면서 그 결과물을 이용한 비즈니스에 열을 올리고 있습니다.
도대체 얼마나 크길래?
사실 거대, 초거대 등의 용어를 쓰려면 기준이 되는 수치가 있어야 할텐데요... 소개된 글들을 많이 둘러봤지만 정확한 기준은 없는 것 같습니다. 2020년 6월 GPT-3가 발표됐을 때 그 전에 출시되었던 모델들 대비 사용된 parameter의 수가 상대적으로 너무 차이가 나서 '거대', '초거대'라는 용어가 등장한 것이 아닐까 싶습니다. 대략 수십~수백배 정도가 된다고 볼 수 있겠네요.
최근 발표된 초거대 언어모델들의 파라미터 수는 다음과 같습니다.
- 2020년 OpenAI의 GPT-3 (1,750억개)
- 2021년 DeepMind의 Gopher (2,800억개)
- 2021년 MS & Nvidia의 MT-NLG (5,300억개)
- 2021년 구글의 Switch-Transformer(16,000억개)
- 2021년 칭화대 GLM-130B (1,300억개)
- 2021년 네이버의 하이퍼클로바 (2,040억개)
- 2021년 LG의 엑사원 (3,000억개)
- 2022년 구글의 PaLM (5,400억개)
|
|
|
parameter가 많다는 것은 학습을 하기 어렵다는 얘기 아닌가요?
네. 수많은 parameter를 가지고 있다는 말은 그만큼 많은 데이터가 필요하고 이를 지원하기 위해 수많은 GPU 인프라가 필요하다는 얘기가 됩니다. 즉, 비용이 어마어마하게 든다는 얘기이고 큰 업체나 기관 정도가 되어야 시도할 수 있다는 얘기가 됩니다. GPT-3를 발표한 OpenAI도 지속적인 학습을 위한 인프라 비용 때문에 Microsoft와 협업하고 있다는 것도 잘 알려진 이야기입니다.
그럼 기업들이 왜 이렇게 초거대 AI를 개발하려고 하는건가요?
아이언맨에 나오는 인공지능 비서 자비스를 생각해 볼까요? 자비스는 스타크가 시키는 다양한 일을 처리할 수 있습니다. 영상을 분석하고 궤적을 계산/예측하며 설계도 직접 하기도 하고... 물론 영화니까 이렇게 쉽게 얘기합니다.
예전에는 하나의 비즈니스 도메인 서비스를 만들려면 거기에 맞는 모델을 별도로 개빌해야 했습니다. 예를 들어 그림 스타일을 바꾸는 용도, 저해상도의 그림을 고해상도로 upscale하는 용도, 새로운 이미지 형상을 생성하는 용도 등등 다양한 분야가 있겠죠? 그럼 이런 서비스를 하기 위해서는 개별적으로 AI 모델들이 존재하고 각각 학습이 이뤄져야 했습니다.
그러던 것이 초거대AI를 이용하게 되면서 하나의 모델이 다양한 용도로 사용할 수 있게 된 것이죠. 잘 만든 하나의 초거대 모델이 다양한 분야에서 공통적으로 일정 수준 이상의 성능을 내 주니 비즈니스 도메인 별로 적용할 때 약간씩만 튜닝해서 사용하면 되니 뛰어들만 하겠죠. 다만, 그들 간에도 경쟁이 될테고 더 나은 몇개의 모델이 시장을 석권할 가능성이 있겠죠? 그래서 Naver나 카카오브레인 등의 국내 업체들은 한글과 사투리, 기타 한국적인 부분에 특화된 데이터를 많이 적용해서 차별화를 꾀하고 있습니다. |
|
|
일반인도 초거대 모델을 체험해 볼 수 있나요?
대부분의 초거대 모델은 빅테크 업체들의 API나 서비스 형태로 제공되고 있습니다호출 횟수나 용량등의 제한이 있는 무료 지원도 있긴 하지만 대부분은 유료로 사용할 수 있습니다. 다만, 좀 더 작게 만들어서 공개한 모델들은 HuggingFace 등을 통해서도 테스트 해 보실 수 있습니다.
좀 더 자세히 알고 싶은데 관련한 영상 같은 것은 없나요?
초거대 모델에 대한 소개 영상은 유튜브 등에서 쉽게 찾으실 수 있습니다. 제가 찾은 일부만 소개 드릴게요.
|
|
|
SoyNet v5에서도 PaLM 과 같은 초거대 모델의 실행최적화를 지원하고 있습니다. 2022년 5월 발표 직후에 포팅을 진행했고 그 결과는 대략 다음과 같습니다.
벤치마크 대상 모델 구현체
SoyNet과 PyTorch에서의 실행 속도와 GPU 메모리 사용량을 비교한 것입니다.
- 추론속도 : 입력길이 2048 기준으로는 SoyNet이 PyTorch 대비 35배 빠름
- GPU 메모리 사용량 : SoyNet이 PyTorch의 약 57% 가량 사용
- 성능 (Accuracy) : 유효숫자 5개 수준까지 동일
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 완연한 가을이 느껴지는 계절입니다. 환절기에 건강 유의하시고 또 다른 소식으로 만나뵐게요!
|
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|