개인식별 방법과 잊혀질 권리에 대해 알아봅니다. 안녕하세요, 구독자님.
이번 한 주도 잘 보내고 계신가요?
아이를 키우다보면, 어릴 적 귀엽고 사랑스런 모습을 사진이나 동영상으로 남겨서 가족들과 공유하고 싶어지기도 합니다. 제 경우엔 지방에 계신 부모님과 형제, 자매를 위해 네이버 밴드를 이용해서 어떻게 커가고 있는지 가끔씩 글과 사진으로 알려 드리고 있죠. 그런데 이 정도에서 그치지 않고 대중에게 공개된 SNS나 게시판 등에 아이의 사진이나 영상을 올리는 분들도 있을 것입니다. 대부분은 사랑스러운 자녀의 모습을 자랑하고 싶어서일 것 같은데 이런 행동이 아이 본인의 의사보다는 대부분 부모의 의사인 경우가 더 많을 거라 생각합니다. 어릴 때야 별 상관이 없었더라도 커서까지 인터넷 상에 올라온 영상들이 계속 꼬리표처럼 따라다닐 수 있다는 것은 분명히 아이 개인에게는 바라는 바가 아닐 겁니다.
얼마 전에 '어릴 때 게시물 지워주세요...'라는 제목을 단 기사를 보게 되었습니다. 디지털 잊힐 권리와 관련된 내용이었는데요... 어린 시절 본인 혹은 가족이 인터넷에 올린 게시물 때문에 사진, 영상, 혹은 전화번호 등의 개인정보가 유출되어 피해를 입는 경우가 발생하게 되는데 이 문제를 해결하기 위한 방안으로 진행되는 것이라고 했습니다. 인터넷 상에 떠도는 누군가의 개인정보를 대하는 우리의 태도를 다시 고민해 보고 나나 가족의 개인 정보를 보호하기 위한 노력도 함께 기울여야 할 것 같네요. '내가 보는 남의 정보'와 '남이 보는 나나 가족의 정보'가 입장을 바꿔놓고 보면 같은 잣대일 수 밖에 없으니까요...
이번 소식에서는 영상 속에서 특정 사람을 찾아내는 인공지능 기술에 대해 알아보도록 하겠습니다. 물론 새로운 기술 안내도 빼 놓진 않구요. |
|
|
'디지털 잊힐 권리(지우개)' 란?
만 18세 미만 아동/청소년 시절에 본인이 작성했던 게시물 가운데 개인정보가 포함된 글, 사진, 영상 등을 플랫폼 업체 쪽에 요청해서 삭제를 할 수 있도록 제도화를 하는 것입니다. 올해는 ‘아동·청소년 디지털 잊힐권리 시범사업’을 진행하고 2024년까지는 '잊힐 권리'를 완전히 제도화해서 본인이 아닌 부모가 올린 게시물까지 범위를 확대할 예정이라고 합니다. ( 관련글) 이미 시범사업은 시행 2개월에 접어들었는데 현재까지 3,488건이 신청되었고 신청 대상 플랫폼 서비스는 유튜브, 페이스북, 네이버, 틱톡, 인스타그램 순이었다고 합니다. ( 기사)
이 제도와 관련된 추가 사항은 다음과 같이 요약할 수 있습니다.
- 신청 가능 연령 요건 : 만 18세 미만에 작성된 것만 대상이며 만 24세 이하 국민
- 삭제 요청 대상 게시정보 : 개인을 특정할 수 있는 정보(이름, 생년월일, 전화번호, 주소, 사진 등)를 포함하고 있어야 함
- 제공 서비스 : 삭제 혹은 블라인드 요청, 검색되지 않도록 처리 요청, 상담 요청 지원
개인정보포탈에 가시면 질의/응답 형태의 화면을 통해 아주 쉽게 설명해 주고 있습니다. 아무래도 내용에 관심을 가질만한 청소년들의 이해를 돕기 위한 목적이라서 그렇게 하고 있는 것 같네요.
그런데 왜 '지우개'라고 하나요?
그러게요. 저도 처음에는 왜 이걸 '지우개'라고 부르나 했습니다. 단순히 인터넷 상에 게시된 개인정보를 '지운다'에 맞춰 만들어진 단어인가 했는데 그게 아니었죠. '지켜야할 우리들의 개인정보'를 의미하는 단어라는데 어떤 분인진 모르겠지만 참 잘 지은 이름 같습니다.
우리나라에서만 이런 제도가 있는건가요?
개인의 정보보호와 사생활침해 방지와 관련된 문제는 인터넷이 되는 전세계 모든 곳에서 발생하고 있을 겁니다. 이것을 제도화했거나 하려고 추진하는 곳들은 계속 늘 것으로 생각되구요. 이 기사는 한국 외에도 미국, 유럽, 일본 등에서 만들어지고 있는 제도를 소개하고 있습니다.
다들 비슷비슷하겠지만, 유의할 점은 잊힐 권리가 무조건적으로 적용되지는 않는다는 것입니다. 표현의 자유를 침해하거나 공익적인 효용이 훨씬 높다고 판단되는 경우에는 잊힐 권리가 제약될 수 있다는 것이죠. 특히 미국, 유럽이 그렇더군요.
디지털 장의사라는 직업이 있던데...
'디지털 장의사'란 인터넷 상에 돌고 있는 정보를 수집해서 영구적으로 삭제(파기)하는 일을 대리해 주는 새로 생겨난 직업입니다. 개인이나 기업이 원치 않는 정보가 유통되지 않도록 해 주는 것인데 아무리 디지털이라고는 하지만 '장의사'란 단어의 느낌이 죽음과 관련된 것이다보니 그렇게 살갑게 와 닿지는 않습니다. 다만, 자신의 몸(육신)보다는 자신에 대한 데이터가 존재 자체로 인정받아가는 추세인 현재 시점에는 딱 맞아 떨어지는 직업이라 생각됩니다. 앞서 소개한 제도가 커버할 수 있는 영역이 연령이나 내용과 관련된 제약이 있는데다 개인이 개별적으로 자료를 찾고 삭제를 요청하는 작업 자체가 반복되는 지루한 작업일 수도 있기 때문에 그 작업을 대행해 준다고 보시면 되겠습니다.
찾아보니 우리나라에도 ' 산타클로즈컴퍼니', ' 탑로직' 등과 같은 디지털 장의사업을 하는 기업들이 있더군요. 해외에서도 십수년 전부터 이미 이런 서비스를 제공하는 업체들이 많이 생겼습니다. 미국 쪽 사례를 보니 원래 서비스가 살아 있는 분의 개인정보 보호가 주된 관심사가 아니라 사망한 분의 디지털 유산을 삭제해 주는 사후 관리 쪽에 더 가까웠다고 합니다. 그런 면에서 본다면 우리나라는 대부분은 살아있는 분들을 위한 온라인에서의 평판관리 서비스에 더 가까워 보입니다. 물론 그런 것을 요구하는 분들이 있긴 하겠지만 말이죠.
참고) 기사들에 많이 나온 미국의 '라이프인슈어닷컴'은 흠... 암호 관리 업체의 사이트로 연결되는 것으로 봐선 해당 업을 접은 듯 싶긴 했습니다.
|
|
|
영상에서 어떻게 본인이 나온 것을 찾을 수 있나요?
영상에서 개인을 식별하기 위해서는 안면의 특징점 정보의 비교 방식이 가장 많이 사용됩니다. 잘 아시는 것과 같이 지문은 사람마다 다 다릅니다. 안면정보 또한 그런 특징을 가지고 있죠. 일란성 쌍둥이처럼 아주 유사하게 생긴 사람이 있을 가능성도 있지만 이들 간에도 미세한 차이가 있게 마련입니다. 예전 지문정보의 경우, 인식센서에서 수백개의 특징점 정보를 이용했다고 한다면 최근 카메라 영상을 통한 안면의 특징점 정보는 이보다 더 많을 수도 있습니다. (수량은 조절하기 나름입니다) 물론 안면정보와 지문정보는 적용 대상이 다르다보니 세부적으로 사용되는 기술에서는 차이가 날 수 있습니다.
이걸 위해 어떤 기술이 사용되나요?
사람 얼굴 이미지로부터 인물을 구분할 수 있는 특징을 추출한 뒤 임베딩(embedding) 과정을 거치면 실수화된 특징벡터를 얻게 되고 이를 데이터베이스에 저장하죠. (벡터 데이터의 저장과 조회를 위해 최근에는 Vector DB라는 것을 사용하기도 합니다. Vector DB의 예로는 Pinecone 같은 것이 있죠. 설명 ) 이후 카메라 영상에서 사람이 감지되면 해당 얼굴 이미지에서 특징을 추출한 뒤 저장된 안면 특징벡터 정보와 비교하는 방식으로 사용됩니다. 유사도 비교 결과 지정한 threshold 내에 드는 검색 결과가 있으면 이를 동일인으로 판정하게 되는 것이죠.
인터넷에 수없이 많은 영상 가운데 일일이 본인 것을 찾는다구요?
물론 그렇게 할 수는 없습니다. 그런 서비스는 앞서 언급한 '디지털 장의사' 서비스를 제공하는 기업들이 해 주고 있죠. 대신 이러한 영상 검색 기술은 어떤 특정 영상 내에서 찾고자 하는 영상이 어느 부분에 있는지 검출하는 목적으로 사용되는 경우가 대부분입니다. 중국 공안의 경우에는 그 영상이 실시간 CCTV 카메라에서 들어오는 영상이 되는 차이가 있다고 보시면 될 겁니다.
이 기술의 다른 활용처는 어떤 것이 있을까요?
긴 영상에서 원하는 사람, 혹은 원하는 장면이 나오는 것을 확인하기 위해서는 사람이 계속 화면을 지켜봐야 합니다. 영상의 길이가 길다면 그 작업은 단순하지만 누군가의 하루를 다 잡아먹을 수도 있는 작업이 되겠죠. 어린이집 가혹행위 등이 발생했을 때 경찰에서 담당자가 해당 CCTV 수십일치 육안으로 검사하느라 어려움이 있어 인공지능을 이용한 자동 검사 기술 도입을 검토하고 있는 것으로 알고 있습니다.
또 이 기술들은 영상물의 저작권 보고가 중요한 업무인 연예기획사, 컨텐츠 제조사 등등에서도 자사 소속 연예인이 나오는 무단복제 영상 등을 걸러내거나 특정 연예인이 나오는 부분만 추려서 별도 영상으로 만들어내거나 또는 숏폼 형태의 영상 생성을 위한 구간 확인 등을 위해 활용될 수 있을 것 같습니다.
안면식별하는 것과 딥페이크 얼굴을 찾아내는 건 다른 기술이 적용되나요?
네. 둘 다 주로 얼굴 부분을 다루기는 하지만, 적용되는 기술은 좀 다릅니다. 딥페이크 기술을 이용해서 가짜로 만들어진 얼굴의 경우에는 실제 얼굴과는 다른 특징들을 가지고 있으며 이를 이용해서 진짜와 가짜를 구분하게 됩니다. 예를 몇 가지 들면 최근 인텔에서 발표한 FakeCatcher 기술은 혈류변화에 따른 얼굴 색생분포 변화를 감지하는 방식으로 실제와 가짜를 구분합니다. 2020년도에 발표된 논문을 고도화하고 제품화한 것인데 감지에 소요되는 시간이 1ms 정도로 실시간 감지가 가능하다고 합니다. 구동된 하드웨어 정보는 별도로 확인이 필요하겠네요. 또 GAN 등을 이용해서 생성된 가짜 안면정보는 주로 측면얼굴을 보이도록 하거나 혹은 얼굴에 손가락 등을 대도록 하면 얼굴 형상이 이상하게 변하는 것을 볼 수 있습니다. 대부분 알려진 유명인이 아닌 경우, 정면이 아닌 측면 사진을 구하기는 쉽지 않기 때문인 것 같습니다. 이 외에도 다양한 기술이 딥페이크를 통한 위조 안면을 구분하는데 사용되고 있습니다.
|
|
|
사진: Intel의 FakeCatcher 기술 소개 (출처) |
|
|
관련해서 읽어볼 만한 정보를 알려주세요.
검색해 보니 다음과 같은 글과 영상이 있었습니다.
안면식별 기술 관련 내
- CelebV-HQ: A Large-scale Video Facial Attributes Dataset (사이트, 코드(깃헙), 논문, 데이터셋)
- Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics (깃헙, 논문)
- 얼굴 인식 기술에 관하여: 컴퓨터가 당신을 알아보는 방법 (CUBOX, 2022.9)
- 네이버 브이라이브 “AI가 좋아하는 연예인 화면만 편집한다” (아주경제, 2018.11)
- 네이버, AI로 원하는 선수만 골라 본다 (전자신문, 2022.7)
- AI 이미지 검색 엔진 만들기 - 벡터 데이터베이스 설명과 Chroma DB 튜토리얼 (빵형의 개발도상국, 2023.6)
- How to search in youtube video with AI 'CLIP' (Docurious, 2021.2)
- 안면인식 영상 데이터 (AI Hub, 2021)
- 다시보고 싶은 영화 속 장면, AI가 찾아준다. SKT, AI 미디어 추천 기술 ‘신 디스커버리’ 공개 (ZDNet, 2018.9)
- [사이언스 취재파일]끝까지 안 봐도 되네…인공지능이 동영상 검색까지(YTN 사이언스, 2020.7)
- '정확도 99.9%', 마스크로 얼굴 가려도 1초 만에 알아본다 (Ai타임즈, 2021.1)
- [비전공자를 위한 딥러닝] 안면 인식 기술, 어떤 원리로 사람의 얼굴 분석할까? (CWN, 2021.3)
- 얼굴 인식 알고리즘 선행 연구를 소개합니다 (카카오엔터프라이즈, 2020.7)
딥페이이크와 관련된 내용
- AI로 '19금 만드는 법' 판치는 꼼수…'딥페이크' 아니면 처벌 못 해 (머니투데이, 2023.3)
- 정책리포트) 허위정보로서 딥페이크 어떻게 대처할 것인가 (한국언론진흥재단, 2020)
- 인텔, 실시간 딥페이크 탐지 기술 공개 (인텔, 2022.11)
디지털 잊혀질 권리에 대한 내용
- 디지털 잊힐권리, 모두에게 필요하다 [선진국 입법 사례] (이코리아, 2023.5)
- “SNS 속 내 사진 지워 주세요”… 아동이 직접 삭제 요청할 수 있다 (서울신문, 2022.7)
- 전국 최초 인공지능(AI) 기술로 디지털성범죄 24시간 자동 추적·감시 (서울특별시, 2023.3)
- 사망 후…SNS 계정과 인터넷에 올린 사진들은 (중기이코노미, 2023.5)
- 요즘 잘 나가는 '디지털 장의사'를 아십니까 (일요시사, 2016.8)
- “300달러 내면 온라인 인생 지워드립니다” … 미국선 ‘디지털 장의사’ 성행 (중앙일보, 2012.4)
|
|
|
RobustL2S: Speaker-Specific Lip-to-Speech Synthesis via Self-Supervised Learning
|
|
|
'RobustL2S' 모델은 소리가 포함되어 있지 않은 비디오 영상에서 사람의 입모양에 맞는 음성을 생성해내는 Lip to Speech 합성 모델로, 하는 역할은 소리를 듣지 못하는 청각장애인들이 상대방의 입모양을 봐가며 의사소통을 해야하는 경우가 있는데 바로 그런 상황을 떠 올려보시면 됩니다. 코로나 때 마스크 착용이 의무화되어 의사소통에 어려움이 있었다는 기사를 본 적이 있는 것 같네요. RobustL2S 모델은 Lip 인코더와 Speech 인코더를 사용하여 Lip과 Speech의 SSL (Self-Supervised Learning) 표현을 추출합니다. 그런 뒤 Seq2Seq 모델로 입술 표현을 음성 표현에 매핑하고 이를 Speech 보코드로 최종 합성 음성을 만드는 식으로 진행됩니다. 아쉽게도 아직 실행코드는 공개되지 않았습니다.
참고로 이와 반대되는 목적으로 사용되는 것으로 음성에 맞춰 입모양을 생성해내는 Wav2Lip 이라는 모델도 있습니다.
|
|
|
사진) 모델 아키텍처 개요 (상), 실행 결과 (좌:음성없이 영상만 있는 입력, 우:생성된 음성이 적용된 영상)(출처) |
|
|
오랜만에 국내에서 만들어진 기술을 소개하게 되네요. 칼로(Karlo) 2.0은 초거대 언어모델을 기반으로 한 이미지 생성모델입니다. Stable Diffusion이나 DALE-E와 같은 모델이라고 보시면 됩니다. 카카오에서 카카오 디벨로퍼스 (Kakao Developers)를 통해 공개하고 있으며 개발자 등록을 하면 누구나 자유롭게 이미지를 생성해 볼 수 있습니다. MidJourney 등이 정해진 몇십장의 수량을 넘어서면 유료로 전환되었던 것에 비해 칼로 2.0은 월 60만장까지 무료로 생성할 수 있습니다. 월 60만장이면... 개인일 경우에는 거의 무제한인 셈입니다.
아쉬운 것은 API 형태로 제공되기 때문에 이걸 사용하려면 약간이라도 IT 기술을 이해하고 있어야 한다는 것입니다. 사전학습된 모델 자체가 공개된 것이 아니라 단순히 API로만 접근 가능하다보니 일반 사람들이 사용하기 위한 Web 앱이나 Discord 같은 것이 제공되지 않기 때문입니다. 누군가 간단한 웹앱 형태로 만들어 공유해도 될 거 같구요. 그리고, 사용하는 텍스트 프롬프트는 한글이 아닌 영문으로 해야 제대로 되는 것 같았습니다. 대충만 돌려본터라 실제와는 다를 수도 있겠죠.
|
|
|
사진) Karlo 개요 소개 (상, 출처), gradio 코드를 변환해 단순하게 테스트한 결과 (하) |
|
|
- META의 Threads 서비스 출시
META (구 Facebook)에서 트위터 대항마 (또는 카피캣?)인 Threads라는 SNS 서비스를 출시했고 5일만에 사용자수가 1억명을 넘는 기염을 토했습니다. 아시겠지만 Threads는 월 활성사용자 수 20억명인 인스타그램 계정을 가진 사람은 별도 사용자 가입절차 없이 바로 사용 가능하기 때문이겠죠. 하지만 최근 잦은 변경으로 말이 많은 트위터 정책에 대한 반발 때문에 옮기는 사람도 다수 있는 것 같습니다.
|
|
|
인공지능 서비스의 배포와 운영 시 도움이 필요하신가요?
(주)소이넷은 인공지능 서비스를 제공하는 기업들 가운데 서비스 배포와 운영에서 어려움을 겪고 계신 곳에 도움을 드릴 수 있습니다.
혹시 구독자님의 회사는 다음과 같은 어려움을 겪고 계시지 않나요?
- AI 모델을 개발하고 학습 후 서비스를 위한 성능(Accuracy)은 달성했는데, 정작 최적화 엔지니어가 없어서 어플리케이션, 서비스로의 배포를 위한 실행최적화를 못하고 있어요!
- AI 서비스를 이미 제공하고 있지만, 비싼 클라우드 GPU 서버 인스턴스 사용료가 부담이 되네요. 흠... 경비를 절감할 수 있는 방안이 없을까?
- 서비스에 적합한 공개 SOTA 모델이 있지만 그대로 가져다 쓰기에는 우리 쪽 어플리케이션에 접목하기도 어렵고 운영 비용도 많이 들 것 같은데 어쩌지?
- 서비스에 사용되는 AI 모델을 통합적으로 관리, 배포, 모니터링을 하고 싶은데 그렇다고 비싸고 너무 복잡한 솔루션을 쓸 수는 없고 어쩌지?
- 비즈니스 도메인 기업이긴 한데 자체로 인공지능을 적용하기에는 기술적인 난이도도 있고... 어디 함께 공동 솔루션을 개발할 곳은 없을까?
그렇다면 언제든 아래 연락처로 문의 주세요. 함께 해결책을 고민해 드리겠습니다.
|
|
|
오늘의 뉴스레터는 여기까지 구독자님, 다음 번에도 흥미로운 소식으로
다시 찾아뵙겠습니다. |
|
|
구독해 주시면 좋은 소식, 정보로 보답하겠습니다. |
|
|
주식회사 소이넷 sales@soynet.io 경기 성남시 분당구 성남대로331번길 8 (킨스타워) 1503호
대표전화 : 031-8039-5377
|
|
|
|
|