콘텐츠 제작 기술이 가져올 일상의 변화
제2차 산업혁명 당시 포드사의 컨베이어 벨트 시스템으로 공업품 대량생산의 시대가 열린 것처럼 새로운 제작 기술의 탄생은 우리의 삶에 많은 변화를 일으키곤 합니다. 오늘날 우리는 코로나19로 사람들 간의 이동이 제한되자 사회에서는 다양한 변화를 겪어야 했습니다. 모든 시설이 자동화, 무인화가 되어가고 메타버스 공간으로 사람들이 몰리기 시작하고 인공지능의 성능은 점점 더 빠르게 좋아지고 있습니다. AI의 발전은 오랜 우리의 앨범에 있던 사진을 수 초만에 3차원화 시키기도 하고, 때론 현실의 물체를 스마트폰으로 촬영하여 3D로 불러오거나 하는 등 예전에는 불가능했던 일들이 이제는 누구나 사용할 수 있는 기술로 변화하고 있는데요. 이번에는 우리가 일상에서 쉽게 만나볼 수 있는 콘텐츠 제작 기술에 대하여 알아보도록 하겠습니다.
현실 세계를 가상세계로 불러오는 기술
여러분은 이미지 편집 프로그램에서 피사체 자동 선택 기술을 사용해 보신 적이 있으신가요. 사진을 통해 사물의 깊이와 모양을 인지하는 것은 인간에게 어려운 일이 아니지만 간혹 흰 배경의 흰 물체를 선택해야 하거나, 복잡한 배경에 있는 피사체를 분리해야 하는 경우 사람의 손길이 필요한 만큼 AI에게 까다로운 작업임에는 분명합니다. 하지만 최근 엔비디아가 발표한 NeRF는 피사체가 있는 다양한 구도의 사진 몇 장으로 순식간에 3D 장면을 만들어 내는 기술을 발표하였습니다. 이 NeRF는 AI를 활용하여 사진에서 표현되지 않은 공간을 채우고 사진상 보이는 빛의 방향과 색상을 예측해 장면을 재구성하는 기술입니다. 이러한 기술의 진화로 현실과 가상의 경계가 무너지면서 보다 리얼한 현실을 가상공간에 불러올 수 있게 되면서 자율주행 자동차, 메타버스, 엔터테인먼트, 게임 등 여러 산업에서 활용될 가치가 높은 것으로 평가되고 있습니다.
출처 : NVIDIA 유튜브 채널
위에 소개해 드린 NeRF는 사진 단 몇 장으로 3차원 공간을 그래픽상에 구현하는 거라면 아래 소개 드리는 리얼리티 스캔은 우리가 가지고 있는 스마트폰으로 특정 피사체를 촬영하면 3D 스캔 이미지를 만들어주는 기술입니다. 이러한 기술의 발전 이전에는 사물의 크기를 측정하고 나온 수치를 바탕으로 모델링을 하고 렌더링을 하는 것에 많은 인력과 시간이 들어갔는데요. 이제는 수많은 시간이 들었던 작업이 아름다운 풍경 사진을 찍듯 간편하게 현실 세계를 3차원 디지털 공간으로 불러올 수 있게 된 것입니다. 3D 프로그램과 전문 기술자 없이 스마트폰 하나로 3차원 오브젝트를 만드는 것은 기존에 라이다(Lidar) 센서를 활용한 스캔 방식의 3D 스캔이 있었지만 라이다 센서가 탑재된 기기는 고가이기도 하고 접근성이 떨어졌는데요. 리얼리티 스캔은 별도의 센서 없이 카메라만으로 스캔해서 불러올 수 있는 점에서 이젠 스마트폰만 있다면 누구든지 3차원으로 불러올 수 있는 3D 스캐너를 가지고 있게 된 셈이죠.
언어만으로 무엇이든 만들 수 있는 세상
사람의 말을 알아듣고, 이미지로 표현해 줄 수 있는 AI. 여러분은 이런 AI를 생각해 보신 적 있으신가요? ‘발레리나 치마를 입고 개를 산책시키는 무’, ‘매드 사이언티스트처럼 스팀펑크 분위기로 반짝이는 화학물질을 조합하는 테디 베어들’ 같은 일상적이지 않은 텍스트를 입력해도 우리의 상상에 보다 가깝거나 상상을 뛰어넘는 이미지를 만들어내는 AI가 있습니다. Open AI에서는 텍스트만 가지고 다양한 스타일의 이미지를 만들 수 있는 DALL-E 2를 발표하였는데요. 예를 들어 ‘말을 타는 우주인을 사실적으로 그린 그림’이라고 텍스트만 입력했을 때 위와 같은 그림을 만들어 내는 것입니다. 주문자가 제시한 단어의 사전적인 의미뿐만 아니라 이미지의 전체적인 분위기를 고려하여 구도와 광택, 재질과 배경, 빛이 들어오는 방향 등 최대한 어색하지 않도록 묘사하는 것이 정말 AI가 만든 것인지 의심이 들 정도로 정교한 이미지를 보여줍니다. 그리고 Open AI는 이번 DALL-E 2를 공개하며 ‘예술가들에게 영감을 주거나 브레인스토밍 또는 실제 작품을 제작하는데 유용할 것’이라고 밝힌 것과 같이, AI의 학습능력을 활용해 다양한 아이디어들과 영감을 빠르게 습득하고 예술가 본인의 작품 세계를 확장시켜 나갈 수 있을 것으로 보입니다.
구글에서는 자연어를 이해하고 문장 속에 담긴 뜻을 이해하는 인공지능을 내어놓았습니다. 이번에 공개된 AI의 특징으로는 인간의 농담이나 반어법, 이모지로 표현된 영화의 내용을 가지고 제목을 맞추는 등의 이해도의 뒷 배경에는 단일 모델을 학습시켜도 기존 배운 학습내용을 응용 추론하는 것이 가능한 퓨샷(Few-shot)러닝을 활용하였기 때문입니다. 자연어에 대한 높은 이해도는 검색할 때 더욱 정확한 검색 결과를 보여줄 수 있는데요. 결국 두 AI의 해결해야 될 주요 과제 중 하나는 AI가 잘못되거나 편향된 정보를 스스로 걸러낼 수 있도록 하고, 고도화된 인공지능을 악용한 가짜 뉴스 등 유해 콘텐츠 등을 차단하기 위한 안전장치가 마련되어야 할 것 같습니다.
전 세계 모든 언어를 실시간으로 번역해 주고 코딩과 설계 도면이 필요 없이 자신이 원하는 메타버스 세상을 창조할 수 있는 음성 기반 AI 도구가 있습니다. 바로 ‘빌더봇’인데요, 빌더봇은 말 그대로 ‘무언가를 만들어주는 로봇’입니다. 빌더봇은 마크 저커버그의 메타버스 비전이 어느 쪽을 향하고 있는지 잘 보여주는 사례인데요, 온라인 시연회에서 저커버그는 2명의 이용자 아바타와 1명의 빌더봇을 등장시켰습니다. 그리고 가상 세계의 바다 위에 작은 섬을 만들고 잔디밭과 야자수 나무 그늘, 피크닉 테이블 등 음성 명령만으로 다양한 사물들을 만들고 배치했습니다. 빌더봇을 활용하면 메타버스 내에 원하는 환경을 자유롭게 만들어 놓고 전 세계 사람을 누구나 초대할 수 있다는 장점이 있습니다. 실시간 음성 번역이 지원되면 그들과 자유롭게 대화를 주고받을 수 있습니다. 마크 저커버그는 다른 사람과 함께 돌아다니며 경험을 공유할 세상을 목소리만으로 만들 수 있게 될 것이라고 말했습니다. 메타버스 분야는 아직도 개발해야할 기술과 과제들이 많이 남아있지만 이번 메타의 빌더봇은 메타버스의 또다른 미래를 보여주는 듯합니다.
인공지능으로 생명을 불어넣는 마법
해리포터 소설이나 영화에서 보던 움직이는 사진을 기억하시나요. 신문에 실린 사진에서 자동차가 날아다니거나 사람들이 대화를 나누는 등 사진만으로도 그 특유의 신비로운 분위기를 느낄 수 있었는데요. 예전에는 영화 속에서만 볼 수 있던 기술이 인공지능의 발전으로 현실에서 볼 수 있게 되었습니다. 삼성전자 인공 지능 연구센터에서 인물의 얼굴이 담긴 사진이 사실적으로 말하는 것처럼 보이는 AI 연구를 발표했는데요, 기존의 AI 영상 합성 기술과는 달리 GAN(Generative Adversarial network)이라 불리는 AI 알고리즘으로 하나의 이미지만으로 영상을 만들 수 있다고 합니다.
보통 한 가지에 치중된 신경망 모델들과 다르게 GAN은 2가지 종류의 신경망인 생성자, 판별자입니다. 딥러닝 알고리즘인 GAN은 생성자, 판별자를 이용해 구별이 힘든 진짜 같은 가짜 이미지를 만들어 내는 것을 목표로 합니다. 특정 작품을 따라 할 수 있고, 저해상도 버전으로 선명한 2D 이미지로 만들어 낼 수 있는 GAN은 이 능력을 바탕으로 패션, 예술 및 광고, 비디오 게임, 영화 산업, 딥페이크 기술에 활용되고 있는데요, 활용 범위가 더 넓어질 것으로 보입니다.
기존 애니메이션 작업은 애니메이터 100명 이상의 인원이 수개월에서 수년 동안 작업을 할 만큼 애니메이션 제작에 상당한 비용과 시간을 필요로 하는 것으로 알려져 있는데요. 인공지능 기술은 이러한 애니메이션의 제작 방식을 혁신적으로 바꿔가고 있는데요. 인공지능을 활용한 3D 애니메이션을 만드는 슛을 제작한 플라스크라는 인간의 움직임을 인공지능이 공부해서 캐릭터를 자연스럽게 움직이도록 해주는 기술을 보여주고 있습니다. 예를 들어 춤추는 가수의 영상을 슛에 올리면 인공지능이 이를 학습하고, 사전에 만들어 놓은 3D 캐릭터를 불러와 춤을 똑같이 따라 하도록 만들 수 있는데요. 아직 전문적인 영화 애니메이션까지는 아니어도 비교적 간단한 애니메이션의 경우 시간과 제작비를 대폭 줄일 수 있게 되어, 이러한 인공지능을 활용한 기술들은 유튜버, 스트리머, 작가 등 크리에이터 이코노미 시대에서 중요한 제작에 필요한 시간을 절약하고 콘텐츠에 더 집중할 수 있어 양질의 콘텐츠를 생산해낼 수 있게 될 것으로 보고 있습니다.
◆ 더 자세히 알고 싶다면
1. NVIDIA NeRF (https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/)
3. Reality Scan (https://www.capturingreality.com/)
2. Open AI DALL-E 2 (https://openai.com/dall-e-2/)
4. Meta – Builder bot (https://youtu.be/62RJv514ijQ)
5. plask (https://plask.ai/)