데이터로 세계를 이해하다
앨런 튜링은 인간을 속일 줄 아는 기계에게는 생각하는 능력이 있는 것으로 간주했다. 튜링의 신념을 이어받아 1991년부터 지금까지 열리는 챗봇(chat-bot) 경진 대회가 있다. 이 대회에서 인간을 속이는 챗봇, 즉 가장 인간다운 챗봇에게는 뢰브너 상(Loebner Pize)이 수여된다. 2013년, 2015년, 2016년, 2017년 연속으로 이 상을 수상한 미쓰쿠(Mitsuku)라는 챗봇과 대화를 해보았다.[1] 처음 채팅을 시작할 때, 이름과 사는 곳을 말하고 한참 다른 이야기를 한 뒤, 다시 물었다. “너 내 이름 기억하니?” 돌아온 대답은 “내가 기억력이 나빠도 네 이름은 기억하지”였다. 그리고는 내 이름을 불러 줬다. 미쓰쿠는 상대의 이름, 사는 곳을 기억하고 질문을 던진다. 반박하기도 하고, 자기주장도 한다. 살아 있다는 것의 의미나, 기계와 인간의 차이 등 꽤 심오하고 철학적인 주제의 대화도 주도적으로 이끌었다.
튜링은 기계의 대답이 인간을 속일 수 있을 정도라면 과연 그 대답이 인공 신호에 의해 억지로 끼워 맞춰진 것이라고만 할 수 있는지 의문을 제기했다. 이미 1950년대에 말이다. 그는 이해한다는 추상적 개념을 기계에 대입할 수 있는 수준으로 정의하고자 했던 최초의 학자다. 여기서 튜링이 말하는 이해는 일반적인 의미 이해가 아니라 의미 해독 능력(literacy)에 가깝다. 전자가 추상적 개념인 데 비해, 후자는 충분한 자료를 종합하고 가공할 수 있는 능력을 의미한다. 사실 의미나 의식 같은 개념은 완벽하게 정의 내리기 어렵다. 튜링은 개념을 직접 정의하는 것이 아니라, 그것을 판단할 수 있는 보편적인 방법을 제시해야 한다고 봤다.
미쓰쿠나 구글 어시스턴트, 시리(Siri) 같은 챗봇과의 대화에서 발견할 수 있는 원리는 여러 대화 상황이 있는 데이터베이스에서 알맞은 답변을 자동으로 제공하는 구조다. 자동화는 인공지능의 중요한 특징이자 뉴미디어의 주요 원리다. 철학자 레프 마노비치(Lev Manovich)는 뉴미디어의 특징을 낮은 단계의 자동화와 높은 단계의 자동화로 구분하여 설명했다. 낮은 단계의 자동화는 일상에서 쉽게 접할 수 있는 것이다. 예를 들면 컴퓨터의 간단한 프로그램을 이용해 글이나 이미지를 수정하거나 새로 만들어 내는 것이다. 포토샵에서 이미지의 채도를, 워드 프로세서에서 오타를 자동으로 수정해 주는 것이 여기에 해당된다. 웹 사이트에서 무언가를 검색했을 때, 즉시 해당 페이지를 보여 주는 것도 낮은 단계의 자동화다.
높은 단계의 자동화도 있다. 만들어지고 있는 객체에 포함되는 의미를 컴퓨터가 이해하는 것이다. 마노비치는 2000년대 초 이뤄지던 높은 단계의 자동화 연구에 대해 부분적인 성공만 이룬 수준이라고 일축했으며, 나아가 높은 단계의 자동화가 가능해지면, 창작 과정에서 인간의 의도가 사라질 수 있다고 보았다.[2]
인공지능 번역은 문자 그대로의 의미를 이해하는 자동화의 대표적인 예다. 구글 번역은 신경망 기계 번역 시스템을 사용한다. 예전에는 문장을 구(phrase)로 나누고, 그 구를 개별적으로 번역한 뒤 합치는 방식이었다면, 새로운 신경망 시스템은 문장 전체를 한 번에 번역한다. 인공지능 번역은 기존보다 오류를 평균 60퍼센트 정도 줄였을 뿐만 아니라, 사용자가 더 많이 사용할수록, 즉 데이터가 더 많아질수록 더 정확한 번역을 제공한다. 유행어나 은어를 번역할 수 있는 것도 이 시스템 덕이다.
그러나 우리가 주목해야 할 것은 향상된 번역의 수준이 아니라, 신경망 번역 시스템 내부에 만들어지고 있는 자체 언어(interlingua)다.[3] 구글의 개발진은 이를 제로 샷(Zero Shot) 번역이라고 정의했다. 예를 들면 한국어-영어를 번역할 수 있는 데이터와 영어-일본어를 번역할 수 있는 데이터가 있다면, 한국어-일본어 번역은 별도의 데이터 주입이 없어도 가능하다. 인공 신경망 내부의 형상을 보면 같은 뜻을 가진 문장이 같은 색으로 표시된다는 것을 알 수 있다. 이것은 인공지능이 단순히 문자 대 문자의 번역을 기억하는 것이 아니라 문장의 의미론(semantics)으로 접근하고 있다는 것을 보여 준다. 인공지능이 언어를 구성하는 자체적인 능력을 가진 것이다.
자체적인 판단 능력을 지닌 인공지능으로 구글의 에이아이 익스페리먼츠(AI Experiments)에서 제공하는 퀵 드로우(Quick Draw)라는 게임이 있다. 사용자는 단어 하나를 제공받는다. 그 단어를 보고 그림을 그리면 인공지능은 사용자가 받은 단어가 무엇인지 맞춘다. 당신에게 주어진 단어가 모나리자Mona Lisa라고 가정해 보자. 네모 액자를 먼저 그리고, 그 안에 머리가 긴 사람을 그릴 예정이었다면 퀵 드로우는 당신이 그림을 완성하기도 전에 “네가 그리는 게 모나리자 맞지?”라고 되물었을 것이다. 퀵 드로우가 이렇게 빨리 맞힐 수 있는 이유는 많은 사용자가 서로 다르게 모나리자를 그리는 동시에 대체로 같은 특징을 그리기 때문이다.[4] 퀵 드로우의 인공지능이 모나리자라는 개념을 이해한 결과라고 할 수 있다.
다음의 두 인공지능 프로그램은 전문적인 창작 영역에서 자동화의 가능성을 시사한다. 픽스투픽스(Pix2Pix)는 사용자가 입력한 스케치의 예상 완성 이미지를 보여 주는 프로그램이다. 건축물 디자인에 이 프로그램을 이용하면, 창문, 기둥, 발코니 등의 위치만 정해도 바로 완성된 결과물을 확인할 수 있다. 같은 맥락에서 페인트체이너(PaintsChainer)는 합성곱 신경망을 이용해 스케치의 형태를 인식하고 그에 어울리는 색을 자동으로 채색하는 프로그램이다. 페인트체이너의 채색은 기존의 컴퓨터가 했던 자동 채색과 달리 형태를 이해한다. 예를 들면 옷을 입은 부분과 피부를 구분해 채색하고, 신체 굴곡에 따른 명암까지 표현한다. 이러한 인공지능은 아직 초보적인 단계이긴 하지만, 몇 년 안에 상용화되어 포토샵 같은 이미지 편집 프로그램처럼 흔히 쓰일 것이다. 이처럼 상황을 이해하는 높은 단계의 자동화는 창작을 쉽고 빠르게 할 수 있도록 도와준다.
창작의 과정이 자동화되면서 떠오르는 문제는 누가 창작의 주체냐는 것이다. 앞서 마노비치는 자동화로 인간의 의도가 없어질 수 있다고 보았다. 하지만 이와 비슷한 문제는 과거에도 제기됐다. 초기 사진술을 뜻하는 헬리오그래피(heliography)를 글자 그대로 해석하면 빛이 그려 낸 이미지다. 인간의 손을 거치지 않았다는 의미다. 사진이 처음 발명되었을 때, 사람들은 필름에 이미지를 찍어 내는 역할을 빛, 즉 자연이 한다고 생각했다.
사진이 등장하고 나서 손으로 일일이 인화를 해야 했던 노동은 사라졌다. 하지만 사라진 것만 있는 것은 아니다. 창작자가 구도나 상황을 선택할 수 있는 시간과 기회는 늘었다. 사진의 등장 이후, 예술가는 새로운 표현 방법을 고민했고, 그 결과로 인상주의 그림처럼 단순 재현에서 벗어난 그림이 등장했다.
《워싱턴 포스트》의 자체 인공지능 헬리오그래프(Heliograf)는 2016년 850건의 기사를 자동으로 발행했다. 그중에는 50만 건 이상의 클릭 수를 기록한 기사도 있었다.[5] 인공지능 알고리즘이 기사를 작성하는 것은 헬리오그래피에서 빛이 이미지를 그려 내는 것과 같은 맥락이다. 헬리오그래프는 정확한 정보를 토대로 간단한 내용을 구상하는 것에 그치기 때문에 인간 기자는 인공지능의 기사를 토대로 분석을 더해 기사 작성을 마무리한다. 인공지능은 인간 기자의 일을 뺏은 것이 아니라 다른 가능성을 열어 줬다.
마찬가지로 이전보다 높은 단계의 자동화가 이뤄졌다고 해서 당장 인공지능이 예술의 주체가 될 수 있는지 결론 내리기는 어려운 상황이다. 하지만 자동화된 인공지능이 인간 창작자의 창의성을 확장하고 작업의 효율을 돕는 것은 사실이다.
헬리오그래프처럼 인공지능과 인간 창작자가 함께 새로운 창작물을 선보이는 사례는 종종 찾아볼 수 있다. 예컨대 쥬크덱(Jukedeck)은 저작권 문제가 없는 곡을 자동 작곡하는 인공지능이다. 사용자는 음악의 장르, 분위기, 길이, 빠르기, 악기를 선택할 수 있고 설정에 맞게 인공지능이 작곡한 음악을 바로 다운받을 수 있다. 쥬크덱은 작곡 엔진과 프로덕션 엔진으로 구동된다. 먼저 딥러닝을 통해서 많은 데이터를 학습한 작곡 엔진이 악보를 완성한다. 이후 프로덕션 엔진에서 악기나 소리의 주파수 영역 등을 선택한다. 이때 걸리는 시간이 작곡 엔진에서 2초, 프로덕션 엔진에서 38초다. 1분이 채 안 되는 시간이면 곡 하나를 작곡할 수 있다. 쥬크덱의 공동 창업자 패트릭 스툽스(Patrick Stoobs)는 과거 인공지능 음악은 단조로운 전자 음악에 불과했지만, 현재는 사람이 작곡한 곡과 구별하기 어려운 수준에 이르렀다고 자신했다. 그리고 2018년, 쥬크덱과 한국 음반 제작사가 함께 세계 최초의 인공지능 음반 레이블 A.I.M을 설립했다. 인공지능과 인간이 함께하는 창작은 매우 가까이 와 있다. 창작의 가능성은 인간의 역량을 넘어서는 영역까지 확대될 것이다.
1세대 컴퓨터 예술가 가와노 히로시(川野洋)는 기계 예술의 존재 이유에 대해 이렇게 말했다. “인간 예술은 인간 두뇌의 한계에 갇혀 낡은 것만 만들어 내는 경향이 있다. 인간의 손과 머리를 사용하지 않고 컴퓨터에 맡겨도 되는 영역이 있지 않을까 하는 생각이다. 가령 인간이 하려면 오랜 시간이 걸리는 일도 컴퓨터는 몇 분 만에 할 수 있지 않은가?”[6]
그의 말처럼 인간의 영역 너머에서 제작을 가능하게 하는 것이 인공지능 창작의 존재 이유다. 오늘날 인공지능은 손쉬운 창작의 도구를 넘어서 적극적으로 창작에 개입하고 인간을 돕는 동료로 발전하고 있다. 창작의 주체성이 인공지능에게 완전히 넘어가는 일은 아직 요원하지만, 높은 단계의 자동화로 향하는 과정은 인간의 한계를 뛰어넘은 예술로 가는 길의 핵심이다.
렘브란트의 부활
렘브란트 사후 347년이 지난 2016년, 렘브란트가 부활했다. 그를 부활시킨 건 마이크로소프트와 네덜란드 델프트(Delft) 대학, 렘브란트 미술관이 함께 진행한 인공지능 프로젝트, 넥스트 렘브란트(The Next Rembrandt)였다. 넥스트 렘브란트는 얼굴 인식 알고리즘으로 렘브란트 회화에 등장하는 사람들의 얼굴 패턴을 읽어 낸다. 눈, 코, 입의 간격이나 눈동자 표현 등 얼굴 묘사 특징을 계산해서 새로운 그림의 정확한 프레임 안에 배치한다. 3D 프린팅 기술을 통해 회화 질감까지 완벽하게 재현한다.