변화와 징후
변화: 생성형 AI는 지금까지 비교적 자유롭게 이 세계의 거의 모든 것을 학습해 왔다. 그런데 그럴 수 없도록 규제하는 새로운 저작권 보호 법안이 미국 상원에서 발의됐다.
징후: AI 업계의 ‘사다리 걷어차기’ 징후다. 생성형 AI 업계의 판을 뒤집을 수 있는 새로운 스타트업은 더 이상 등장하기 어려워진다.
공정 이용
생성형 AI는 왜 우리의 기대를 뛰어넘을 정도로 똑똑한 것일까. 엄청나게 ‘학습’하고 ‘추론’하기 때문이다. 그렇다면 무엇을 학습하는 것일까. 지금까지는 온라인에서 긁어모을 수 있는 거의 모든 것을 학습했다. 텍스트라면 무엇이든, 이미지라면 무엇이든, 음원이라면 무엇이든. 그래도 되는 걸까? 원래 안 된다. 기사 한 꼭지, 아이패드 스케치, 3분짜리 피아노곡 모두 만든 사람, 혹은 기업이 있다. 그리고 그들에게는 ‘지식 재산권’이라는 것이 있다. 이를 침해 받으면 손해 배상을 청구할 수 있다.
그래서 AI 기업들은 ‘공정 이용(fair use)’이라는 원칙에 기대고 있다. 공정 이용은 저작권자의 허락 없이 저작물을 이용할 수 있는 특수한 경우를
의미한다. 예를 들어 다음과 같은 경우에는 공정 이용에 해당한다.
- 미술 작품을 학교에서 교육 목적으로 사용하는 경우: 교육 목적의 비영리 사용이라 공정 이용에 해당
- 보도 자료를 거의 그대로 인용한 신문 기사: 저작물의 특성에 높은 독창성 및 창의성이 포함되지 않아 공정 이용에 해당
- 방대한 양의 소설에서 한 구절을 인용한 경우: 저작물 전체에서 차지하는 양과 실질성이 매우 작은 비중이라 공정 이용에 해당
- 구매한 음원을 복제한 후 사용하지 않을 경우: 저작물의 잠재적 시장 가치에 미치는 영향이 거의 없어 공정 이용에 해당
챗GPT는 인류 보편의 문화 발전에 기여하고 있을까? 인류의 미래를 위한, 비영리적 성격이 강한 소프트웨어인가? 각자의 생각이 다를 수 있는 영역이다. 물론, 우리는 오픈AI의 답변을 쉬이 예상할 수
있다.
그럼, 초등학생이 블로그에 올린 시는 공정 이용에 해당할까? 《뉴욕타임스》의 사설은? 연합뉴스가 속보로 낸 경제 성장률 전망치는? AI 학습 데이터가 공정 이용에 해당하는지 아닌지는 그야말로 ‘케바케’의 영역이다. AI 기업들이 일단 학습시키고 법원에서 만나거나 일정 보상액을 합의하는 식으로 일을 처리하고 있는 까닭이 여기에 있다. 기준이 모호해 혼란하니 이 틈을 이용하는 것이다. 그래서 법을 만들자는 움직임이 나왔다.
COPIED 법
미국 상원이 ‘COPIED 법’을
발의했다. 편집 및 딥페이크 된 미디어로부터 콘텐츠의 출처와 무결성을 보호하는 법(Content Origin Protection and Integrity from Edited and Deepfaked Media Act)이다. 쉽게 말해 챗GPT나 클로드, 제미나이 등 생성형 AI 모델들이 마음대로 이미지나 음악, 기사 등의 콘텐츠를 학습할 수 없게 하겠다는 얘기다. 예술가, 작곡가, 기자 등 저작권자들의 권리를 보호하는 데에 무게를 두고 있다.
온라인에 게시된 창작물은 오픈AI나 앤트로픽, 구글 등의 AI 모델 개발 기업에 의해 AI 학습 데이터로 사용될 수 있다. 합법과 불법의 문제는 아니다. 법적 기준은 모호하며, 이 기업들이 어떤 데이터를 학습에 사용했는지 알 방법이 없다는 얘기다. 그래서 미국에서는 언론사, 음악 저작권 단체, 작가 및 배우 조합 등이 소송과 파업으로 대응해 왔다. COPIED 법은 이 상황을 바꾸고자 한다. AI의 데이터 학습과 관련해 법적인 기준을 확실히 세우겠다는 것이다.
- 저작권자 및 이용자가 콘텐츠에 출처 정보를 부착할 수 있다. 미국 국가표준기술원(NIST)이 이를 위한 가이드라인과 표준을 만들게 된다.
- 출처 정보가 부착된 콘텐츠는 AI 모델 훈련에 사용할 수 없다.
- 연간 매출 5000만 달러 이상, 3개월 이상 최소 2500만 명의 사용자를 보유한 플랫폼이 대상이다.
그런데 이 법을 두고 사다리 걷어차기라는 우려가 나온다.
규제 포획
《사다리 걷어차기(Kick away the ladder)》는 케임브리지대학교의 장하준 교수를 베스트셀러 작가 반열에 올려놓은 저작이다. 선진국이 개발 도상국의 발전을 틀어막으며 우월적 지위를 어떻게 지켜 왔는지 상세히 다루고 있다. 예를 들어 미국은 강력한 보호주의로 자국의 산업을 보호해 강대국 반열에 오른 이후 자유 무역을 부르짖는다. 미국 중심의 경제 체제가 자리 잡은 배경이다. 그 이전에는 영국이 있었다. 기술이 국경 밖으로 빠져나가지 못하도록 사람도 기계도 통제했고, 저발전 국가에는 시장을 개방하도록 강요했다. 해가 지지 않는 국가를 만든 비결이다.
지금 생성형 AI 업계에서도 비슷한 일이 일어나고 있는 것 아니냐는 우려가 나온다. 생성형 AI 서비스를 개발하고 운영하는 데에는 크게 세 가지 비용이 소요된다, AI 모델을 학습시키는 비용, 미세 조정(fine tuning) 비용, 서비스 운영에 소요되는 비용 등이다. 이 중에서 고정 비용에 해당하는 학습 비용을 얼마나 투자할 수 있느냐에 따라 서비스의 성능이
결정된다. 예를 들어 GPT-4의 학습 비용은 1억 달러로 추정된다. 구글 딥마인드의 제미나이(Gemini)에는 6억 3000만 달러가 소요되었을 것으로
보인다. 그런데 COPIED 법이 현실화하면 학습 데이터가 귀해진다. 오픈AI는, 구글은 분명 가져다 썼던 데이터일 텐데(증거를 제시하기는 어렵지만) 규제 때문에 우리는 쓸 수 없다. 후발 주자 입장에서는 출발선이 뒤틀린 불공정한 경쟁이 된다.
물론, 이 뒤틀린 출발선이 미국 정부 입장에서는 나쁘지 않은 구도다. 어차피 시장을 지배하고 있는 AI 기업은 모두 미국 기업이기 때문이다. 이제 진입 장벽을 높게 세워 추가적인 경쟁자를 차단하면 생성형AI 시장은 미국이 독점하게 된다. 그리고 이는 오픈AI와 구글도 바라는 바다. 그래서 ‘규제 포획’이 발생하기 쉬워진다. 규제 포획은 기업이 규제 당국과 협력하여 경쟁 업체의 시장 진입을 방해하는 경우를 일컫는다. COPIED 법이 그 결과물일 수 있다는 의심은 꽤 합리적이다.
사유
신유물론은 인간과 비인간 존재자들이 어떤 관계를 맺어야 하는지에 관한 질문을 던진다. COPIED 법안 논의에서 AI는 인간의 창작을 흡수하는 가해자로 존재한다. 이를 막고 AI와 인간이 갈등 없이 공존하도록 하는 움직임으로 해석할 수 있다. 하지만 현실적으로는 AI와 인류의 관계보다 국가와 국가 간의 관계를 먼저 생각하게 된다. COPIED 법과 같은 규제 장벽부터 세웠다간, 후발 주자인 우리는 한국어로 사고하는 AI를 가질 기회를 놓치게 될 수도 있다.