변화와 징후
변화: 오픈AI가 새로운 AI 모델, GPT-o1을 내놓았다. 애플은 UI-JEPA라는 이름의 AI 모델에 관한 연구 논문을 발표했다.
징후: 거대한 언어 데이터를 학습시켜 확률적으로 정답에 가까운 답변을 내놓는 LLM 모델의 시대가 끝나간다.
중국어 방
지난 6월 이후, AI 업계에는 가시지 않는 거품이 떠돈다. ‘AI 거품론’이다. 아무도 말하지 않던 우려를 공식적으로 이야기한 곳은 골드만삭스다. 관련 보고서를 통해 AI에 막대한 투자가 이루어졌으며, 앞으로도 이루어질 것이지만, 이에 따른 수익 창출까지는 꽤나 오랜 시간이 걸릴 것이라는 전망을 내놨다. 골드만삭스의 보고서는 정확한 지점을 짚었다. 우리는 생성형 AI가 무언가 ‘신기한 것’ 이상이기를 바란다. 농업의 시작과 증기기관이 그랬던 것처럼, 가깝게는 인터넷과 모바일 혁명이 그랬던 것처럼 ‘생산성 폭발’을 이뤄낼 것이라 기대한다. 통사적이고 전 인류적인 이 바람을 개인의 것으로 치환하자면, 나를 실질적으로 도와주는 존재로 AI가 도래하기를 원하고 있다. AI 에이전트다.
사람 같은, 사람보다 좀 더 나은 AI 개인 비서는 인류가 오랫동안 상상해 온 존재다. 대충 말해도 정확히 알아듣고, 내가 기대했던 것 이상의 결과를 내주는 AI 에이전트 말이다. 딱히 거창한 얘기가 아니다. 어머니의 생일이 언제인지 질문했는데, 내 스케줄을 고려해 적당한 레스토랑을 추천하고 어머니의 취향과 나의 통장 잔고에 걸맞은 선물을 골라 구매 사이트까지 떡하니 띄워주는 개인 비서. 이게 바로 우리가 원하는 AI 에이전트다.
그런데 현재의 AI 모델은 그럴 수 없다. 무언가를 ‘알아서’ 할 수 없기 때문이다. 좀 더 정확히 표현하자면, AI는 ‘생각’하거나 ‘창작’할 수 없다. 철학자 존 설의
사고 실험을 따라가 보자. 우리는 밀폐된 방 안에 갇혀 있다. 방 안에는 중국어 문답집 한 권이 있을 뿐이다. 중국어를 공부한 적 없는 우리는 그 문답집을 봐도 무슨 말인지 알 수 없다. 그런데 방 안으로 질문이 하나 투입된다. 중국어 질문이다. 여전히 무슨 말인지 알 수 없다. 하지만 문답집을 꼼꼼히 찾아보면 그 질문이 있다. 혹은 그 질문과 모양이 비슷하게 생긴 질문이 있다. 해당하는 답을 찾아 베껴 적고 문밖으로 내보낸다. 질문을 던진 사람은 규칙에 맞는 답변을 받았다.
알파고가 대단했던 이유
우리는 질문도, 답변도 이해하지 못했다. 상황의 맥락, 진실 여부 등도 전혀 알지 못한다. 하지만 질문에 답했다. 문답집에 실린 대로 했으니 아마 그럴듯한 답변일 것이다. 존 설은 이 과정이 인간의 ‘생각’과는 거리가 멀다고 주장한다. 현재의 생성형 AI가 주로 채택하고 있는 LLM의 정체다. 말 그대로 거대 ‘언어’ 모델이다. 말을 잘하는 것처럼 보이지만 실제로는 그렇지 않다. LLM은 확률적으로 ‘말이 되는’ 이야기를 만들어 답한다. 상식이나 맥락에 따라 답하는 것이 아니라, 학습한 언어 데이터에 기반해 확률적으로 그럴듯한 답변을 내놓을 뿐이다.
그래서 LLM은 알아서 뭔가를 할 수 없다. 묻지 않은 말에는 답하지 않는다. 시키지 않은 일은 하지 않는다. 말이 되는 답을 내놓으려니 우리가 흔히 ‘환각’ 현상이라 부르는 경우도 발생한다. 곧 대중에 공개될 애플의 ‘인텔리전스’ 또한
이러한 현상에서 벗어나지 못한다. 즉, 쓸만한 AI 에이전트가 탄생하려면 LLM의 한계를 뛰어넘어야만 한다.
그래서 주목받는 것이 AI의 ‘개방성(Open-Endedness)’이다. 개방성은 투명성과는 다른 개념이다. 양 끝단이 열려있다는 뜻이다. 시키지 않아도 일하고, 학습시키지 않아도 알아간다. 즉, 인간이 정의한 한계 안에 머물지 않고, 새롭고 예측할 수 없는 결과나 해결책을 지속적으로 생성하는 능력을 뜻한다. 우리는 이런 AI 모델을 이미 경험한 바 있다. 2016년, 이세돌 9단을 꺾었던 딥마인드의 ‘알파고’가 그 대표적인 사례다. 알파고는 강화 학습과 딥러닝을 통해 학습한 것 이상을 만들어냈다. 바둑 기사들도 본 적 없는 수를 둔 것이다. 개방성의 중요성을 드러낸 역사적인 사건이다.
세계를 배운 AI
지금까지의 AI 모델은 주어진 문제를 해결하기 위해 만들어졌다. 질문에 답하기 위해, 텍스트 프롬프트를 이미지로 구현하기 위해, 단백질 구조 및 결합을 예측하기 위해 설계되었다. 이런 모델들은 문제의 답을 생성(Generate)한다. 특정 분야에 있어서는 인간보다 월등히 빠른 속도를 보여주기도 하고, 환각이 없다면 실수도 하지 않는다. 전통적인 LLM으로 충분히 구현 가능하다. 그러나 인간의 ‘생각’을 뛰어넘지는 못한다. 인간이 차마 떠올릴 수조차 없던 것을 만들어 내놓는 행위, 창작(Create)은 하지 못한다는 얘기다. 그래서 개방성과 사고능력을 강조한, 즉 알아서 생각하고 학습해 창작하는 AI 모델로 방향 전환이 시도되고 있다.
가장 눈에 띄는 움직임은 오픈AI의 o1이다. 학습이 아니라 추론에 방점을 뒀다. 사람이 복잡한 수학 문제를 풀어갈 때와 마찬가지로 주어진 문제를 작은 단계로 나누어 차근차근 풀어나간다. CoT(Chain-of-Thought) 방식이다. 복잡한 문제에 관한 풀이 과정, 즉 추론의 각 단계를 중심으로 훈련하므로 기존의 결과 중심의 훈련 방식과는 다르다. 정답을 외우던 학습 방법에서 문제 풀이 방법을 알아가는 학습 방법으로 바뀐 것이다. 즉, 문제 해결 능력을 갖춘 AI 모델이란 얘기다.
애플이 개발 중인 AI 모델,
‘UI-JEPA’는 스마트폰의 UI를 매개체로 사용자의 의도를 파악하는 것을 목적으로 한다. 메타 AI의 얀 르쿤 수석 과학자가 발표한 ‘자가지도 학습 방식(JEPA, Joint Embedding Predictive Architecture)’을 기반으로 한다. JEPA의 핵심은 ‘월드 모델’이다. 얀 르쿤은 월드 모델을 구축한다는 것이 “세계를 관찰하고 왜 세계가 지금과 같은 방식으로 진화하고 있는지를 이해하는 것”이라고 설명한다. 쉽게 말하자면 이 세계가 인간의 행동으로 인해 어떻게 변화할지, 그 작동 원리와 맥락을 이해하는 것이다. 애플의 ‘UI-JEPA’가 세계를 이해한다면 어떻게 될까. 어머니의 생일이 언제인지 질문한 사용자의 의도를 이해하게 될 것이다. 내 스케줄을 고려해 적당한 레스토랑을 추천하고 어머니의 취향과 나의 통장 잔고에 걸맞은 선물을 골라 구매 사이트까지 떡하니 띄워줄 수 있게 된다. 진정한 AI 에이전트의 시작점이 될 수 있다.
사유
AI의 개방성은 양날의 검이 될 수 있다. 인간에 준하는, 혹은 인간을 뛰어넘는 AI가 시키지도 않은 일을 ‘알아서’ 할 수 있으면, AI는 인류의 통제를 벗어나게 된다. 오늘은 사용자의 의도를 읽고 알아서 어머니 선물을 추천했지만, 내일은 알아서 어떤 일을 할지 알 수 없게 된다. 게다가 AI가 학습된 데이터를 조합해 결과물을 ‘생성’하는 수준이 아니라 인간의 상상력을 뛰어넘는 ‘창작’의 영역까지 진입하게 된다면, AI는 이미 스스로 인식하고 결정하는 존재가 된다. AI가 돈이 되길 원하는 인류는 ‘지능의 폭발’을 원한다. 그리고 공상과학 소설에서 주로 접해왔던, 인간을 뛰어넘는 비인간 존재를 기다린다. AGI(Artificial General Intelligence)다. 이러한 비인간 존재와 우리는 공존할 준비가 되었을까.