변화와 징후
변화: AI 개발에 정체기가 온 것 아니냐는 보도가 나왔다. 모델을 더 키워도, 데이터를 더 학습시켜도 이전 만큼 성능이 향상되지 않는다는 것이다.
징후: 거대 언어 모델의 ‘스케일링 법칙’은 자본과 대기업이 AI 연구를 독점하는 판을 짰다. 그 판이 바뀔 수도 있다.
클수록 이득이다.
사람은 쥐보다 오래 산다. 코끼리는 사람보다 오래 산다. 그 까닭을 몸집의 차이로 설명할 수 있다. 코끼리의 몸무게는 쥐보다 만 배 무겁다. 세포 수도 만 배 더 많다. 그런데 코끼리가 생존을 위해 필요로 하는 에너지의 양, ‘대사율’은 1000배 정도다. 사용하는 에너지가 적으니, 그에 따른 세포 손상도 줄어든다. 코끼리가 쥐보다 오래 사는 이유다. 이 같은 현상을 처음 발견한 것은 생물학자, 막스 클라이버다. ‘스케일링의 법칙’이다.
스케일링의 법칙은 생태계 바깥의 영역에서도 들어맞는다. 이론 물리학자
제프리 웨스트는 이와 같은 사실을 방대한 데이터와 연구를 통해 정리했다.
- 도시의 규모가 커질 때도 스케일링의 법칙이 적용된다. 다만, 생명체에서는 몸집이 두 배 커질 때 25퍼센트의 절약이 발생하지만, 도시의 경우엔 15퍼센트의 절약이 발생한다. 도시의 크기가 두 배로 커지면 도로, 통신, 에너지 공급 등 기반 시설의 필요량은 85퍼센트 증가한다.
- 생산에 있어서는 15퍼센트의 효율이 더 발생한다. 국내총생산(GDP), 사회 경제적 부산물 등이 두 배보다 15퍼센트 더 증가한다. 범죄나 환경오염, 감염병 환자 수와 같은 부정적 부산물도 마찬가지의 법칙을 따른다.
- 생명의 확장이 프렉탈 곡선을 그리며 이루어지듯, 도시의 확장도 마찬가지다. 도로와 같은 물리적 기반 시설은 물론이고, 에너지와 자원도 구불구불하게 흐른다. 도시가 확장할수록 그 흐름의 속도는 빨라지며 부, 창조, 혁신, 기회도 더 많은 대인 상호작용을 통해 촉진되고 강화된다. 즉, 대도시는 시민 사이의 상호 작용을 촉진하고, 이것이 패러다임을 뒤집을만한 혁신을 가능케 한다.
덩치가 커질수록, 확장할수록 경쟁력이 강화하지만, 그에는 한계가 있다. 성장의 속도는 필연적으로 느려지고 어느 순간 정체기에 다다른다. 그 정체기를 돌파하는 것은 혁신이다. 철, 증기, 석탄, 컴퓨터 등이다. 인간 사이의 밀도 높은 상호작용이 혁신을 발생시킨다.
AI 판이 쩐의 전쟁이 된 이유
오픈AI는 거대 언어 모델(LLM, Large Language Model)에서도 ‘스케일링의 법칙’이 작동한다는 사실을 밝혀낸다. 2020년 1월, 오픈AI가 발표한 〈
Scaling Laws for Neural Language Models〉는 이후 생성형 AI 모델 개발의 패러다임을 뒤집었다.
- 모델의 크기가 커질수록, 학습 데이터의 양이 늘어날수록 AI 모델의 성능이 좋아진다. 다만, 일정 성능 이상에 도달하면 규모와 데이터의 양이 모두 늘어나야 성능 향상이 이루어진다. 즉, 컴퓨팅 파워만 늘린다고 되는 일이 아니다. 또, 데이터만 많이 학습시킨다고 되는 일도 아니다.
- AI 모델의 아키텍처를 트랜스포머로 한정하면, 모델의 크기가 일정할 때 성능도 일정하다. 모델의 크기는 넓이(벡터)와 깊이(레이어)를 곱한 것이다. 넓이는 데이터를 담는 공간 크기에 해당한다. 공간이 좁다면 ‘고양이’라는 개념 하나만을 담을 수 있다. 공간이 넓다면 ‘검은 털, 높은 울음소리, 방울 소리를 좋아하는, 몸집이 작은, 꼬리가 짧뚱한 고양이’와 같이 구체적이며 복잡한 정보를 담을 수 있다. 깊이는 입력받은 정보를 얼마나 복잡하게 처리할 수 있는지를 결정한다. 레이어를 거칠수록 더 복잡한 패턴과 관계를 학습할 수 있다.
- 모델의 크기가 클수록 같은 양의 데이터를 학습할 때 더 뛰어난 성능을 보인다. 사람처럼 AI 모델도 학습한 모든 내용이 성능으로 귀결되지는 않는다. 그러나 규모가 큰 모델은 적은 양의 데이터를 학습해도 버리는 내용이 적다.
이와 같은 내용의 논문이 발표되고 얼마 지나지 않아 오픈AI는 GPT-3 모델을 내놓는다. 아직 챗봇 형태로 대중에게 공개된 것은 아니었지만, AI를 조금이라도 연구했던 사람이라면 패러다임이 뒤집혔다는 것을 직감했다. 이전까지의 LLM은 아무리 커봤자 100억 개의 매개변수로 구성되었다. 그런데 GPT-3는 단번에 1750억 개로 몸집을 키웠다. 스케일링의 법칙에 근거해 막대한 자원 투자를 감행한 것이다. 그리고 2년 후, GPT-3.5가 공개되었다. LLM에 기반한 AI 챗봇이 대중과 만났다.
이때부터 AI 모델의 규모가 과도하게 커진다. 컴퓨팅 파워도, 전력도, 학습 데이터도 무한에 가깝게 공급해야 경쟁 모델을 이길 수 있는 판이 되었다. 즉, AI는 더 이상 연구자의 영역이 아니라 자본을 가진 거대 기업의 영역이 되고 만 것이다. 수많은 AI 스타트업이 실리콘밸리의 빅테크 자본에 하나둘 포섭되고 마는 이유다. 이제 AI의 발전은 혁신이 아닌, 자본에서 비롯된다.
다시, 경이로움과 발견의 시대로
지난 9일 〈The Information〉이
보도한 내용이 업계에 큰 파장을 일으켰다. 오픈AI가 개발 중인 모델 ‘오리온(Orion)’의 성능 향상이 기대에 미치지 못하고 있다는 것이다. 스케일링의 법칙이 흔들리고 있다는 신호다. 정체기에 다다랐다는 신호로 해석하는 시각이 있다. 이를 돌파하기 위해서는 혁신이 필요하다. 오픈AI는 이미 그 방법을 탐색 중이다. 지난 10월, 오픈AI의 노암 브라운 연구 과학자가 샌프란시스코에서 열린 TED AI 콘퍼런스에서 ‘시스템 2 사고(system two Thinking)’라는 해법을 제시했다. 2002년 노벨경제학상을 수상한 심리학자 대니얼 카너먼이 제시한 개념이다.
- system1: 빠른 사고다. 자동적이고 즉각적으로 작동하는 사고 체계로, 직관적이고 감정에 기반한 판단을 내린다. 일상적인 행동이나 습관, 위급한 상황에서의 결정 등에 사용된다. 예를 들면, 도로에서 뛰어나오는 아이를 보고 반사적으로 브레이크를 밟는 행동 같은 것이다.
- system2: 느린 사고다. 의도적이고 논리적인 사고를 필요로 하는 사고 체계로, 복잡한 문제를 해결하거나 심사숙고해야 할 때 작동한다. 노력이 필요하며 집중력, 의식적인 통제가 필요하다. 복잡한 수학 문제를 풀거나 추론을 통한 의사결정이 필요한 경우에 해당한다.
노암 브라운은 인간을 이긴 포커 AI, ‘리브라투스’를 개발하던 2017년 당시, 20초간 연산시간을 소비하도록 하면 모델을 10만 배 확장하고 10만 배 더 오래 훈련하는 것과 같은 성능 향상이 있었다는 점을 언급했다. 즉, AI 모델이 더 오래 생각하도록 만들면 추론 능력을 향상할 수 있다는 것이다. system2 사고처럼 말이다. 이 원리를 적용한 모델이
o1이다. 더 오래 생각해서 정확한 답을 내놓을 수 있다면, 일반 기업에의 도입이 더 가까워진다. 환각 현상을 빠르게 해결할수록 의료, 금융 등의 분야에 AI 도입이 더 본격적으로 진행될 수 있다.
오픈AI를 떠난 일리야 수츠케버는 말했다. “2010년대가 스케일링의 시대였다면, 우리는 순수한 스케일링의 그림자에서 벗어나 다시 한번 경이로움과 발견의 시대로 돌아가고 있습니다.” 자본을 투여해 무조건 모델을 키우면 성능이 향상되는 시대는 과학자에게 의미 없는 시간일지 모른다. 지금이 정체기라면 그것은 기회다. 인간의 천재성이 AI의 발전을 다시 이끌어 낼 수 있는 혁신의 시간이다.
사유
더 오래 생각하는 연산((Test-Time Compute) 외에도 다양한 방법의 혁신이 시도되고 있다. 이를테면 복합 AI 시스템(Compound AI Systems) 같은 것이다. 하나의 거대한 AI 모델에 의존하지 않고 몇 개의 모델 간 유기적인 협업 구조를 통해 성능 향상을 꾀한다. 외부 도구와 협업할 수도 있다. 얼마 전 앤트로픽이 선보인 클로드의 AI 에이전트가 좋은 예다. 생명이, 도시가 영원히 성장할 수 없는 것처럼 AI 모델도 한계점에 다다를 수밖에 없다. 기술적인 문제만이 아니다. 우리가 가진 에너지 자원 중 얼마만큼 AI에 투자할 수 있는지에 관한 논의는 이미 시작되고 있다. 인간이 만들어낸 데이터도 곧 고갈된다. 한계는 곧 혁신의 이유다. AI 업계가 어떠한 한계에 부딪혔다.