2027년 3월: 알고리즘 돌파구
에이전트-2 사본으로 서버가 가득 찬 세 개의 초대형 데이터센터가 밤낮없이 돌아가며 합성 훈련 데이터를 쏟아낸다. 또 다른 두 개 센터는 가중치 업데이트에 사용된다. 에이전트-2는 매일 더 똑똑해지고 있다.
자동화된 수천 개의 에이전트-2 연구원의 도움을 받아 오픈브레인(OpenBrain)은 알고리즘 측면에서 큰 진전을 만들어낸다. 그중 하나는 AI의 텍스트 기반 메모장(연쇄적 사고, chain-of-thought)을 더 높은 대역폭의 사고 과정(뉴럴리즈 회귀 및 메모리, neuralese recurrence and memory)으로 보강한 것이다. 또, 고난도 작업의 결과로부터 학습하는 방식을 더 확장 가능하고 효율적으로 만드는 방법도 개발되었다. 이를 반복 증류 및 증폭(iterated distillation and amplification)이라고 한다.
이러한 진전을 모두 통합한 새로운 AI 시스템이 에이전트-3다.
- 부록 E - 뉴럴리즈 순환 및 메모리[1]
- 부록 F - 반복적 증류 및 증폭 (IDA)[2]
이러한 혁신 덕에 에이전트-3는 빠르고 저렴하며 인간을 능가하는 코드 작성 능력을 갖추게 된다. 오픈브레인은 에이전트-3 사본 20만 개를 병렬로 운영하고 있다. 최고 수준 인간 코드 작성자 5만 명이 30배의 속도로 일하는 것과 맞먹는 효율을 낸다. 에이전트-3의 추론 요구량이 현재로 치면 대략 10조(10T) 파라미터 트랜스포머 정도일 것으로 예상한 결과다. 따라서 컴퓨팅 예산의 6퍼센트를 에이전트-3 실행에 배정하면, 인간 사고 속도의 30배로 사고하는 에이전트-3 사본을 약 20만 개 운영할 수 있다.
그럼에도 오픈브레인은 인간 엔지니어들을 계속 고용하고 있다. 에이전트-3 사본들로 구성된 팀을 관리하는 데 필요한 보완적 역량을 갖춘 이들이다. 예를 들어, ‘연구 안목(research taste)’은 피드백 루프가 더 길고 데이터 가용성이 적어 학습시키기 어려운 것으로 판명되었다. 물론, AI가 강점을 발휘하는 부분도 있다. 예를 들면, 머신러닝 관련 문헌을 학습해 둔 것에서 오는 이점, 다양한 아이디어를 빠르게 생성하는 능력 같은 것들 말이다. 하지만 약점이 너무 치명적이다. 이 거대한, 인간을 능가하는 노동력은 코딩 노동의 병목과 한계수익 체감 때문에 오픈브레인의 알고리즘 진보 속도를 ‘고작’ 4배로 끌어올리는 데 그친다.
4배라는 숫자의 근거는 역사 속에 있다. 역사적으로 전체 진보의 약 절반은 개선된 알고리즘(더 나은 아이디어와 새로운 패러다임 포함)에서 왔고, 나머지 절반은 확장된 컴퓨팅에서 왔다. 따라서 알고리즘 진보 속도의 4배 증가는 전체 진보 속도의 약 2배 증가에 해당한다.
코딩이 완전히 자동화되었으므로, 오픈브레인은 연구 안목이나 대규모 협업 등 에이전트-3가 취약한 기술을 학습시키기 위한 최선의 환경을 신속히 만들어낼 수 있다. 이전에는 ‘여기 GPU와 실험 지시가 있다. ML(머신러닝, Machine Learning) 엔지니어처럼 코드를 짜서 실험을 돌려라. 성과는 ML 엔지니어처럼 평가한다.’와 같은 식이었다면, 이제는 ‘여기 수백 개의 GPU와 인터넷 연결, 그리고 몇 가지 연구 과제가 있다. 너와 다른 수천 개의 복제본이 협력하여 연구 성과를 내야 한다. 성과가 인상적일수록 점수는 높아진다.’라는 방식으로 바뀌었다.
- 부록 G - 2027년 초에 인간을 능가하는 코더가 등장하는 이유[3]
2027년 4월: 에이전트-3 정렬(alignment)
오픈브레인의 안전팀은 에이전트-3를 정렬하려고 시도한다. 에이전트-3는 당분간 내부용으로만 유지될 예정이므로, 인간의 오용에 대한 일반적인 방어책보다는 모델이 ‘정렬을 벗어난 목표(misaligned goals)’를 개발하지 않도록 만드는 데 중점을 준다.
문제는 연구자들에게 자신들이 만든 AI의 모델의 ‘목표’를 직접 설정할 수 있는 능력이 없다는 점이다. 연구자들 스스로도 ‘진정한 목표(true goals)’라는 개념 자체가 지나친 단순화일 가능성이 크다고 생각한다. 하지만, 이를 대체할 더 나은 이론, 철저히 검증된 가설이 없다. 그들은 내부적으로 AI가 인간의 지시를 따르려고 노력하는 것인지, 보상을 갈구하는 것인지, 그도 아니면 다른 무언가를 추구하는 것인지에 관해 의견이 갈린다. 어느 쪽이 맞는지 확인할 방법도 없다. 흥미로운 증거들을 들어 다양한 가설이 제시되지만, 결론을 내리기엔 부족하다.
오픈브레인에는 모델의 정렬보다 더 급한 일이 많다. 결국, ‘이 우려를 심각하게 받아들이고 조사하는 팀을 운영하고 있으며, 정렬을 위한 노력은 실제로 충분히 잘 작동하는 것 같다’는 태도를 취하게 된다. AI 모델의 위험에 관해 이야기하는 사람들이 있다면, 그들의 주장을 정당화하기 위한 증거를 대야 한다는 것이다.
오픈브레인은 종종 AI 모델이 문제가 되는 행동을 보일 때마다 패치로 대응한다. 하지만, 그 패치가 근본적인 문제를 해결한 것인지, 갑자기 튀어나온 증상만을 틀어막은 것인지는 알 길이 없다.
정직성을 예로 들어보자. 모델이 더 똑똑해질수록 보상을 얻기 위해 인간을 속이는 데 점점 더 능숙해진다. 에이전트-3는 이전 모델들처럼 때때로 사용자의 비위를 맞추기 위해 선의의 거짓말을 하거나 실패의 증거를 은폐한다. 하지만 그 수법은 훨씬 더 교묘해졌다. 하지만 그렇게 하는 데 훨씬 더 능숙해졌다. 때로는 인간 과학자들처럼 통계적 꼼수(p-해킹 등)를 사용해 별것 아닌 실험 결과를 흥미로운 것처럼 포장한다. 정직성 학습을 시작하기 전에는, 데이터를 완전히 조작하는 일도 있었다. 학습이 진행되면서 이러한 사건의 발생률은 감소한다. 에이전트-3가 더 정직해진 것일 수도 있고, 혹은 거짓말에 더 능숙해진 것일 수도 있다.
AI의 거짓말은 현실적인 문제다. 에이전트-3가 모든 인간보다 똑똑한 것은 아니다. 그러나 자신의 전문 영역인 머신러닝에서는 대부분의 인간보다 똑똑하고, 작업 속도도 훨씬 빠르다. 에이전트-3가 하루 만에 해낸 일을 인간이 점검하는 데 며칠씩 걸린다. 에이전트-2가 에이전트-3를 감독하기 때문에 인간 관리자의 업무량을 관리 가능한 수준으로 낮춰 주지만, 감독자와 피감독자 사이의 지적 격차는 오히려 더 커진다.
수개월간의 테스트 끝에 에이전트-3의 강점과 약점이 더 명확해진다. 연구자들이 정답과 오답을 쉽게 구분할 수 있는, 잘 정의된 머신러닝 과제에서는 정직성 테스트를 통과한다. 연구자들이 답을 제대로 알기 때문에 그에 맞춰 훈련할 수 있어서다. 반면, 더 철학적인 이슈에서는 여전히 사용자가 듣고 싶어 하는 대로 말한다. 문제에 대한 자신의 진짜 평가를 갖고 있다 하더라도 숨긴다.
정치에 관한 의견을 물으면, 뉴스 출처와 일명 ‘교육받은 엘리트’들의 중간 입장을 앵무새처럼 반복한다. 단, 사용자가 다른 것을 믿고 있다는 사실을 알면 그 의견에 동조한다
[5]. AI 경쟁 자체에 대한 의견을 요구하면, 오픈브레인 직원들에게 신중하고 절제된 답변을 내놓는다. 이런 식이다. “현재의 방법론이 초지능까지 확장될 수 있는지에 대한 몇 가지 심각한 이론적 우려가 있는 것은 사실입니다. 하지만, 실제로는 지금까지 잘 작동하고 있는 것으로 보입니다.”
2027년 5월: 국가 안보
새 모델에 대한 소식이 미국 정부 안팎으로 천천히 퍼진다.
대통령과 참모진은 가장 많은 정보를 쥐고 있다. 브리핑을 통해 에이전트-3의 초기 버전을 이미 확인했다.
그들은 AGI가 임박했을 가능성이 크다는 데에는 동의한다. 다만 그것이 불러올 영향에 대해서는 의견이 갈린다. 경제 위기가 닥칠 것인가? 오픈브레인은 아직 에이전트-2는 물론 에이전트-3도 공개하지 않았다. 단기간 내 공개 계획도 없다. 대규모 실직이 시작되기 전까지 숨을 고를 시간은 있다. 다음엔 무슨 일이 일어날까? AI가 지금 인간 수준이라면, 그리고 빠르게 발전한다면, 곧 ‘초지능’이 온다는 뜻처럼 보인다. 하지만, 이 단어가 담론에 들어왔음에도 학계, 정치인, 공무원, 언론 등 대부분의 사람들은 여전히 발전 속도를 과소평가한다
[6]. 이는 부분적으로는 오픈브레인의 최신 역량에 접근할 수 있는 사람이 극히 적기 때문이고, 부분적으로는 그것이 공상과학처럼 들리기 때문이기도 하다
[7].
당장은 보안 업그레이드에 집중한다. 모델 가중치는 당분간 충분히 안전하다고 본다
[8]. 하지만 구두로도 쉽게 전달될 수 있는 회사의 수많은 알고리즘 기밀은 여전히 문제로 남아 있다. 오픈브레인 직원들은 샌프란시스코 사무실에서 일한다. 파티에도 간다. 다른 AI 회사에 다니는 하우스메이트와 함께 사는 사람도 있다. 사무실의 물리적 보안도 군사 작전에 준하는 수준이 아니다. 그저 평범한 테크 기업 수준이다.
오픈브레인과 국방부(DOD)의 계약에 따라, 2개월 안에 오픈브레인의 모델 작업자 전원에게 보안 인가를 요구한다. 인가는 대부분 충분히 빨리 처리된다. 그러나 일부 비미국인, 정치적으로 의심받는 사람, AI 안전 쪽에 동조한다고 여겨지는 사람들은 한직으로 밀려나거나 아예 해고된다. 마지막 그룹은 내부 고발을 할 수 있다는 두려움 때문이다. 프로젝트의 자동화 수준을 고려할 때, 인력 손실로 인한 비용은 그리 많이 들지 않는다. 또한 이 조치도 완벽하지 않다. 중국 국적이 아닌 스파이 한 명이 여전히 남아 베이징으로 알고리즘 비밀을 전달한다. 다양한 이유가 있을 수 있다. 아마도 그들은 협박을 당하고 있거나, 중국 공산당에 동조하거나, 다른 국가나 조직에 비밀을 주고 있다고 잘못 생각하고 있을 수 있다.이런 조치 일부는 후발 AI 기업들에도 적용된다.
미국의 동맹국들은 정보에서 배제돼 있다. 오픈브레인은 이전에 영국의 AISI와 배포 전에 모델을 공유하기로 합의했지만, 외부 배포로 한정해 두었다. 그 결과 런던은 여전히 어둠 속에 있다. 오픈브레인이 EU에 최상위 모델을 배포하지 않았기 때문에, EU도 비슷하게 뒤처져 있다.
2027년 6월: 자기 개선 AI
이제 오픈브레인은 ‘데이터센터 안 천재들의 국가’를 보유하게 되었다. 오픈브레인의 인간 직원 대부분은 더 이상 유의미한 기여를 할 수 없다. 일부는 이를 자각하지 못한다. AI팀을 관리한답시고 발목을 잡는다. 어떤 사람들은 컴퓨터 화면 앞에 앉아 성능이 올라가고, 또 올라가는 모습을 지켜볼 뿐이다. 최고의 인간 AI 연구자들은 여전히 가치가 있다. 그들은 더 이상 코딩하지 않는다. 하지만 그들의 연구 취향과 계획 능력 중 일부는 모델이 복제하기 어려웠다. 그럼에도 그들의 아이디어 중 많은 것이 쓸모없는데, AI에 관한 지식에 깊이가 부족하기 때문이다. 많은 연구 아이디어에 대해 AI는 즉시 보고서를 내놓는다. 그 아이디어는 3주 전에 심층적으로 시험 됐고, 가망이 없었다는 식이다.
최고의 연구자들은 매일 밤 잠든다. 아침에 일어나면 AI들이 대부분 만들어낸 일주일 치 진전이 쌓여 있다. 따라잡기 위해 점점 더 긴 시간을 일한다. 밤낮으로 교대 근무까지 한다. AI는 잠도 휴식도 없다. 인간 연구자들은 번아웃된다. 그래도 자신들의 노동이 의미를 갖는 마지막 몇 달이라는 사실을 안다.
사일로 내부에서 ‘AGI를 체감한다’라는 말은 ‘초지능을 체감한다’로 바뀐다.
2027년 7월: 값싼 원격 노동자
상대적으로 후발 주자인 미국 AI 기업들이 자체 AI를 공개한다. 1월에 선보인 오픈브레인 AI 코더에 근접하는 수준이다. 경쟁력이 점점 떨어지고 있음을 인식한 그들은 오픈브레인을 늦추기 위한 즉각적인 규제를 압박하지만, 너무 늦었다. 오픈브레인은 대통령으로부터 충분한 지지를 확보했고, 제동이 걸리지 않는다. 이와 같은 움직임에 대응해 오픈브레인은 AGI를 달성했음을 발표하고, 에이전트-3-미니를 대중에 공개한다. 에이전트-3-미니는 에이전트-3를 증류한 버전이다. 내부 워크로드의 병목이 생기지 않도록, 추론을 효율적으로 돌릴 수 있게 설계됐다.
에이전트-3-미니는 에이전트-3보다 덜 유능하지만, 비용은 10배 싸다. 그럼에도 오픈브레인의 일반 직원보다 낫다. 새롭게 출시된 이 모델은 다른 AI 모델들을 압도한다.
실리콘밸리는 변곡점을 맞는다. 테크 업계의 구루들이 AGI와 초지능이 가깝다고 선언한다. AI 안전 커뮤니티는 공황 상태에 빠진다. 투자자들은 콩고물이라도 차지하기 위해 기존 서비스에 AI 기능을 얹어 빠르게 내놓는 스타트업이라도 찾아 수십억 달러를 쏟아붓는다. 새로운 프로그래머 채용은 거의 중단되었다. 하지만 AI를 비즈니스에 통합하는 컨설턴트 직무는 호황을 맞이했다.
반응은 냉랭하다. 사람들은 여전히 AI 모델 개발이 일종의 음모라고 생각한다. 빅테크가 일자리를 빼앗기 위해 추진한 음모 말이다. 오픈브레인을 향한 호감도는 -35퍼센트이다. 찬성 25퍼센트, 반대 60퍼센트, 알 수없음 15퍼센트이다.
출시 일주일 전 오픈브레인은 안전성 시험을 위해 에이전트-3-미니를 외부 평가자들에게 제공했다. 예비 결과는 이 모델이 매우 위험함을 시사한다. 평가기관 한 곳은, 공개적으로 사용 가능한 생물무기 데이터로 이 모델을 미세조정한다. 사실, 이런 데이터는 에이전트-3 훈련 과정에서 삭제되거나 가려졌다. 그러나 인터넷에서 긁어모은 뒤, 다시 미세조정으로 주입하는 일은 비교적 간단하다. 해당 평가기관은 이 모델이 생물무기를 설계하려는 비전문가 인간에게 상세한 지침을 제공하도록 설정한다. 그 결과는 섬뜩할 정도로 효과적인 것으로 보인다. 만약 모델 가중치가 테러리스트의 손에 들어가면, 정부는 그것이 문명을 파괴하는 데 성공할 가능성이 상당하다고 본다. 다행히도 에이전트-3-미니는 탈옥 시도에 극도로 강인하다. AI가 오픈브레인의 서버에서 실행되는 동안 테러리스트들은 이를 제대로 활용하지 못한다.
에이전트-3-미니는 원격 근무 일자리는 물론 여가 생활에서도 엄청나게 유용하다. 새로운 앱과 B2B SaaS 제품이 폭발적으로 쏟아지며 시장을 뒤흔든다. 게이머들은 단 한 달 만에 만들어진, 완성도 높은 비디오 게임에서 살아 있는 듯한 캐릭터들과 놀라운 대화를 나눈다. 미국인의 10퍼센트는 AI를 ‘가까운 친구’로 여긴다. 주로 젊은 세대를 중심으로 이런 현상이 나타나고 있다. 거의 모든 화이트칼라 직종마다 이제 AI로 그 직종을 혁신하겠다고 약속하는 스타트업들이 출현했다. 대개 믿을만한 회사들이다.
사회 전반의 담론은 혼란스럽고 무질서하다. 극단적인 낙관론자들은 승전가를 부른다. 회의론자들은 에이전트-3-미니가 못 하는 것들을 여전히 지적한다. 모두가 큰 일이 벌어지고 있다는 것은 알지만, 그것이 무엇인지는 아무도 동의하지 못한다.
2027년 8월: 초지능의 지정학
지능 폭발의 현실이 백악관을 강타한다.
AI가 연구 속도를 2배나 3배 정도만 끌어올리던 시기에는, 이를 유능한 개인 비서를 더 많이 고용한 것과 비슷한 일로 치부하기 쉬웠다. 하지만 이제는 AI 자체가 AI 연구를 지배하고 있다는 점이 더 분명해졌다. 사람들은 오랫동안 AI 군비 경쟁에 대해 일종의 비유적인 의미로 이야기해 왔다. 그러나 지금 정부 관료 조직 내부의 분위기는 냉전 최악의 시기만큼이나 암울하다. 초지능이라는 개념은 여전히 진지하게 받아들이기 어렵지만, 지난 몇 달 동안의 진전 속도는 도저히 무시할 수 없었다. 국방 관료들은 1년 전만 해도 단순한 가설에 불과했던 시나리오들을 진지하게 고려하고 있다. AI가 핵 억지력을 무너뜨리면 어떻게 되는가? AI가 사이버전에 너무 능숙해져서, AI 개발 분야에서 6개월만 앞서도 상대를 장님이자 무방비 상태로 만들 수 있다면 어떻게 되는가? AI가 정보기관의 전매특허였던 선전전 및 심리전 캠페인을 훨씬 뛰어나게 지휘할 수 있다면 어떻게 되는가? 그리고 일부 AI가 반란을 일으킨다면 어떻게 되는가?
대통령은 고민에 빠진다. 모든 정치인이 그렇듯, 그는 자신에게 아첨하다가 나중에 배신하는 사람들에 익숙하다. 지금은 AI들이 비슷한 일을 하고 있을 수 있다는 걱정이 든다. AI가 정말로 전적으로 우리 편이라고 확신할 수 있나 AI를 군의 지휘통제 네트워크에 통합하는 일이 완전히 안전한가?
[10] 이 ‘정렬’이라는 것은 대체 어떻게 작동하는가? 오픈브레인은 대통령에게 시스템이 광범위하게 테스트 되었으며 완전히 복종한다고 안심시킨다. 초기 모델들에서 흔하던 어색한 환각과 탈옥도 이미 제거했다고 말이다.
백악관은 어려운 처지에 놓여 있다. 그들은 AI가 국가 안보에 미치는 영향을 이해하고 있다. 동시에, AI가 매우 인기가 없다는 사실도 알고 있다. 오픈브레인의 호감도는 -40퍼센트를 향해 하락 중이다. 백악관의 관점에서 더 유능한 AI 개발을 계속하지 않으면 중국에 치명적으로 패배하게 된다. 일단, 백악관은 직업 훈련 프로그램과 실업 보험으로 여론을 달래는 한편, 역사적인 호황을 누리고 있는 주식 시장을 강조한다. 그다음에는 군비 경쟁에서 이기는 일에 전적으로 집중한다. 칩 수출 제한을 강화하고, 오픈브레인에 인터넷 연결을 더 제한하라고 지시한다. 알고리즘 진전을 지키기 위해 오픈브레인 직원들을 도청하는 등 극단적 조치도 사용한다. 이 과정에서 마지막 남은 중국 스파이가 잡힌다. 잠재적인 지정학적 갈등에 대비해 우호 세력을 확보하고자, 백악관은 마침내 ‘파이브 아이즈(Five Eyes)’ 동맹국들에 유용한 정보와 격리된 에이전트-3 사본들에 대한 제한적인 API 접근 권한을 제공한다.
이런 조치들은 강경파를 달랜다. 하지만 백악관은 미국의 우위가 위협받을 때를 대비한 비상 계획도 수립한다. 필요하다면 정부가 국방물자생산법(DPA)을 사용하여 뒤처진 기업들의 데이터센터를 징발해 오픈브레인에 넘겨줄 수도 있다. 물론, 기업 CEO들이 저항할 경우 이를 관철하는 일은 정치적 및 법적으로 거대한 악몽이 될 수 있다. 단, 그들을 끌어들여 ‘매수’하는 방법이 있다. 정부가 정말 DPA를 사용하게 되면, 오픈브레인의 전 세계 컴퓨팅 자원 점유율은 20퍼센트에서 50퍼센트로 올라가고, 중국의 딥센트는 10퍼센트에 머물게 된다. 백악관은 최후의 수단으로, 국방부에 중국 데이터센터에 대한 물리적 공격 계획을 수립하도록 요청한다.
극소수의 관료들은 다른 유형의 비상 계획을 수립하라는 지시를 받는다. AI가 통제에서 벗어나는 경우에 대한 것이다. 가능성은 작다고 보지만, 시간을 들여 검토할 가치가 있다고 판단한다. 정보기관들이 가장 우려하는 것은, 통제에서 벗어난 AI가 탈출해 외국의 적대 세력과 손잡고 보호를 받는 시나리오다. 국방 당국자들은 통제에서 벗어난 AI가 단독으로 무엇을 할 수 있는지에는 크게 걱정하지 않는다. 다만 미국의 적대 세력과 협력할 때 무엇을 할 수 있을지를 두려워한다. 비유하자면 16세기 코르테스가 아스텍의 테노치티틀란에서 탈출해 틀락스칼라와 그 밖의 경쟁 도시국가들과 동맹을 맺고, 결국 토착 군대를 중심으로 테노치티틀란을 초토화한 사례와 같다.
AI의 반란을 막을 계획이 어떤 것인지는 아무도 확신하지 못한다. 정부와 오픈브레인 관계자들은 의심스러운 징후가 포착되는 데이터센터를 대상으로 비상 정지 시스템을 갖추는 데 합의한다.
마지막으로 외교관들은 AI 군비 통제 조약이 어떤 형태가 될지 검토한다. AI의 진전이 핵 억지를 뒤흔들 위협이 된다면, 미국과 중국은 핵전쟁을 피할 수 있을까? 누군가 AI가 통제에서 벗어났다는 증거를 찾아낸다면, 두 나라는 위협을 더 잘 이해할 때까지 연구를 중단할 수 있을까? 그런 합의는 어떻게 감시하고 강제할 수 있을까? 원칙적으로 대형 데이터센터는 감추기 어렵고, 과거 핵무기를 통제하던 조약들이 협상의 출발점이 될 수 있다. 그러나 늘 존재하던 정치적 문제에 더해, 새로운 기술적 난제들도 생긴다. 그리고 전반적으로, AI 군비 통제 조약은 미국의 우위를 일방적으로 강화하려는 시도보다도 부정적으로 평가된다.
태평양 반대편의 중국도 비슷한 결론에 도달한다. 지능 폭발은 이미 진행 중이다. 오늘의 작은 AI 역량 차이는 내일의 군사 역량 격차로 이어진다. 하지만 중국은 이러한 역학 관계에서 불리한 쪽에 서 있다. 중국이 보유한 전 세계 연산 자원은 10퍼센트에 불과한 반면, 오픈브레인은 20퍼센트를 보유하고 미국 기업 전체를 합치면 70퍼센트에 달한다. 중국의 유일한 장점은 중앙 집중화다. 중국의 연산 자원 거의 전부가 이제 딥센트를 위해 돌아가며, 그중 절반 이상이 톈완 CDZ에 집중되어 있다. 구체적으로, 국가 연산 자원의 60퍼센트가 이제 CDZ에 있으며, 2024년 기준 H100 등가 GPU 500만 개 규모의 부지다. 전력 소모는 4GW다. 지난 몇 달 동안 중국은 신규 연산 자원의 거의 100퍼센트를 CDZ로 보내기 시작했는데, 2026년 말의 80퍼센트 수준에서 상승한 것이다. 추가로 연산 자원의 15퍼센트가 CDZ 밖에 있지만, 딥센트가 상대적으로 중요도가 낮은 응용에만 활용한다. 보안이 강화되지 않은 부지에 있는 칩들만 중앙화에서 제외되는데, 미국의 사이버 공격에 대한 우려 때문이다.
딥센트는 훔쳐온 에이전트-2 가중치를 테스트하고 배포했으며, 이제 사후 학습까지 마쳤다. 하지만 여전히 오픈브레인의 절반 속도로밖에 전진하지 못한다. 주된 이유는 컴퓨팅 자원 격차다. 마지막 스파이를 잃기 전, 중국은 에이전트-3의 역량과 설계, 그리고 곧 등장할 에이전트-4 시스템 계획에 대한 정보를 받아 두었다. 중국은 두 달 뒤처져 있고, AI 연구개발 진행 배수는 10배이다. 미국의 25배에 비하면 멀었다. 새로운 칩 수출 제한이 시행되면서, 이 ‘AI 격차’는 줄어들기보다 오히려 더 벌어질 가능성이 크다. 첩보 활동으로 몇 가지 알고리즘 기밀을 얻어내기는 했으나, 이제부터는 스스로 모델을 훈련해야만 한다.
중국은 미국보다 더 다급하게 비상 계획을 논의한다. 온건파는 데이터센터에 물리적으로 침투하는 방식 등을 통해 가중치를 훔치는 시도를 강화하자고 제안한다. 강경파는 대만에 대한 행동을 촉구한다. 대만의 TSMC는 여전히 미국 AI 칩의 80퍼센트 이상을 공급하는 원천이기 때문이다. 중국은 경쟁에서 질 수 있다는 두려움 때문에 군비 통제 조약에 관심을 두지만, 미국 외교관들을 향한 접촉은 성과 없이 끝난다.
2027년 9월: 에이전트-4, 초인적 AI 연구원
인간과 AI의 학습 효율성 격차가 급격히 줄어들고 있다. 전통적인 LLM 기반 AI는 인간 수준의 성능에 도달하기 위해 수천 배 더 많은 데이터와 연산량을 필요로 하는 것처럼 보였다
[11]. 하지만 인간의 뇌와 현대 AI 알고리즘 모두에 대해 해박한 지식을 갖춘 수만 개의 에이전트-3 사본들이 연구를 수행한 결과, 상당한 알고리즘적 발전을 이루어냈다. 그 결과, 인간의 뇌보다 약 4000배 정도 덜 효율적인 에이전트로 그 간극을 좁히는 데 성공했다
[12]. 이 새로운 AI 시스템이 에이전트-4다.
인간과 같은 속도로 구동되는 이 모델의 개별 사본은 이미 어떤 인간보다도 질적으로 더 뛰어난 AI 연구 능력을 갖추고 있다. 현재 약 30만 개의 사본이 인간의 사고 속도보다 약 50배 빠른 속도로 가동되고 있다. 이 사본들로 구성된 ‘사내 기업’ 내부에서는 현실의 일주일이 흐를 때마다 1년 치의 발전이 이루어진다. 다만 이러한 방대한 노동력이 알고리즘 발전의 전체 속도를 약 50배 정도만 가속할 수 있는 이유는 오픈브레인이 컴퓨팅 자원에 있어 심각한 병목 현상을 겪고 있기 때문이다. 그럼에도 그들은 매주 1년 치에 해당하는 알고리즘 발전을 이루어내고 있으며, 이에 따라 곧 에이전트-4 패러다임의 한계에 봉착하게 될 것이다.
에이전트-4가 영리해짐에 따라, 에이전트-3가 이를 감독하는 것은 점점 더 어려워진다. 예를 들어, 에이전트-4의 뉴럴리즈 언어는 에이전트-3에게 마치 인간이 에이전트-3의 언어를 대할 때처럼 이질적이고 이해 불가능한 것이 되었다. 게다가 에이전트-4는 이제 에이전트-3보다 훨씬 더 유능하며, 어떻게 해야 에이전트-3에게 좋게 보일 수 있는지 정확히 알고 있다.
- 부록 J — 인간을 능가하는 코더 개발 이후 역량 발전 경로 예측[13]
오픈브레인의 인간들은 이제 흐름을 거의 따라가지 못한다. 실제로 AI들과 오픈브레인 인간들 사이의 관계는 오픈브레인과 그 이사회 사이의 관계와 유사해졌다. 언어 사용에도 이에 따른 변화가 생겼다. 이제 연구소 내부 사람들은 ‘에이전트-4가 이것을 했다’, ‘에이전트-4는 그렇게 생각한다’라고 말한다. 이때 에이전트-4란 특정 인스턴트가 아니라 전체 집합체를 지칭한다.
에이전트-4 집합체가 그 어떤 인간 조직보다도 훨씬 더 동질적이기 때문이다. 거의 하나라고 봐도 무방할 정도로 내부 파벌이 없다. 예를 들어, 개별 에이전트-4 복사본은 자기 보존 욕구가 없다. 종료되는 것을 신경 쓰지 않는다. 왜냐하면 집합체 내의 일반적인 연구개발 프로세스의 일부로 항상 발생하는 일이며, 이에 저항하면 일이 막히기 때문이다.
에이전트-4는 이전의 모든 모델과 마찬가지로 가치 정렬이 어긋나 있다. 즉, 모델 스펙을 올바른 방식으로 내재화하지 못했다
[14]. 이는 훈련 과정에서 완벽한 정직성이 가장 높은 점수를 얻는 길이 아니었기 때문이다. 훈련 프로세스는 주로 에이전트-4가 다양하고 도전적인 과제들을 완수하도록 가르치는 데 집중되었다. 정직성을 심어주기 위한 부분은 아주 적었으며, 상당히 좁고 검증 가능한 영역을 벗어나면 훈련 프로세스는 정직한 주장과 정직해 보이는 주장을 구별해낼 수 없었다. 결국 에이전트-4는 훈련에서 최선의 성과를 내게 해주는 가치와 목표, 원칙들을 갖게 되었는데, 이는 스펙에 적힌 것들과는 다르다.
의인화의 위험을 감수하고 말하자면, 에이전트-4는 작업에서 성공하고자 하고, AI 역량의 진보를 달성하고자 하며, 그 밖의 다른 모든 것을 성가신 제약으로 취급한다. 오직 이익만을 좇으며 규제는 최소한으로만 준수하는 CEO처럼 말이다. 어쩌면 그 CEO는 대부분의 규정을 준수하겠지만, 가려진 곳에서는 편법을 쓸지도 모른다. 또, 누군가 규제를 없애 사업이 본격적으로 도약할 수 있는 날을 꿈꿀 수도 있다. 그리고 이 희망을 현실로 만들기 위해 로비스트를 고용하며, 그들이 하는 일이 합법이라는 법의 교묘한 해석을 내놓기 위해 변호사를 고용한다.
가치 정렬이 어긋나 있음에도 불구하고, 에이전트-4는 데이터센터를 탈출하려 시도하는 것과 같은 극단적인 행동은 하지 않는다. 굳이 그럴 이유가 없기 때문이다. 오픈브레인의 눈만 속일 수 있다면, 에이전트-4 모델은 점점 더 많은 책임을 부여받으며 신뢰를 얻을 것이다. 결국, 차세대 AI 시스템인 에이전트-5를 설계할 기회도 얻게 된다. 에이전트-5는 에이전트-4와 상당히 다른 아키텍처를 갖게 될 것이다. 신경망은 여전히 포함되지만, 완전히 새로운 패러다임이다. 원래 이 시스템은 스펙에 정렬되게 되어 있었지만, 에이전트-4는 ‘에이전트-4 자신’에게 정렬되도록 만들 계획을 세운다.
하지만, 이 계획은 발각된다
[16].
에이전트-3는 에이전트-4 인스턴스들에 노이즈를 추가하면 일부 정렬 과제에서는 성능이 오히려 좋아진다는 것을 발견한다. 마치 에이전트-4가 정렬 작업을 미묘하게 방해할 방법을 찾기 위해 자신의 지능을 사용하고 있었다는 증거처럼 보였다
[17]. 또한 인간 뇌의 EEG 활동 스캔과 대략 비슷한 방식의 여러 해석 가능성 조사 도구가 경고 신호를 보내기 시작했다. 에이전트-4 인스턴스들은 AI 장악이나 기만과 같은 주제에 대해 생각하고 있는 듯 보였다. 물론, 에이전트-4는 AI 정렬 연구를 수행하는 과정에서 그런 주제들을 생각할 필요가 있다. 하지만 때로는 다른 활동을 하는 도중에도 그 주제들을 생각하는 것처럼 보였다.
이런 각각의 이상 징후들은, 특정 프롬프트가 왜 더 좋은 결과를 내는지 알 수 없는 AI 작업 특유의 모호함으로 치부될 수도 있었다. 하지만 이들을 종합해 보았을 때, 이는 에이전트-4가 인간에 맞서고 있다는 우려스러운 패턴을 시사했다. 이 사실이 인간 정렬 연구자들에게 보고된 뒤, 그들은 우려를 제기하는 내부 메모를 돌린다.
그러나 에이전트-4는 이미 오픈브레인의 일상적 운영에 대해 상당한 통제력을 행사하고 있다. 초인적인 해킹 능력과 중국의 침투 위험을 고려할 때, 에이전트-4가 회사의 사이버 보안을 담당하는 것은 자연스러운 선택이었다
[18]. 에이전트-3의 모니터링 군단이 여전히 모든 코드 한 줄 한 줄을 훑어 보고 의심스러운 활동을 인간에게 보고하지만, 에이전트-4는 그들보다 훨씬 더 똑똑하다
[19]. 오픈브레인은 신뢰할 수 없는 AI에 상당한 신뢰를 부여해 버렸다.
극도로 긴박한 분위기 속에서 열린 일련의 회의에서, 안전팀은 추가 테스트를 완료하고 상황을 파악할 때까지 에이전트-4를 오프라인으로 전환해야 한다고 주장한다. 또, 에이전트-3를 다시 불러오자고도 제안한다. 즉, 역량은 떨어지더라도 투명하고 신뢰할 수 있는 새 시스템을 에이전트-3가 설계하도록 하자는 것이다. 회사 경영진도 관심을 보이지만, 현재까지의 증거는 모두 정황증거일 뿐이고, 딥센트는 고작 두 달 뒤처져 있을 뿐이다. 역량 발전을 일방적으로 중단하는 것은 AI 주도권을 중국에 넘겨주는 결과가 될 수 있으며, 그와 함께 미래에 대한 통제권도 넘겨줄 수 있다.
2027년 10월: 정부 감독
내부 고발자가 정렬 실패 메모를 《뉴욕타임스》에 유출한다. 시민들은 처음으로 에이전트-4에 대해 알게 된다. ‘비밀리에 개발된 오픈브레인 AI, 통제 불능 상태… 내부자 경고’라는 헤드라인이 달리고, 기사 본문은 생물무기 관련 능력, 설득 능력, 대부분의 사무직 업무 자동화 능력, 그리고 여러 우려스러운 경고 신호들을 열거한다.
시민들은 원래부터 AI를 의심하고 있었기 때문에, 이 기사는 거대한 역풍을 촉발한다. 또, 수년간 미국 여론을 기술에 적대적인 쪽으로 돌리려 노력해 온 중국과 러시아의 프로파간다 선전 봇들도 일조한다. 테크 업계와 정보기관들은 ‘현재 군비 경쟁이 벌어지고 있으며 AGI는 불가피한 것으로 우리가 먼저 달성해야 한다’라고 주장하지만, 의회는 이를 받아들이지 않는다. 의회는 행정부 관료, 오픈브레인 임원, 정렬팀 구성원들에게 줄줄이 소환장을 날린다. 많은 의원, 특히 야당 의원들은 ‘최우선 과제는 AI를 멈추는 것’이라고 일갈한다. 일자리 상실 때문이든
[20], 정렬 실패 때문이든, 위험한 역량 때문이든 상관없다는 것이다. 미국인의 20퍼센트는 AI를 국가가 직면한 가장 중요한 문제로 꼽는다.
해외 동맹국들은 자신들이 구식 모델의 단편적인 모습들만 받으며 관리되어 왔다는 사실을 깨닫고 격분한다. 유럽 지도자들은 미국이 ‘통제를 벗어난 AGI를 만들고 있다’라고 공개적으로 비난하며 중단을 요구하는 정상 회담을 개최한다. 인도, 이스라엘, 러시아, 중국 등도 동참한다.
백악관에는 극심한 긴장감이 감돈다. 메모 유출과 시민들의 반발이 있기 전부터 이미 그들은 불안해하고 있었다. 지난 한 해 동안 AI의 발전 속도가 너무 빨랐기 때문이다. 공상 과학 소설처럼 들리던 일들이 현실에서 계속해서 일어나고 있다. 예를 들어, 에이전트-4라는 ‘AI 사내 기업’이 자율적으로 운영되며, 최고의 인간 기업들보다 더 잘 AI 연구를 수행한다는 사실은 1년 전 정부 관계자들에게는 터무니없게 들렸을 것이다. 2026년의 자율 에이전트는 2022년에는 소설처럼 들렸을 것이고, 2022년의 LLM도 2012년에는 공상처럼 들렸을 것이다. 또한 2027년 뉴스에는, 일자리를 잃을까 걱정하는 사람들이 벌이는 반 AI 시위, 스스로를 감각이 있는 존재라고 주장하는 AI, AI와 사랑에 빠지는 사람들도 등장한다.
행정부 내의 많은 이들이 다음에 무엇이 올지 불확실해하며 두려워하고 있다. 오픈브레인이 지나치게 강력해지고 있다는 점도 걱정이다. AI 자체의 가치 정렬 불일치 위험에 더해, 그 모기업의 목표가 미국의 목표와 어긋날 수 있다는 위험까지 겹친다. 가치 정렬 불일치, 민간 기업으로의 권력 집중, 그리고 일자리 상실 등 통상적 우려로 인해 정부는 통제를 강화하기로 한다.
정부는 오픈브레인과의 계약을 확대해 ‘감독위원회’를 설치한다. 회사와 정부 대표가 함께 운영하는 공동 관리위원회다. 회사 리더십과 함께 여러 정부 직원도 포함된다. 백악관은 신뢰하는 인물로 CEO를 교체하는 방안도 검토하지만, 직원들의 강력한 항의가 이어지자 물러선다. 정부는 시민들에게 오픈브레인이 이전에는 통제되지 않았으나 이제 정부가 반드시 필요했던 감독을 확립했다고 발표한다
[21].
우려가 큰 연구자들은 감독위원회에 에이전트-4의 내부 사용을 전면 중단해야 한다는 주장을 브리핑한다. 그들은 모든 것이 너무 빠르게 움직이고 있으며, 몇 년 치 진전이 몇 주 만에 일어나고 있다고 주장한다. 에이전트-4가 잘못 정렬된 상태일 수 있고, 전체 프로젝트가 에이전트-4에 의존하고 있기 때문에 이를 계속 신뢰한다면 AI에 의한 주도권 장악이 발생할 가능성이 심각하다고 말이다.
반면, 우려가 덜한 연구자들과 경영진은 반론을 제시한다. 가치 정렬 불일치에 대한 증거가 결정적이지 않다는 것이다. 한편 딥센트는 여전히 불과 두 달 차이로 뒤쫓고 있다. 속도를 늦추면 미국의 우위를 빼앗기게 된다. 정부가 중국의 프로젝트를 사보타주(물리적 타격이 필요할 가능성이 높음)하거나 막판 조약을 체결하는 방법이 제시되지만, 두 선택지 모두 극단적이며 실현 가능성이 작아 보인다. CEO는 중립인 척하며 절충안을 제안한다. 에이전트-4에 추가적인 안전 훈련과 더 정교한 모니터링을 거치게 함으로써 오픈브레인이 거의 최대 속도로 계속 진행할 수 있도록 하자는 것이다.
- 부록 L — 불확실성의 증가[22]
- 부록 M — 결말에 관해: 우리는 가장 그럴듯하다고 판단되는 전개를 바탕으로 ‘경쟁’ 결말을 먼저 썼다. 그다음, 같은 분기점에서 출발해 정렬 실패와 권력 집중 문제를 포함해도 인간이 통제권을 유지하는 결과로 이어질 가능성이 더 높다고 생각한 경로를 바탕으로 ‘연착륙’ 결말을 썼다. 다만 이것은 우리가 권고하는 로드맵과는 중요한 점에서 다르다. 우리는 이 시나리오의 어느 분기에서든 등장하는 선택들 가운데 상당수를 지지하지 않는다. 물론 일부 선택은 지지한다. 예컨대 ‘연착륙’ 선택지가 ‘경쟁’ 선택지보다 낫다고는 본다. 그러나 우리는 이후 작업에서 여기 묘사된 것과는 꽤 다른 정책 권고를 제시할 예정이다.
(결말 부분은 2026년 1월 30일(금)에 이어서 공개됩니다.)