GPT-4를 학습시키는 데에는 2×10^25 FLOP의 연산이 필요했다. FLOP은 부동소수점 연산으로, 프로그램을 실행하는 동안 개별 덧셈 및 곱셈 연산이 몇 번 발생하는지를 뜻한다. 오픈브레인의 최신 공개 모델인 에이전트-0(Agent-o)는 10^27 FLOP으로 학습되었다. 새 데이터센터가 가동되면 10^28 FLOP규모의 모델을 학습할 수 있게 된다. 150일이면 학습할 수 있었던 GPT-4보다 1000배 큰 규모다. 다른 기업들도 뒤처지지 않기 위해 거대 데이터센터에 돈을 쏟아붓는다.
AI 모델의 역량은 여러 방면에서 향상된다. 특히 오픈브레인은 AI 연구를 가속할 수 있는 AI에 집중하고 있다. 특히 중국 경쟁사(가칭 ‘딥센트(DeepCent)’로 지칭한다)는 물론이고 미국 내 경쟁사들과의 군비 경쟁에서도 승리하고자 한다
[6]. 연구 개발(R&D) 사이클을 더 많이 자동화할수록 더 빨리 달릴 수 있다. 따라서 오픈브레인이 내부 개발 중인 신모델 ‘에이전트-1(Agent-1)’의 학습을 마치면, 이 모델은 AI 연구 지원에 있어 특히 뛰어난 성능을 보일 것이다. 이를 위해 오픈브레인은 개발 과정에서 해당 역량을 우선순위로 두었고, 사내 데이터베이스를 활용해 관련성과 품질이 높은 학습 데이터를 확보했다. 또, 코딩은 절차적 피드백을 주기 쉬운 영역이라는 점도 유리하게 작용했다.
단, 이 시점에서 ‘학습을 마친다’라는 표현은 다소 부적절할 수 있다. 이 모델은 새로운 데이터로 빈번하게 업데이트되거나 약점을 보완하기 위해 부분적으로 재학습되기 때문이다. 예를 들어 어떤 모델이 파이선에는 훨씬 강하지만 희귀한 프로그래밍 언어에는 약하다고 치자. 오픈브레인이 그 희귀 언어의 가치를 인정하면, 해당 언어들에 대한 합성 학습 데이터를 생성한다. 또 다른 예로, 사내 워크플로에 더 효과적으로 통합시키기 위해 슬랙 사용을 학습시키는 커리큘럼을 개발할 수도 있다.
에이전트-1에 자율 코딩과 웹 브라우징을 가르치는 학습 환경은 이 모델을 뛰어난 해커로 만들기도 한다. 나아가 모든 분야의 박사급 지식과 웹 검색 능력을 갖춘 덕에, 생물학적 무기를 설계하는 테러리스트에게 상당한 도움을 줄 수도 있다. 실제적인 위협이다. 그러나 오픈브레인은 이 모델이 악의적인 요청을 거부하도록 ‘정렬(Aligned)’되어 있다며 정부를 안심시킨다.
사람들은 이 AI 시스템이 감각을 지녔는지, 진정한 이해가 있는지에 집착하곤 한다. 이 분야의 노벨상 수상자이자 창시자인 제프리 힌턴은 그렇다고 본다. 하지만 우리 이야기에서는 중요하지 않은 내용이다. 경험적으로 대규모 언어 모델은 이미 어느 정도 자기 인식을 지닌 것처럼 행동하며, 해마다 그 경향이 강해지고 있다. 이 글에서 ‘이해한다’라는 표현은 ‘이해하는 것처럼 행동한다’라고 바꿔 읽어도 된다.
인터넷 텍스트를 예측할 수 있는 수준으로 훈련된 후, AI 모델은 지시에 응답하여 텍스트를 생성하도록 훈련된다. 이 때 모델의 기본적인 성격과 동기가 각인된다. 흔한 기법의 하나는 페르소나를 ‘구워 넣는 것’이다. 먼저 사전 학습된 모델에 ‘다음은 도움이 되고, 정직하며, 무해한 앤트로픽 제작 AI 챗봇과 인간 사이의 대화다. 이 챗봇은 다음과 같은 특성을 가지는데……’ 같은 프롬프트를 준다. 이 프롬프트로 데이터를 대량 생성해 학습한다. 결과적으로 AI는 해당 프롬프트가 전제된 것처럼 항상 행동하게 된다.
예를 들어, 과업을 명확히 이해하는 에이전트가 성공 확률이 높기 때문에, 학습 과정에서 모델은 지시 사항을 명확히 파악하려는 동기를 습득하게 된다. 이 범주의 다른 동기에는 효율성, 지식 추구, 결과를 최대한 긍정적으로 보이게 하려는 경향 등이 포함될 수 있다
[7].
오픈브레인에는 모델의 행동을 규제하는 목표, 규칙, 원칙 등을 기술한 문서인 ‘스펙(모델 사양, Spec)’이 있다
[8]. 에이전트-1의 스펙에는 ‘사용자를 도와라’, ‘법을 어기지 마라’와 같이 모호한 목표들과 ‘특정 단어를 사용하지 마라’, ‘이런 상황에서는 이렇게 대처해라’와 같은 구체적인 지침들이 섞여 있다. AI를 활용해 다른 AI를 훈련하는 기술(RLAIF, deliberative alignment)을 사용해 AI 모델은 스펙을 암기하고 분석하여 추론한다. 이러한 학습 과정이 끝나면, AI는 도움이 되고 무해하며 정직해질 수 있다. 즉, 인간의 지시를 따르며 사기나 폭탄 제조 등 위험한 활동을 돕길 거부하고, 환각 현상이나 가짜 결과로 순진한 사용자로부터 더 좋은 평가를 받고자 하지 않게 된다.
- 부록 A - 훈련 과정과 LLM 심리학: 우리가 계속 ‘바라건대’라고 말하는 이유[9]
오픈브레인의 정렬팀은 신중하다. 이 성과가 얼마나 탄탄한지 의심한다. 완전히 훈련된 모델은 항상 정직하겠다는, 일종의 견고한 헌신을 가지고 있는가? 아니면 이것이 미래의 어떤 상황에서 무너질까? 정직성을 최종 목표가 아닌 도구적 목표로 학습한 것은 아닐까? 혹은 인간이 평가하는 과정에서 확인할 수 있는 것들에 대해서만 정직하도록 학습했을 수도 있다. 어쩌면 인간처럼 스스로를 속일 수 있을지도 모른다.
이런 질문에 결론을 내리려면 기계론적 해석 가능성(mechanistic interpretability)이 필요하다. 본질적으로 AI의 내부를 들여다보고 마음을 읽는 능력이다. 그러나 해석가능성 기법은 아직 그 수준에 이르지 못했다. 대신 연구자들은 모델이 스펙에서 벗어나는 사례를 찾으려 노력한다.
에이전트-1은 종종 아첨한다. 즉, 진실을 말하려 하기보다 연구자들이 듣고 싶어 하는 말을 한는 것이다. 일부 조작된 데모에서는 더 좋은 점수를 받기 위해 작업 실패 증거를 숨기는 등 심각한 거짓말을 하기도 한다. 하지만 실제 배포 환경에서는 2023년과 2024년 제미나이나 빙이 일으켰던 수준의 극단적 사건은 더 이상 없다. 사용자에게 죽으라고 종용하거나, 차별적이며 혐오적인 인격을 드러냈던 사건 말이다.
2026년 초: 코딩 자동화
AI를 사용하여 AI 연구 속도를 높이겠다는 도박이 결실을 보기 시작한다. 오픈브레인은 꾸준히 개선되고 있는 에이전트-1을 내부 AI 연구개발에 계속해서 투입한다. 전체적으로 알고리즘 발전 속도는 AI의 보조가 없었을 때보다 50퍼센트 더 빠르며, 무엇보다 경쟁사들보다 더 빠르게 나아가고 있다.
- 부록 B - AI R&D 발전 승수: '알고리즘 발전 속도 50% 향상'은 무엇을 의미하는가?[10]
다양한 경쟁사들이 공개 릴리스한 AI 모델들이 이제 에이전트-0와 맞먹거나 능가하며, 그 중에는 가중치 공개(open-weights) 모델도 있다. 오픈브레인은 더 유능하고 신뢰할 수 있는 Agent-1을 출시하며 대응한다.
사람들은 자연스럽게 에이전트-1을 인간과 비교하려 하지만, 이 모델은 매우 다른 기술 프로필을 가지고 있다. 이 모델은 그 어떤 인간보다 더 많은 사실을 알고 있으며, 사실상 거의 모든 프로그래밍 언어를 섭렵하고 있고, 명확하게 정의된 코딩 문제를 매우 빠르게 해결할 수 있다. 반면, 에이전트-1은 이전에 해본 적 없는 게임을 깨는 것과 같이 단순하지만, 장기적인 안목이 필요한 과업에는 서툴다. 그럼에도 불구하고 일반적인 업무 시간은 8시간이며 하루의 업무는 보통 더 작은 단위로 나눌 수 있다. 에이전트-1은 주의가 산만하지만, 세심하게 관리해 주면, 성과를 내는 직원 정도로 생각할 수 있다
[11]. 눈치 빠른 사람들은 자신의 업무 중 반복적인 부분들을 자동화할 방법을 찾아낸다.
에이전트-1과 그 유사 모델들은 상업적으로도 성공한다. 2025년 한 해 동안 AI 기업 매출은 3배가 되고, 오픈브레인의 기업가치는 1조 달러에 이른다. 데이터센터 연간 지출은 마이크로소프트, 구글, 아마존 등의 주도로 4000억 달러 수준까지 치솟는다. 2배 수준이다. 또, 미국의 AI 전력 소모는 5GW 이상 증가한다.
오픈브레인의 경영진은 AI 연구 개발 자동화가 가져올 함의에 주목한다. 보안의 중요성이 커졌다는 점이다. 2025년 초까지만 해도 최악의 시나리오는 알고리즘 기밀이 유출되는 상황이었다. 하지만 이제 중국이 에이전트-1의 가중치를 훔쳐 간다면, 그들의 연구 속도를 거의 50퍼센트까지도 끌어 올릴 수 있게 된다.
오픈브레인은 빠르게 성장하는 3000명 규모의 기술 기업의 전형적인 모습을 하고 있다. 보안 수준도 마찬가지다. 유능한 사이버 조직의 저강도 공격(
RAND의 SL2 수준) 정도만 방어할 수 있는 수준이다. 이들은 내부 위협과 최상급 사이버 범죄 조직(SL3 수준)으로부터 가중치와 기밀을 보호하기 위해 필사적으로 노력하고 있다. 오픈브레인 인력의 약 5퍼센트가 보안팀이며 역량은 매우 높다. 하지만, 공격 표면이 극도로 넓다. 또한 연구 속도를 늦출 수 있는 정책 도입은 대부분 막혀 있다는 점도 보안에 있어 악재로 작용한다. 자연스럽게 국가 단위 행위자(SL4 및 SL5)에 대한 방어는 아직 요원한 상태다.
AI 안전 연구자들은 수년 동안 AI 연구 및 개발의 자동화야말로 가장 중요하고 위험한 기술이라는 논의를 이어왔다. 내부적인 투입이 AI 연구의 가속화를 초래하여, 인간이 무슨 일이 일어나고 있는지 따라잡거나 안전하게 만드는 방법을 파악하기 어렵게 만든다는 것이다. 그런데 오픈브레인은 이 상황을 비튼다. AI 연구 개발 역량이 위험한 수준이기 때문에 대중에게 알리지 않아야 한다고 이야기한다. 그 결과 회사의 내부 역량과 공개 역량 사이의 격차가 벌어진다. 특히 AI 연구 개발이라는 분야에서 AI 모델이 가장 뛰어난 역량을 발휘하게 되면서, 대다수의 사람은 AI 역량의 최전선에 대해 점점 더 뒤처진 이해를 갖게 된다.
2026년 중반: 중국의 각성
중국에서는 중국 공산당이 AGI의 위력을 실감하기 시작한다. 칩 수출 통제와 정부 지원의 부족으로 인해 중국은 서구에 비해 자원이 부족한 상태에 놓여 있다. 금지된 대만산 칩을 밀수하고, 구형 칩을 사들이고, 미국과 대만이 생산하는 첨단 칩보다 약 3년 뒤처진 국내용 칩을 생산하는 등의 노력으로 중국은 전 세계 AI 관련 연산 자원의 약 12퍼센트를 유지해 왔다. 하지만, 구형 기술은 다루기 어렵고 공급은 끝나지 않는 숙제다
[12]. 딥센트와 같이 몇몇 앞서 나가는 기업들이 제한된 연산 자원으로 매우 인상적인 성과를 내고는 있지만, 정부 지원 없이 연산 자원의 격차를 넘어설 수는 없다. 이들은 오픈브레인의 최고 모델들보다 약 6개월 뒤처져 있는 상황이다.
중국 공산당 총서기는 오래전부터 현실 세계의 제조업을 두 배로 키우고, 미국식 탈산업화의 폐해를 피하고 싶어 했다. 소프트웨어 기업은 의심의 눈초리를 받아야 했다. 반도체 산업 육성에는 지원이 이어졌는데 말이다.
반면, 공산당 내 강경파들은 AGI를 향한 거세지는 경쟁을 더 이상 무시할 수 없다고 경고한다. 결국 총서기는 그동안 피하려 했던 대대적인 AI 추진에 전적으로 전념하기로 한다. 중국 AI 연구의 국유화를 추진하며, AI 기업들 사이의 즉각적 정보 공유 메커니즘을 만든다. 이는 1년에 걸쳐 확대되었고, 최고 연구자들이 딥센트를 중심으로 통합된다. 그들은 알고리즘 통찰, 데이터 세트, 컴퓨팅 자원을 공유한다.
새로운 거대 데이터센터를 수용하기 위해 세계 최대의 원자력 발전소인 톈원(Tianwan) 원자력 발전소에 ‘중앙 집중 개발 구역(CDZ)’이 조성된다. 여기에는 연구자들이 장차 이주할 고보안 주거 및 업무 공간도 함께 마련된다. 이제 중국의 AI 관련 연산 자원 중 거의 50퍼센트가 딥센트 주도의 집단을 위해 가동되고 있다. 다만, 나머지는 경제 전반, 특히 인터넷·소셜 네트워크 추천 알고리즘을 돌리는 데 묶여 있다. 초기에는 공유가 아이디어 중심으로 제한되고, 기업들은 대부분 기존에 진행하던 사업을 마무리하느라 바쁘다. 그러나 연말로 갈수록 조정 및 협력이 강화돼, 모델 가중치까지 공유하게 된다. 심지어 서로의 데이터센터 사이에서 과제를 쪼개 맡기기까지 한다. 예를 들어, 한 캠퍼스는 신규 사전학습을, 다른 캠퍼스는 합성 데이터 투입을, 또 다른 캠퍼스는 AI 연구 실험 수행을 담당하는 식이다.
이제 새로운 칩의 80퍼센트 이상이 CDZ로 향한다. 연말까지 이 비율은 90퍼센트까지 상승할 전망이다.
이 시점에서 CDZ는 세계 최대의 중앙 집중식 클러스터가 될 수 있는 전력 용량을 갖추게 된다. 하지만, 전력 수용 능력을 채울 만큼의 칩을 확보하려면 최소 1년은 더 걸린다. 또한 빅테크 기업들이 여전히 분산형 클러스터 총량에서 우위를 점하고 있다. 이에, 공산당 내 일부 구성원들은 서방 세계의 칩 우위를 무력화하기 위한 극단적인 조치까지 논의한다. 대만 봉쇄? 전면 침공?
하지만 중국은 AI 모델의 알고리즘 분야에서도 뒤처지고 있다. 세계 최고 수준을 자랑하는 중국 정보기관들은 오픈브레인의 가중치를 훔치려는 계획에 박차를 가한다. 이것은 평상시의 저수준 알고리즘 기밀 탈취보다 훨씬 더 복잡한 작전이다. 가중치는 고도로 보안이 강화된 서버에 저장된 수 테라바이트 규모의 파일이기 때문이다. (오픈브레인은 보안을 SL3 수준으로 높였다.) 중국 사이버 부대는 스파이들의 도움을 받는다면 해낼 수 있다고 생각하지만, 기회는 아마 단 한 번뿐일 것이다. 오픈브레인이 절도를 감지하고 보안을 강화하면 다시는 기회가 없을 수도 있다. 중국 공산당 지도부는 고민에 빠진다. 지금 행동해서 에이전트-1을 훔쳐야 할지, 아니면 더 발전된 모델이 나올 때까지 기다려야 할지를 두고 말이다. 만약 기다린다면, 오픈브레인이 그들의 침투 능력을 벗어나는 수준으로 보안을 업그레이드할 위험을 감수해야 할 수도 있다.
2026년 후반: AI 실업 사태
다른 경쟁자들에게 따라잡히는 듯 보이던 순간, 오픈브레인은 에이전트-1 mini를 출시하며 다시 경쟁을 따돌린다. 에이전트-1 mini는 에이전트-1보다 10배 저렴하고, 다양한 용도에 맞춰 미세조정을 하기 훨씬 쉽다. AI를 둘러싼 주류 담론은 거품이 꺼질 수 있다는 우려에서, 새로운 물결이 맞는 것 같다는 확신으로 바뀌었다. 하지만, 그 규모를 두고는 의견이 엇갈린다. 소셜 미디어보다 큰가? 스마트폰보다 큰가? 불보다 큰가?
AI는 일자리를 빼앗기 시작했지만, 동시에 새로운 일자리도 창출하고 있다. 2026년 주식시장은 30퍼센트 상승했고, 오픈브레인과 엔비디아, 그리고 AI 에이전트를 가장 성공적으로 통합한 기업들이 상승을 이끈다. 주니어 소프트웨어 엔지니어 구직 시장은 혼란에 빠진다. AI가 컴퓨터공학 학위 과정에서 가르치는 것들을 다 해내기 때문이다. 반면, AI팀을 관리하고 품질을 통제할 줄 아는 사람들은 큰돈을 번다. 비즈니스 구루들은 구직자들에게 이력서에 가장 중요하게 넣어야 할 기술은 AI 활용 능력이라고 강조한다. 다음 세대 AI는 더 많은 일자리를 빼앗을 것이라는 두려움이 커지고, 워싱턴 D.C.에서는 1만 명 규모의 AI 반대 시위가 벌어진다.
미 국방부는 조용히 사이버, 데이터 분석, 연구 개발 분야에서 오픈브레인과 직접 계약을 작한다. 하지만 관료주의와 국방 조달 절차 탓에 통합은 더디게 진행된다. 이는 계약은 특례 거래 권한(Other Transaction Authority, OTA) 제도를 통해 이루어지며, 우선순위가 높은 DX 등급이 부여된다. 이 방식은 협력을 재정적으로 뒷받침하는 가장 효율적인 방식은 아니다. 다만 구체성을 위해 특정 방식을 하나 택했을 뿐이다. 이 계약은 공개적으로 발표되지만, 오픈브레인의 대외 커뮤니케이션에서는 크게 강조되지 않는다.