변화와 징후
변화: 오픈AI가 내놓을 새로운 AI 모델에 관심이 모이고 있다. 성패에 따라 오픈AI의 가치와 미래가 달라지기 때문이다.
징후: 오픈AI가 준비하고 있는 것은 더 똑똑해진 챗GPT가 아니다. 고도의 추론 능력을 갖춘, 인간 없이도 발전하는 AI 모델이다.
코드명, 스트로베리
2023년 오픈AI의 해였지만, 2024년은 그렇지 않았다. 아마존이 투자한 앤트로픽은 물론이고 구글, 메타에 이어 일론 머스크의 xAI까지 오픈AI의 GPT 모델을 몇 번이고 따라잡았다. 오픈AI의 ‘초격차’는 사라졌다. ‘인간보다 영리한 인공지능(AGI, AI systems that are generally smarter than humans)’이 모든 인류에게 혜택으로 돌아오게끔 하겠다는 목표를 위해 ‘비영리 단체’로 시작했던 2015년과는 상황이 달라진 것이다. 구조를 변경해서라도, 어쩌면 영리 기업으로 변모해 상장해서라도 회사의 덩치를 키워야 살아남을 수 있다. 생성형 AI 시장에서 독보적인 위치를 지키기 위해서는 막대한 컴퓨팅 파워, 그리고 무한에 가까운 학습 데이터가 필요하기 때문이다. 최고의 인재들도 필요하다. 다 돈이다.
샘 올트먼 CEO는 추가 투자에 나섰다. 오픈AI의 몸값도 860억 달러에서 1000억 달러 이상을 노린다. 물론, 이번 투자는 잘 될 전망이다. 오랜 동지인 마이크로소프트는 물론이고 오픈AI와 당분간 생사를 함께할 엔비디아, 애플 등도 이번 투자라운드에 뛰어들었다. 하지만 앞으로도 순탄하리란 보장은 없다. 오픈AI의 올해 적자 규모는 50억 달러에 이를 전망이다. 그럼에도 막대한 투자는 앞으로도 꾸준히 이어져야 한다. 그렇지 않으면 구글, 메타 등의 막대한 자금력을 뛰어넘을 방법이 없다. 그래서 오픈AI는 지금 몸값을 증명해야 한다. AI로 돈을 벌 수 있음을 숫자로 보여줘야 하는 것이다.
오픈AI가 출시를 앞둔 새로운 AI 모델에 월 2000달러에 달하는 구독료 책정을 검토하고 있다는
소식은, 그런 맥락에서 매우 신빙성이 있다. 현재 챗GPT 플러스가 월 20달러에 서비스되고 있다는 점을 생각하면 터무니없는 가격이다. 하지만 가격을 결정하는 것은 수요다. 2000달러가 아니라 2만 달러라도 구독할 만한 성능이라면 수요를 확보할 수 있다. 그렇다면 지금보다 100배 비싸질지도 모르는 오픈AI의 새로운 AI 모델은 무엇일까. 몇 가지 알려진 사실들이 있다. 먼저 이름이다. ‘스트로베리(strawberry)’와 ‘오리온(orion)’, 출시될 AI 모델들의 공식적인 이름은 아니고 프로젝트명이다. 이 중 오리온이 GPT-4의 뒤를 이을 차세대 주력 언어 모델 프로젝트다. 그런데 스트로베리는 조금 다르다. 일반 유저는 아직 만나보지 못한 형태의 AI다.
전교 수학 1등의 공부 방법
논술과 수학은 성격이 다른 과목이다. 논술 문제에는 사실 정해진 정답이 없다. 논리적으로 앞뒤가 잘 맞으면 좋은 답안이다. 지금의 챗GPT가 내놓는 답변들이 대개 그렇다. 거대 언어 모델(LLM)은 통계적으로 앞뒤가 맞을 확률이 높은 말을 차례차례 내놓는 방식으로 답변을 생성한다. 그런데 수학 문제를 풀 때에는 그렇게 해서는 곤란하다. 정밀한 추론 능력을 바탕으로 단 하나의 정답을 이끌어내야 한다. 그래서 생성형 AI의 수학 능력은 향상하기 어려운 분야로 꼽힌다. 그런데 수학 문제를 잘 푸는 AI 알고리즘이 오픈AI에서 꽤 높은 수준으로 개발되고 있었다. 2023년의 일이다. ‘큐스타(Q*)’라는 알고리즘이었다.
큐스타는 수학 문제를 잘 풀었다. 실력에는 비밀이 있다.
- 강화학습(Reinforcement Learning): AI가 시뮬레이션된 환경에서 과제를 해결하면서 시행착오를 겪고, 그에 따른 피드백을 통해 학습하는 방법이다. 방대한 데이터 없이도 AI 학습을 진행할 수 있다. 강화학습에 가장 중요한 요소는 방대한 컴퓨팅 파워다. 오답 노트를 잘 활용했다는 얘기다.
- 재귀적 자기 개선 (recursive self-improvement): 데이터를 엄청나게 반복 학습하면서 인간의 개입 없이 스스로 자신의 능력을 계속 개선할 수 있는 능력이다. 문제집을 10권 푸는 것이 아니라 한 권을 10번 푸는 방식이다.
오픈AI의 창업자이자 수석 과학자였던 일리야 수츠케버는 AI 시스템이 인간보다 똑똑해지는 순간을 경계했다. 그리고 큐스타가 위험하다고
판단했다. 이 강력한 AI 알고리즘이 인류에게 위협이 될 수 있다고 우려했고, 이를 상용화하고자 하는 샘 올트먼의 해임을 추진했다. 물론, 결말은 달랐다. 올트먼은 오픈AI가 쉽게 해임할 수 있는 인물이 아니었고, 결과적으로 회사를 떠난 쪽은 수츠케버였다.
전교 1등이 만든 과외 교재
인간이 개입해서 학습시켜 주지 않아도 알아서 시행착오를 통해, 반복 학습을 통해 똑똑해지는 큐스타를, 샘 올트먼은 손에 쥐게 되었다. 그리고 이를 리브랜딩한 것이 바로 스트로베리다. 오픈AI는 지난 7월, AGI 목표 달성을 위한 5단계의 등급을 내부적으로 제시했다.
- 1단계: 챗봇, 대화형 언어를 갖춘 AI
- 2단계: 추론자, 인간 수준의 문제 해결
- 3단계: 에이전트, 조치를 취할 수 있는 시스템
- 4단계: 혁신가, 발명을 도울 수 있는 AI
- 5단계: 조직, 조직의 업무를 수행할 수 있는 AI
그리고 자신들이 2단계에 도달했다고 판단했다. 그 정체가 스트로베리일 가능성이 높다. 스트로베리는 정답을 찾는 것이 아니라 정답을 찾아가는 ‘과정’에 중점을 두고 훈련됐다. 수학 문제를 잘 푸는, 뛰어난 추론 능력을 갖춘 공부 잘하는 학생이 그러하듯 말이다. ‘Process Supervision’ 방식이다. AI 모델을 훈련할 때, 최종적인 답변이 맞는지를 보는 것이 아니라 추론의 각 단계가 맞는지를 본다. 복잡한 문제에 관한 풀이 과정을 학습시켜 LLM의 추론 능력을 높이는 CoT(Chain-of-Thought) 방식과 유사하다.
- 이러한 방식의 학습 과정에서는 AI 모델이 답에 대한 ‘근거’를 계속해서 생성하게 된다. 수학 문제를 풀 때 풀이 과정을 정리한 노트가 쌓인다는 얘기다.
- 이 중 올바른 답을 도출할 수 있는 근거들을 골라내면 AI 학습에 사용될 수 있는 고품질 데이터로 활용할 수 있다. 즉, 잘 정리된 노트를 고르면 학습 교재로 쓸 수 있다.
스트로베리가 생성한 고품질 데이터를 사용해 훈련받고 있는 AI 모델이 있다. 바로 오리온 프로젝트다. 마치 전교 1등이 정리해 놓은 족집게 족보로 공부하는 것과 비슷하다. 데이터가 고도로 정제되어 있으니 오답, 그러니까 환각을 일으킬 가능성도 줄어든다. 오리온이 GPT-4의 뒤를 이을 GPT-5 모델일 것이라는 것이 업계의 전망이다. 오리온의 성적은 오를 수밖에 없다.
사유
사람이 만든 데이터로 학습한 AI는 사람에 근거한 답변을 한다. 우리의 편향이 AI에 반영될 수밖에 없는 이유다. AI가 또 다른 AI가 만들어낸 데이터, 즉 합성 데이터(synthetic data)로 학습하게 된다면
어떨까. 여전히 사람에 근거한 답을 내놓을 수 있을까. 엄청난 추론 능력을 갖췄지만, 인류와는 전혀 다른 세계관을 가진 AI가 등장한다면, 우리는 그 AI의 결정을 어떻게 받아들여야 할까. 우리는 여전히 LLM이 어떻게 작동하는지 완벽하게 이해하지 못하고 있다. 딥러닝을 통해 신경망이 정보를 처리하는 과정은 블랙박스에 갇혀있다. 그런데 이제는 학습 데이터마저 인류의 이해와 관계 없어지고 있다. 아무리 성적이 좋아도 나를 이해하지 못하는 친구는 좋은 친구가 될 수 없다. 인류는 어떤 AI 모델을 만들어 가야 할까.