04 Oct 2025 5 min read

the platonic bitter lesson

"One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great. The two methods that seem to scale arbitrarily in this way are search and learning.

The second general point to be learned from the bitter lesson is that the actual contents of minds are tremendously, irredeemably complex; we should stop trying to find simple ways to think about the contents of minds, such as simple ways to think about space, objects, multiple agents, or symmetries. All these are part of the arbitrary, intrinsically-complex, outside world. They are not what should be built in, as their complexity is endless; instead we should build in only the meta-methods that can find and capture this arbitrary complexity. Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. We want AI agents that can discover like we can, not which contain what we have discovered. Building in our discoveries only makes it harder to see how the discovering process can be done." - The Bitter Lesson

인공지능을 둘러싼 지난 70년의 역사를 한 문장으로 요약하면 이렇다. "직접 규칙을 새겨 넣는 것보다, computing power를 scalable하게 쏟아부을 수 있는 일반적 방법이 결국 이긴다." 이는 리처드 서튼(Richard Sutton)이 2019년에 쓴 「The Bitter Lesson」의 핵심 중 하나다.

LLM은 다음 토큰을 예측한다는 간단한 목표를 가지고, 범용 트랜스포머 기반 모델의 크기를 키우고 막대한 데이터와 컴퓨팅 파워를 쏟아부어 성능을 키워왔다. 같은 기간 동안 특정 도메인에 최적화된 '작고 영리한' 모델을 fine-tuning으로 만들려는 시도들이 반복되었지만, 지난 2년간의 역사는 The Bitter Lesson의 손을 들어주었다.

그러나 서튼은 최근 인터뷰에서 "오늘의 LLM은 Bitter Lesson을 충분히 따르지 않는다"고 말했다. The Bitter Lesson이 단순히 "일반적인 방법론을 확장 가능하게 적용하는 것"만을 다루지 않기 때문이다. 지금까지 우리는 첫 번째 교훈만 이야기해왔지만, 두 번째 교훈이 있다는 사실을 잊어서는 안된다고 생각했다.

The Bitter lesson의 두 번째 교훈은 다음과 같다.

지능의 실제 내용은 본질적으로 복잡한 외부 세계의 일부이므로, 우리가 직접 내장하려 해서는 안 된다.
대신, 임의적이고 복잡한 세계를 발견하고 포착할 수 있는 "메타 방법"만을 내재해야 한다.
이 메타 방법의 핵심은 좋은 근사값을 찾을 수 있게 하는 것이며, 근사값을 찾는 탐색은 사람이 아니라 알고리즘이 해야 한다.

즉, 우리가 이미 발견한 지식을 내장하고 다음 토큰을 추론하는 방식이 아닌, 인간처럼 세상과 상호작용하며 보상 체계와 학습 방법을 스스로 결정하는 Child Machine이 되어야 한다는 것이다.

현재의 LLM은 인간이 생성한 유한한 사전 데이터로 Pretrain - FineTune - Serving 파이프라인을 거쳐 배포된다. 배포 후에는 파라미터가 고정되며, 사용자 피드백을 일부 수용하지만 이를 모델 파라미터에 반영하는 경우는 극히 드물다.

The Bitter Lesson의 두 번째 교훈이 적용되려면 현재의 확률 모델이 행위자로 거듭나야 한다.

배포 이후 외부 환경과 직접 상호작용하며 실제 행동의 결과로부터 배우고 지속적으로 자신을 업데이트하는 구조
"다음 단어를 가장 잘 예측"하는 단순한 보상을 넘어, 실제 결과에 따라 외재적·내재적 보상을 받아 정책을 개선하는 구조
이를 기반으로 "세상에서 무엇을 하면 어떤 일이 일어나는지"에 대한 world model을 스스로 만들어가는 구조

우리는 이제 인간 수준의 지성을 갖는 범용 LLM을 갖고 있다. 그리고 다른 한편에서는 스스로 상황을 판단하고 학습하는 자동차가 도로를 달리고, 휴머노이드 로봇이 공장과 창고를 오가며, 드론과 무인 잠수함이 전쟁을 대신 수행하고 있다.

The Bitter Lesson이 주는 메타적 교훈 중 하나는 이것이 "쓰다"는 점이다. 처음에는 직관적으로 와닿지 않거나 충분히 주의를 기울이지 않으면 발견하기 어렵기 때문에, 어느 정도 시간이 지나 격차가 벌어지고 난 뒤에야 뒤를 돌아보며 배우게 된다. 따라서 두 번째 교훈을 미리 받아들여 이쪽에 대한 감도를 높이는 방식으로 대응해보려 한다.

다음 단계의 AI에 베팅해야 한다면 나는 역시 The Bitter Lesson에 베팅할 것이다. 이는 "유전적"으로 새겨진 사전학습의 진화적 기초 위에 메타 수준의 방법론만을 내재한 채 현실 세계에서 계속 학습하고 탐험하며 스스로를 개선하는 행위자, 즉 Agent를 의미한다. 그리고 이렇게 행동하며 스스로 세계 모델을 구축하는 AI는 현실 세계를 바꿀 수 있는 힘을 가지므로, 이 시점에서 나 자신이 가진 world model도 다시 점검해 보아야 한다고 느낀다.