The Untrainable: 벤치마크할 수 없는 일에 가치가 남는다 (Sarah Guo)

측정 가능한 땅을 삼키는 프런티어 랩의 파도와, 끝내 잠기지 않는 private ground truth의 섬 측정 가능 영역 벤치마크 = 학습 가능 = commodity 벤치마크 공개된 정답 포화 토큰 프런티어 랩 흡수 권한 책임 현장 권위 the untrainable private ground truth 파도가 닿지 못하는 자리
측정할 수 있는 땅(벤치마크·공개된 정답·포화 토큰)은 프런티어 랩이라는 파도에 잠겨 흡수된다. 끝까지 물 위에 남는 것은 파도가 닿지 못하는 높은 섬 — 권한·책임·현장 권위가 떠받친 private ground truth, 곧 the untrainable이다.

원문 정보

VC인 Sarah Guo가 “AI 모델 위에 세운 회사는 전부 흡수당한다”는 투자자들의 비관론을 정면으로 반박하면서, 어디에 방어 가능한 가치(해자)가 남는가를 정의한 글이다. AI가 바꾸는 산업·비즈니스 구조의 논의이므로 Articles의 AI-Industry로 분류했다.

한 줄 요약 (TL;DR)

측정할 수 있는 일은 학습할 수 있고, 학습할 수 있는 일은 결국 commodity가 된다. 따라서 진짜 해자는 벤치마크할 수 없는 영역 — 정답이 공개되어 있지 않고, 권한·책임·현장 권위가 사람과 조직을 통해서만 흐르는 “private ground truth”에 있다. Guo는 이것을 the untrainable이라 부른다.

아래는 글 전체를 관통하는 한 줄의 인과다. 측정 가능에서 출발한 사슬은 한 방향으로만 흐르다 흡수에 닿고, 그 흐름이 끝내 넘지 못하는 벽 뒤에 권한·책임·현장 권위가 남는다.

flowchart LR
    A["측정 가능<br/>(benchmark가 존재)"] --> B["학습 가능<br/>(train against)"]
    B --> C["commodity화<br/>(점수가 포화)"]
    C --> D["흡수<br/>(frontier lab 차지)"]
    D -. "벽: 모델은 넘지 못함" .-> W권한 · 책임 · 현장 권위<br/>private ground truth
    W --> U["the untrainable<br/>(남는 마진)"]

병목은 능력이 아니라 소유권이다. 더 똑똑한 모델도 라이선스를 쥐거나, 책임에 서명하거나, 회사의 파일을 소유하지 못해 이 벽을 넘지 못한다.

왜 이 글을 골랐나

지난 몇 달 사이 이 위키에 정리한 글들은 거의 같은 불안을 다른 각도에서 건드린다. 코드 생성이 공짜가 되면 엔지니어의 ‘취향(taste)’이 값져진다는 이야기, AI가 엔지니어를 대체하지 못한 이유, 전문성을 ‘스킬 숙련자’에서 ‘운영 책임자’로 재설계하라는 주장까지. 이 글은 그 모든 논의에 자본·시장 관점의 뼈대를 제공한다.

핵심은 한 문장으로 압축된다. “측정할 수 있는 것은 학습할 수 있다(A thing you can measure is a thing you can train against).” 벤치마크 점수가 오른다는 것은 곧 그 일이 commodity로 향하고 있다는 신호다. 그렇다면 개발자도, 스타트업도, 투자자도 같은 질문을 던지게 된다 — 나의 일 중 무엇이 측정 불가능하고, 따라서 학습 불가능한가?

핵심 내용

비관론: “전부 thin wrapper다”

글은 투자자들 사이에 퍼진 절망에서 출발한다. 모델이 모든 것을 점점 더 잘하게 된다면, 그 위에 세운 회사는 전부 가중치(weights)와 컴퓨트를 쥔 프런티어 랩에 흡수되기를 기다리는 얇은 껍데기일 뿐이라는 두려움이다.

“The despair runs: if the model keeps getting better at everything, then every company built on top of one is a thin wrapper waiting to be absorbed.”

Guo는 이 두려움이 부분적으로는 옳다고 인정한다. 흡수당할 층은 실제로 흡수당한다. 하지만 그 결론을 “그러므로 가치가 사라진다”로 확장하는 것이 잘못이라고 본다. 가치는 사라지는 게 아니라 이동한다.

벤치마크는 무엇을 놓치는가

코딩 에이전트의 벤치마크 점수는 13%에서 80%대 후반까지 치솟았다. 그런데 실제로 출하된 코드는 약 30% 늘었을 뿐이다. 이 간극이 글의 출발점이다. 벤치마크가 측정하는 것은 “측정 가능하도록 잘라낸 조각”이고, 실제로 가치를 만드는 일의 상당 부분은 그 조각 바깥에 있다.

엔지니어링 조직은 프런티어 코딩 모델을 한 분기 만에 도입했지만, 그 모델을 중심으로 워크플로를 다시 짜는 데는 몇 년이 걸리고 있다. 도입을 좌우하는 요인 중 셋은 조직의 속도로 움직인다. 모델 성능은 분기 단위로 뛰지만, 신뢰·권한·책임의 재배치는 연 단위로 기어간다.

Google의 프로덕션 인프라처럼 수년간 부하 테스트를 거쳐 쌓인 신뢰성을 예로 든다. 그런 종류의 정확성은 사적(private)일 뿐 아니라, 자본으로 단번에 무너뜨릴 수 없는 느린 종류의 해자라는 것이다.

“Correctness like that isn’t only private, it’s the slow kind of moat capital can’t collapse.”

2x2 프레임워크: 무엇이 흡수되고 무엇이 남는가

글의 척추는 두 축으로 일을 나누는 사분면이다.

  • 축 1: 정답(correctness)이 공개되어 있는가, 아니면 사적이고 확립 비용이 비싼가
  • 축 2: 그 일이 이미 포화(saturated)되었는가, 아니면 프런티어 수준인가

네 칸은 이렇게 갈린다.

  공개된 정답 사적인 정답
포화된 일 commodity 토큰 — 오픈 모델이 차지 방어 가능한 틈새
프런티어 일 랩이 차지 (평가가 공짜) the untrainable — 상금이 걸린 자리

포화 + 공개 정답은 commodity 토큰이라 누구의 모델이든 답할 수 있고, 프런티어 + 공개 정답은 평가(eval)가 공짜로 굴러다니므로 랩이 가져간다. 진짜 자리는 프런티어이면서 정답이 사적인 곳에만 존재하는 마지막 칸 — 학습 불가능한 칸이다.

왜 private ground truth는 흡수되지 않나

더 똑똑한 모델이 나와도 사적 정답을 공개 정답으로 바꾸지는 못한다. 모델은 라이선스를 쥐거나, 책임에 서명하거나, 회사의 파일을 소유하지 못하기 때문이다.

“A better model does not make private ground truth public. It does not hold the license, sign off on the liability, or own the firm’s files.”

병목은 권한(permission)이고 동시에 책임(accountability)이다. 임상 판단의 최종 권한은 의사에게, 직무상 책임(liability)은 변호사에게, 데이터 거버넌스는 그 회사에 있다. 모델은 이 셋 중 어느 것도 대신 짊어질 수 없다. 글의 표현대로, 일반적 질문에 답하는 토큰은 거의 무가치하지만(누구의 모델이든 답하니까), 회사의 데이터 위에서 추론하는 토큰은 훨씬 비싸다.

현장의 권위는 채택의 고통을 통해 쌓인다

한 분야에서 “무엇이 좋은가”를 정의할 권리는, 그 분야가 이미 쓰고 있는 도구가 됨으로써 얻어진다. Guo는 실제 회사들을 든다.

  • OpenEvidence(임상)는 의사들의 일상적 사용 습관 자체가 lock-in이다. 컴퓨트로는 살 수 없는 자산이다.
  • Harvey(법률)는 법률 분야의 벤치마크를 직접 발표하며, 실제 현장 채택을 통해 “무엇이 좋은 답인가”를 정의할 권위를 쌓는다.
  • Sierra(음성 에이전트)는 문제가 해결됐을 때만 과금한다. 입력이 아니라 결과에 값을 매김으로써 “resolved의 정의” 자체를 소유한다.
  • Devin(Cognition)은 소프트웨어 작업에 성능 보증을 건다. 이는 신뢰받는 시스템 안쪽에 들어가 있어야만 가능한 일이다.

가격제(pricing)가 곧 평가(evaluation)를 코드화한 것이라는 통찰이 여기에 깔려 있다. 결과에 과금하려면 “성공”의 정의를 그 회사가 쥐고 있어야 한다.

흡수 경계(absorption frontier)와 공격 vs 수비

측정 가능한 일이 학습 가능해지면서, 흡수 경계는 계속 위로 올라간다. 어제는 방어선이던 자리가 오늘은 가중치 안으로 빨려 들어간다.

수비 전략은 둘이다. 사적 데이터로 좁게 특화하거나, 일반 능력 경쟁에 뛰어들거나. 후자는 자본 전쟁이고, 랩을 상대로는 지는 싸움이다. 사적 데이터와 사적 eval로 학습한 특화 모델은 일반 모델을 “중요한 지점에서” 이기면서도 그 자본 전쟁을 피한다.

공격 전략은 더 근본적이다. 무엇을 겨눌지 결정하는 일 — 즉 의도(intent) — 앞에서 모델은 무력하다.

“The model is no help there. It will do whatever you point it at and can’t tell you what’s worth pointing it at, and you can’t benchmark that, so you can’t train it.”

위로 올라가는 흡수 경계: 측정 가능해진 일은 삼켜지고, 꼭대기엔 '의도'가 남는다 일의 난도 → 시간 → 흡수 경계 ↑ 코드 자동완성 보일러플레이트 단순 분류 요약 · 번역 의도(intent) 무엇을 겨눌지 고르는 일 닿지 못함 수비 ⛨ 사적 데이터로 좁게 특화 — 자본 전쟁 회피 일반 능력 경쟁 — 자본 전쟁, 랩 상대로 지는 싸움 공격 ⚔ 의도 모델은 무엇이 겨눌 가치가 있는지 알려주지 못한다
흡수 경계는 시간이 지날수록 계단처럼 위로 올라가며, 어제의 방어선이던 일(코드 자동완성·보일러플레이트·단순 분류·요약)을 차례로 경계 아래로 삼킨다. 계단이 끝내 닿지 못하는 꼭대기에 의도(intent)가 남는다. 수비는 사적 데이터로 좁게 특화(자본 전쟁 회피)와 일반 능력 경쟁(지는 싸움)으로 갈리고, 공격은 의도 하나다.

결론: 가장 많이 인용된 벤치마크 점수의 역설

글은 비관론을 뒤집으며 닫힌다. thin wrapper 층은 실제로 흡수당하지만, 그렇다고 가치가 사라지는 것은 아니다. 가치는 모델이 닿을 수 없는 몇 안 되는 자리로 이동한다. 그리고 가장 자주 인용되는 벤치마크 점수일수록, 그 영역은 곧 무가치해질 땅의 지도다.

“The most cited benchmark score of the year is a map of territory about to be worthless, and a notice of who is about to lose the right to say what counts as good.”

분석과 인사이트

여기서부터는 원문 요약이 아니라 내 관점이다.

1) 이 글의 진짜 기여는 “측정 가능성 = 죽음의 입맞춤”이라는 프레임이다. 우리는 보통 벤치마크 상승을 진보의 신호로 읽는다. Guo는 이걸 뒤집어, 벤치마크가 존재한다는 사실 자체가 그 일이 commodity로 향하는 카운트다운이라고 본다. 벤치마크는 “이 일은 측정 가능하다 = 학습 가능하다 = 곧 공짜가 된다”는 선언이다. 이건 엔지니어의 ‘취향’이 값져진다는 주장의 시장 측 설명이기도 하다. 취향(내부 평가 함수)이 값진 이유는, 그것이 정확히 외부에서 벤치마크할 수 없는 사적 판단이기 때문이다.

2) “권한·책임은 양도 불가능하다”는 논점은 일·노동 담론과 정확히 맞물린다. AI가 엔지니어를 대체하지 못한 이유에서 일을 decide-execute-deliver 세 층으로 나눴을 때, AI가 잘하는 것은 가운데(execute)뿐이고 결정과 책임 있는 인도는 사람에게 남는다는 분석과 같은 구조다. Guo는 이 “사람에게 남는 부분”이 단순히 아직 자동화되지 않은 게 아니라, 모델이 라이선스·책임·소유권을 가질 수 없기에 구조적으로 흡수 불가능하다고 한 단계 더 못 박는다. 이 차이가 중요하다. “아직 못 한다”는 시간이 풀어줄 문제지만, “원리상 못 한다”는 해자다.

3) “가격제 = 평가의 코드화”는 비즈니스 모델 설계의 칼날 같은 통찰이다. Sierra가 resolved에만 과금하고 Devin이 성능을 보증할 수 있는 이유는 그들이 “좋음의 정의”를 쥐고 있기 때문이다. 이는 AI 랩들이 구독이 아니라 ‘에이전트 토큰’에서 PMF를 찾았다는 논의와 짝을 이룬다 — 토큰 단가가 아니라 어떤 결과에 값을 매기느냐가 해자를 가른다. 결과 기반 과금은 그 회사가 도메인의 ground truth를 소유하고 있다는 증거다.

4) 다만 조심할 지점도 있다. “private ground truth가 해자”라는 논리는 한편으로 기존 강자(이미 데이터·관계·현장 권위를 쥔 쪽)에게 유리한 서사다. 신규 진입자에게 이 글은 양날이다 — 어디에 들어가야 하는지는 알려주지만, 어떻게 처음 권한을 얻는지에 대해서는 “현장에서 실제로 쓰이는 도구가 되라”는 동어반복에 가깝다. OpenEvidence·Harvey·Sierra가 그 권위를 어떻게 처음 뚫었는지는, 글의 프레임이 가장 약한 곳이다. 또한 “느린 해자”는 거꾸로 말하면 느리게 쌓아야 하는 비용이고, 자본이 무한한 랩이 그 시간을 단축하기 위해 인수합병을 택할 가능성을 글은 충분히 다루지 않는다.

요컨대 이 글은 “AI 시대에 무엇이 안전한가”가 아니라 “무엇이 측정 불가능한가”를 먼저 묻게 만드는 사고 도구다. 그 질문의 답이 곧 해자의 좌표다.

적용 포인트

  • 자신의 일에 2x2를 그어보라. 내가 매일 하는 일을 (공개/사적 정답) × (포화/프런티어)로 분류하라. “공개된 정답 + 포화” 칸에 있는 일은 이미 카운트다운이 시작됐다고 보고, 사적 정답 쪽으로 무게중심을 옮길 방법을 찾아라.
  • “이 일에 벤치마크가 존재하는가?”를 위험 신호로 읽어라. 공개 벤치마크가 빠르게 오르는 영역에 커리어·제품을 묶어두지 마라. 벤치마크가 없는(만들기 어려운) 판단 영역이 더 오래 값진다.
  • 사적 컨텍스트 안으로 들어가라. 범용 질문에 답하는 것이 아니라, 특정 조직의 데이터·규정·관계 위에서 추론하는 위치를 확보하라. 토큰의 가치는 그 위에서 올라간다.
  • 결과로 값을 매길 수 있는 구조를 설계하라. 입력(시간·시트·토큰)이 아니라 결과(해결·통과·보증)에 과금할 수 있다면, 그건 당신이 “좋음의 정의”를 쥐고 있다는 뜻이다. 그 정의가 곧 해자다.
  • 의도를 단련하라. 모델은 무엇을 겨눌지 알려주지 못한다. 무엇이 중요한지를 고르는 판단 — 의도 부채(intent debt)를 만들지 않는 능력 — 은 벤치마크할 수 없고, 그래서 학습되지 않는다.

마무리

“The Untrainable”은 AI 비관론의 결론(“전부 흡수당한다”)을 받아들이되 그 함의(“그러므로 가치가 사라진다”)를 부순다. 가치는 사라지지 않고, 모델이 닿을 수 없는 좁은 자리 — 정답이 사적이고, 권한과 책임이 사람과 조직을 통해서만 흐르며, “무엇이 좋은가”를 현장에서 정의하는 자리 — 로 이동한다. 측정할 수 있는 것은 학습되어 공짜가 되고, 학습되지 않는 것에 미래의 마진이 남는다. 개발자에게도 스타트업에게도, 다음 질문은 하나다. 내 일에서 벤치마크할 수 없는 부분은 어디인가.

더 읽어보기