LLM이 써 줄 인시던트 리포트의 미래가 두렵다 (Lorin Hochstein)

원문 정보

제목: I am dreading our LLM-written incident report future

출처: Lorin Hochstein — Surfing Complexity (surfingcomplexity.blog)

발행: 2026-06-19 · 분량 표기 없음

원문 링크: https://surfingcomplexity.blog/2026/06/19/i-am-dreading-our-llm-written-incident-report-future/

Lorin Hochstein은 신뢰성(reliability)에 집중하는 Staff Software Engineer이자, resilience engineering·”learning from incidents” 커뮤니티에서 잘 알려진 목소리다. 그의 개인 블로그 Surfing Complexity는 소프트웨어와 복잡계, 그리고 인시던트를 다룬다. 에이전트가 코드뿐 아니라 사후 분석(postmortem)까지 대신 쓰겠다고 나서는 지금, “어디까지 맡겨도 되는가”의 경계선을 긋는 글이라 Articles에 담는다.

한 줄 요약 (TL;DR)

LLM으로 인시던트 리포트의 재료를 모으는 일(로그·타임라인·채팅·메트릭 수집의 toil 줄이기)은 환영하지만, LLM이 리포트 자체를 써 주는 미래는 두렵다 — 글쓰기라는 사고 과정을 통째로 건너뛰면, 형식만 그럴듯하고 실제로는 틀린, 그리고 틀렸는지 검증할 테스트조차 없는 리포트가 양산되어 학습이 무너지기 때문이다.

왜 이 글을 골랐나

“AI가 코딩을 대신해 준다”는 이야기는 이제 흔하다. 이 글은 그보다 한 발 더 들어가, AI에게 글쓰기를 맡기는 것이 코딩을 맡기는 것보다 더 위험할 수 있다고 주장한다. 코드는 틀리면 언젠가 깨지지만, 잘못된 인시던트 리포트는 즉각적인 신호 없이 조용히 학습을 갉아먹는다.

이 위키가 반복해 온 질문 — “코드가 commodity가 된 시대에 무엇이 사람의 몫으로 남는가” — 와 정확히 맞닿는다. Intent Debt가 “왜(why)는 사람만 공급할 수 있는 입력”이라 했다면, 이 글은 그 왜를 글로 외부화하는 행위 자체가 곧 사고임을 보여준다. 둘은 같은 동전의 양면이다.

핵심 내용

두 가지 사용을 가르는 결정적 선

Hochstein은 인시던트 작업에서 LLM의 쓰임을 두 가지로 명확히 구분한다.

재료를 모으는 데(assemble the ingredients) 쓰는 것 — 로그, 타임라인, 채팅 transcript, 메트릭을 끌어모아 데이터 수집의 진짜 toil을 줄이는 일. 그는 이것은 괜찮다고 본다.
리포트 자체를 쓰는 데(write the report itself) 쓰는 것 — 그가 두려워하는 지점이다.

그의 표현을 그대로 옮기면, “인시던트 리포트를 쓰는 데 필요한 재료를 모으도록 LLM을 쓰는 것과, LLM이 실제로 리포트를 쓰게 하는 것 사이에는 세상만큼의 차이가 있다.”

왜 ‘LLM이 쓰는 것’이 문제인가: “쓰기는 곧 사고하기”

LLM이 글의 본문을 생성하면 사고하는 단계(thinking step)가 통째로 우회된다.

Hochstein은 고전적인 명제를 끌어온다 — “Writing is Nature’s way of showing you how sloppy your thinking is“(글쓰기란, 당신의 사고가 얼마나 엉성한지를 자연이 보여주는 방식이다). 내가 이해한 것을 내 언어로, 독자를 향해 써 내려가려 할 때에야 비로소 그 이해가 얼마나 흐릿했는지가 드러난다. 글쓰기는 자기가 실제로 무엇을 이해했는지를 직면하도록 강제한다.

LLM이 대신 쓰면 글쓰기 과정 안에 인간(human in the loop)이 없다. 즉, 그 설명이 모아 둔 증거와 정말로 일관되는지를 직면하는 사람이 아무도 없다. 위험은 여기서 나온다.

LLM은 그럴듯한(plausible) 설명을 만들어 낸다.
그 과정에서 실재하지 않는 시스템 간 결합(coupling)을 지어내고, 정작 인시던트의 일부였던 결정적 상호작용을 놓칠 수 있다.
데이터를 종합하는 고된 작업을 아무도 하지 않았으므로, 그 오류를 알아챌 사람도 없다.

왜 LLM 코딩이나 ‘AI SRE’보다 더 위험한가

Hochstein은 LLM이 쓴 인시던트 리포트가 LLM 코딩이나 AI-SRE 작업보다 더 위험하다고 본다.

코드는 틀리면 결국 표면으로 드러난다. 깨지고, 테스트가 실패한다.
인시던트 리포트는 형편없어도 그 결과가 즉각 드러나지 않는다.
그래서 형식은 겉보기에 맞지만 실제로는 틀린 리포트가 만들어지고, 정확성을 검증할 명확한 테스트가 없다.

더 깊은 비용: 학습의 단절

인시던트 리포트의 진짜 가치는 학습이다 — 시스템의 본질, 그리고 시스템이 실제로 어떻게 행동하는지에 대한 진짜 통찰을 쌓는 것.

그러나 LLM은 인시던트에 연루된 사람들과 관여하지 않는다. 인터뷰도, 인간이 의미를 만들어 가는 sensemaking도 하지 않는다. 그 결과 형식은 갖췄으되 시스템의 본질에 대한 진짜 통찰이 빠진 리포트가 남고, 이는 학습을 크게 위축시킨다(curtails learning).

분석과 인사이트

여기서부터는 내 관점이다. 원문 요약과 구분해 읽어 주기 바란다.

가장 날카로운 통찰은 “검증 테스트의 부재”다. 우리가 AI에게 코딩을 비교적 마음 편히 맡기는 이유는, 사실 모델을 믿어서가 아니라 틀림을 잡아 줄 외부 장치(컴파일러, 테스트, 프로덕션 장애) 가 있기 때문이다. Hochstein의 지적은 인시던트 리포트에는 그 안전망이 통째로 없다는 것이다. 산출물의 형식(form)과 정확성(correctness)을 분리해 보면, LLM은 형식을 거의 완벽하게 흉내 내기 때문에 오히려 잘못된 리포트가 더 권위 있어 보인다. form이 correctness의 신호로 오인되는 순간, 검토는 형해화된다.

“쓰기는 곧 사고하기”는 인시던트 리포트만의 이야기가 아니다. 이 명제는 Intent Debt가 말한 의도 부채와 정확히 포개진다. ADR(결정 로그)을 쓰는 비용이 거의 0에 가깝다고 했던 그 글의 처방도, 결국 쓰는 행위 자체가 결정을 명료하게 만든다는 같은 믿음 위에 서 있다. 에이전트에게 왜를 진술하게 만들 수는 있어도, 그 왜가 증거와 일관되는지 직면하는 일은 여전히 사람의 몫이다. 인시던트 리포트는 그 원리가 가장 뚜렷하게 드러나는 극단 사례일 뿐이다.

다만 “재료 모으기는 괜찮다”는 선은 생각보다 미끄럽다. 실무에서 toil을 줄여 주는 도구는 곧잘 “초안까지만 써 줘”로, 다시 “어차피 초안이 좋으니 그대로 쓰자”로 미끄러진다. Hochstein이 그은 선은 옳지만, 그 선을 지키는 것은 도구의 문제가 아니라 팀의 규율과 인센티브의 문제다. 리포트를 빨리 닫는 것이 보상받는 조직에서는, “사람이 직접 쓰며 사고한다”는 단계가 가장 먼저 잘려 나갈 후보다.

이의를 달자면, 모든 인시던트가 깊은 학습을 요구하지는 않는다. 사소하고 반복적인 인시던트의 정형화된 기록까지 사람이 손으로 써야 하는가는 별개의 질문이다. 핵심은 “학습할 가치가 있는 인시던트”를 가려내고, 그 부류만큼은 글쓰기=사고하기를 사람이 사수하는 것 — 즉 자동화의 경계를 인시던트의 학습 가치에 맞춰 설계하는 일이라고 본다.

적용 포인트

재료 수집과 본문 작성을 도구 수준에서 분리하라. LLM에게는 타임라인·로그·메트릭·transcript의 수집과 정렬까지만 맡기고, 분석과 서사(narrative)는 사람이 쓴다는 규칙을 명문화한다.
“학습할 가치가 있는 인시던트”를 가려라. 모든 인시던트를 같은 무게로 다루지 말고, 깊은 학습이 필요한 부류에는 반드시 사람이 직접 쓰는 단계를 강제한다.
리포트에 사람의 sensemaking을 의무 항목으로 넣어라. 관련자 인터뷰, “그 순간 우리는 무엇을 보고 있었나” 같은 인간 관점 섹션을 템플릿에 박아 두어 LLM이 메울 수 없는 칸을 남긴다.
form이 아니라 correctness를 검토하라. “잘 쓰였는가”가 아니라 “여기 적힌 시스템 간 결합과 상호작용이 모아 둔 증거와 실제로 일치하는가”를 묻는 리뷰 체크리스트를 둔다.
속도가 아니라 통찰을 보상하라. 리포트를 빨리 닫는 것이 아니라, 거기서 나온 실제 시스템 통찰과 개선 액션을 인정하는 방향으로 인센티브를 맞춘다.
결정·근거는 그 순간 글로 외부화하라. 인시던트 대응 중의 판단과 그 왜를 실시간으로 적어 두면, 사후에 LLM이 그럴듯하게 지어낼 여지 자체가 줄어든다.

마무리

Hochstein의 글은 “AI에게 무엇을 맡길 것인가”라는 질문을, 산출물이 아니라 사고 과정의 관점에서 다시 묻게 한다. 인시던트 리포트의 가치는 완성된 문서가 아니라, 그것을 쓰며 사람이 강제로 직면하게 되는 이해의 깊이에 있다. LLM은 재료를 모아 주는 훌륭한 조수가 될 수 있지만, 사고하는 일까지 대신하게 두는 순간 우리는 형식만 남고 학습은 사라진 미래를 얻는다. 두려워할 만한 미래이고, 그 미래를 피하는 선택은 도구가 아니라 우리에게 달려 있다.

더 읽어보기

원문 — I am dreading our LLM-written incident report future (Lorin Hochstein, Surfing Complexity)
Intent Debt: 에이전트가 대신 갚아줄 수 없는 단 하나의 부채 — “왜(why)는 사람만 공급한다”는 의도 부채와, “쓰기=사고하기”가 같은 원리임을 보여주는 짝
AI는 왜 소프트웨어 엔지니어를 대체하지 못했나 — 일을 decide-execute-deliver로 나눌 때, AI가 압축한 층과 사람에게 남은 층의 경계
Loop Engineering: 에이전트를 프롬프트하는 대신 프롬프트하는 시스템을 설계하라 — 에이전트에게 무엇을 맡기고 무엇을 사람이 쥘지를 시스템 차원에서 설계하는 관점