생물학에 AI 에이전트를 들이는 길: 결정론적 검색 계층이 모델 성능보다 중요했다 (Anthropic)
원문 정보
- 제목: Paving the way for agents in biology
- 출처: Anthropic Research — 글 작성 Laura Luebbert, 연구진 Ferdous Nasri·Sarah Gurev·Patrick Varilly·Krithik Ramesh·Nuala A. O’Leary·Jonah Cool·Bernhard Y. Renard·Pardis Sabeti·Laura Luebbert (anthropic.com)
- 발행: 2026-06-08 · 분량 표기 없음
- 원문 링크: https://www.anthropic.com/research/agents-in-biology
Articles 카테고리는 읽을 만한 외부 글을 골라 핵심을 정리하고 내 관점으로 분석하는 공간이다. 앞선 신뢰할 수 있는 Agentic AI 시스템 만들기가 제약 전임상 멀티에이전트 RAG의 운영 신뢰성을 다뤘다면, 이 글은 한 단계 더 아래 — 과학 도메인 agentic AI가 딛고 설 데이터 인프라 자체를 어떻게 다시 깔아야 하는가를 실험으로 보여준다.
한 줄 요약 (TL;DR)
생물학 데이터베이스는 사람이 브라우저를 클릭하도록 설계돼 있어 에이전트가 안정적으로 질의하지 못한다. 바이러스 데이터 검색에 결정론적 실행 계층(gget virus)을 끼워 넣자, 더 강한 모델로 바꾸는 것보다 정확도와 재현성이 훨씬 크게 좋아졌다 — 병목은 모델의 추론력이 아니라 결정론적 실행 계층의 부재였다는 이야기다.
왜 이 글을 골랐나
이 글이 흥미로운 건 “더 똑똑한 모델”이 답이 아니라고 정면으로 말하기 때문이다. 보통 에이전트가 잘 못하면 우리는 더 큰 모델, 더 긴 컨텍스트, 더 정교한 프롬프트를 떠올린다. 그런데 이 연구는 같은 에이전트들 앞에 결정론적인 도구 하나를 놓는 것만으로 결과가 갈렸다고 보고한다. 이건 생물학에 국한된 이야기가 아니라, 비결정적 LLM을 신뢰 가능한 시스템으로 감싸는 모든 작업 — RAG, tool use, harness engineering — 에 그대로 적용되는 일반 교훈이다. 비전공자에게도 “에이전트에게 무엇을, 어떻게 쥐여줄 것인가”라는 질문을 또렷하게 만들어 준다.
핵심 내용
원문의 구조를 따라 정리한다. 사실관계는 모두 원문 본문에 근거한다.
Karpathy의 비유: 길이 좁으면 차가 빨라도 소용없다
글은 Andrej Karpathy가 웹 개발에 대해 한 말에서 출발한다. 그가 어떤 작업을 두고 “The code was the easiest part! Most of the work was in the browser, clicking things.”(코드가 제일 쉬웠고, 일의 대부분은 브라우저에서 뭔가를 클릭하는 것이었다)라고 했고, 결론은 “아무도 이런 걸 해선 안 되며, 대신 에이전트를 위해 만들어야 한다”는 것이었다. 저자는 이를 생물학에 가져와, 에이전트가 이질적인 정보, 암묵적 관행, 사람이 브라우저를 클릭하는 것을 전제로 만들어진 환경에서 고전한다고 본다. 원문은 이를 “이탈리아 언덕 마을을 운전하는 것과 같아서, 길이 너무 좁으면 차가 아무리 강력해도 소용없다”는 비유로 요약한다.
사례 연구: 바이러스학의 ‘클릭 세금(click tax)’
핵심 사례는 바이러스 시퀀스 데이터 검색이다. 글은 NCBI Virus 같은 데이터베이스가 REST, Datasets, E-utilities API를 함께 조율하고, 미국·유럽·일본에 걸쳐 국제적으로 동기화된 시퀀스 데이터베이스 위에 얹혀 있다고 설명한다. 사람조차 정답을 얻으려면 여러 화면을 일일이 클릭해야 하는 이 수고를 글은 “클릭 세금”이라 부른다.
왜 이게 중요한가. 글은 Bundibugyo 발생 사례를 들어 공중보건이 빠르게 답해야 하는 세 질문을 제시한다.
- 이번 발생 바이러스는 과거 Ebola 바이러스들과 얼마나 다른가?
- 기존 진단법으로 검출할 수 있는가?
- 기존 치료제가 보호 효과를 줄 것인가?
이런 질문에 답하려면 정확한 시퀀스 집합을 빠짐없이 모아야 하는데, 작은 검색 오류가 곧바로 잘못된 생물학적 결론으로 번진다.
에이전트가 그냥 시도하면 벌어지는 일
저자들은 이를 정량화하려고 VirBench라는 벤치마크를 만들었다. 원문에 따르면 “VirBench는 40개 병원체에 걸친 120개의 현실적인 바이러스 시퀀스 질의를 포함하며, 수작업으로 검증한 ground-truth 카운트를 갖는다.”
여기에 여러 에이전트를 붙여 도구 없이 검색하게 했다. 원문이 나열한 모델은 Claude Sonnet 4, Claude Opus 4.7, Biomni OSS, Edison Analysis, GPT-5.2-pro, 그리고 GPT-5.5다. 결과에 대해 원문은 모델별 개별 점수를 주지 않고, 이들이 “평균 정확도 16.9%에서 91.3% 범위”에 분포했다고만 적는다. (그러니 특정 모델에 특정 점수를 붙이는 건 원문이 보장하지 않는다 — 아래 분석에서 이 점을 짚는다.)
더 인상적인 건 재현성이다. 한 Ebolavirus 질의에서 Sonnet 4는 동일한 프롬프트를 받았는데도 한 번은 106개(기대값 266개), 두 번째는 15개, 세 번째는 5개의 시퀀스를 반환했다. 같은 질문, 같은 도구, 전혀 다른 답이다.
이 변동이 다운스트림으로 어떻게 번지는지는 계통수(phylogeny) 분석에서 드러난다. 사람이 수작업으로 큐레이션한 NCBI Virus 시퀀스 집합으로 만든 트리는 2014년 1월 TMRCA(가장 가까운 공통 조상의 추정 시점)를 복원했다. 반면 에이전트가 모은 집합들로는 TMRCA가 1922년까지 밀려난 트리가 나오기도 했고, 또 다른 데이터셋은 겉보기엔 그럴듯했지만 Guinea의 시퀀스를 빠뜨린 채 TMRCA를 2014년 4월로 옮겨 놓았다. 데이터가 조금 어긋나면 결론(언제·어디서 유행이 시작됐는가)이 통째로 바뀐다는 뜻이다.
글은 실패 양상을 이렇게 분류한다.
- 큰 결과 집합을 다 못 가져와 과소 카운트(under-counting)
- 필터를 잘못 적용해 과대 카운트(over-counting)
- 맥락·관행에 따라 달라지는 메타데이터 필드의 모호성
- 동시에 3~4개 이상의 필터가 걸리면 성능 저하
바이러스 데이터를 위한 결정론적 계층: gget virus
해법은 모델을 바꾸는 게 아니라, 결정론적으로 호출할 수 있는 검색 도구를 만드는 것이었다. 원문은 “바이러스 데이터 검색을 에이전트와 사람이 직접 호출할 수 있는 무언가로 바꾸기 위해, 우리는 NCBI 연구자들과 협업해 gget virus를 개발했다”고 밝힌다. 글이 설명하는 이 도구의 핵심 역할은 다음과 같다.
- REST·Datasets·E-utilities API를 가로질러 조율
- 어떤 필터가 API에 존재하고 어떤 건 로컬에서 확인해야 하는지 판별
- 큰 결과 집합을 위한 배칭(batching) 처리
- 필터링에 필요한 보조 GenBank 레코드 회수
- 상세 로그와 함께 표준화되고 감사 가능한(auditable) 출력 반환
결과는 분명했다. 에이전트들에게 gget virus를 쥐여주자 “모든 에이전트의 정확도가 90% 위로 올라갔고, GPT-5.5에서 99.7%로 정점을 찍었다.” 그리고 “실행 간 변동성은 대부분 사라졌다.” 원문은 한 가지 흥미로운 일화도 덧붙인다 — “360번의 실행 중 한 번(Query 32, 세 번째 반복)에서, 명시적으로 지시하지 않았는데도 GPT-5.5가 스스로 gget virus를 찾아 사용했다.”
저자들이 끌어낸 결론은 두 문장으로 압축된다. “결정론적 검색 계층을 더하니 모델 선택이 훨씬 덜 중요해졌다.” 그리고 닫는 말은 다시 Karpathy로 돌아간다 — “게놈 데이터를 에이전트가 접근할 수 있게 만들라.”
분석과 인사이트
여기서부터는 원문 요약이 아니라 내 관점이다.
-
이 글의 진짜 주장은 “결정론을 어디에 둘 것인가”다. LLM은 비결정적이고, 그 위에 또 비결정적인 도구 사용 단계를 쌓으면 오차가 곱해진다. 이 연구가 보여준 건 비결정성을 줄이고 싶은 지점 — 데이터 검색 — 을 결정론적 함수로 잘라내 에이전트 바깥으로 빼는 전략이다. 에이전트에게는 “어떤 질의를 할지” 같은 판단만 맡기고, “어떻게 정확히 가져올지”는 코드가 보장한다. 이건 신뢰할 수 있는 Agentic AI 시스템에서 본 harness engineering, 그리고 Loop Engineering에서 본 “에이전트가 아니라 에이전트를 감싸는 루프를 설계하라”는 명제와 정확히 같은 뿌리다.
-
재현성 수치가 정확도 수치보다 더 무섭다. 동일 프롬프트에 106 / 15 / 5라는 결과는, 정확도가 아무리 높게 나와도 그 시스템을 프로덕션에 둘 수 없다는 뜻이다. 엔지니어에게 익숙한 언어로 옮기면 이건 flaky test다. 한 번 통과했다고 신뢰할 수 없고, 분산을 0에 가깝게 만들지 못하면 운영할 수 없다. 글이 “변동성이 대부분 사라졌다”를 정확도 향상만큼 강조하는 이유가 여기 있다.
-
모델별 점수가 범위로만 제시된 점은 정직하게 받아들여야 한다. 원문은 6개 모델을 묶어 “16.9%~91.3%”라고만 밝히지, “Sonnet 4 = X%, GPT-5.5 = Y%” 같은 매핑을 주지 않는다. 그러니 “어느 모델이 생물학에 제일 강하다”는 식의 결론을 이 글에서 끌어내면 오독이다. 글의 메시지는 모델 순위가 아니라 “좋은 도구를 주면 모델 차이가 줄어든다”이고, 99.7%라는 정점만 GPT-5.5에 명시적으로 귀속된다.
-
“에이전트를 위해 만들라”는 인프라 부채에 대한 이야기다. 사람이 클릭으로 메우던 암묵적 관행을 에이전트는 못 메운다. 이건 생물학뿐 아니라 사내 위키, 사번·권한 시스템, 레거시 API에도 그대로 적용된다. 에이전트를 도입하려는 조직이 진짜 마주하는 건 모델 선택이 아니라 “우리 데이터는 호출 가능한가, 감사 가능한가”라는 인프라 질문이다.
적용 포인트
독자가 바로 적용할 수 있는 실천 항목.
- 에이전트가 자주 틀리는 단계가 있으면 모델을 키우기 전에, 그 단계를 결정론적 도구(함수/CLI/API)로 잘라낼 수 있는지 먼저 따진다. 판단은 LLM에, 정확한 실행은 코드에 맡긴다.
- 정확도뿐 아니라 동일 입력의 실행 간 분산을 측정 지표에 넣는다. 분산이 큰 단계는 “정답률”과 무관하게 프로덕션 후보에서 제외한다.
- 도구의 출력을 표준화하고, 로그로 감사 가능하게 만든다. 이 글의
gget virus처럼 무엇을 어떻게 가져왔는지 추적할 수 있어야 사람이 신뢰하고 검증한다. - 벤치마크를 직접 만들 때는 수작업으로 검증한 ground truth를 확보한다. VirBench가 그렇듯, 평가의 신뢰는 정답 셋의 신뢰에서 나온다.
- 외부 모델 벤치마크 점수를 인용할 때는 “어느 모델·어느 조건의 값인지” 매핑을 확인한다. 범위로만 제시된 수치를 특정 모델에 붙이지 않는다.
마무리
이 글은 “AI를 과학에 쓴다”는 화려한 서사 대신, 그보다 한참 덜 멋지지만 훨씬 중요한 작업 — 에이전트가 딛고 설 바닥을 다지는 일을 이야기한다. 바이러스 데이터 검색에 결정론적 계층 하나를 끼워 넣자 모델 선택이 덜 중요해졌다는 발견은, 비결정적 LLM을 신뢰 가능한 시스템으로 만드는 보편 원리를 다시 확인시킨다. 길이 좁으면 차가 빨라도 소용없다. 우리가 할 일은 더 빠른 차를 사는 게 아니라, 에이전트가 다닐 수 있게 길을 넓히는 것이다.
더 읽어보기
- 원문 — Paving the way for agents in biology (Anthropic)
- 신뢰할 수 있는 Agentic AI 시스템 만들기 — 같은 과학 도메인(제약 전임상)의 멀티에이전트 RAG, harness·context engineering으로 신뢰성을 만드는 사례
- Loop Engineering — 에이전트를 직접 프롬프트하는 대신 에이전트를 감싸는 루프·검증을 설계한다는 같은 발상
- AI는 왜 소프트웨어 엔지니어를 대체하지 못했나 — “모델이 똑똑해지면 다 된다”는 서사를 데이터로 의심하는 관점
- The Founder’s Playbook: AI 네이티브 스타트업을 만드는 4단계 — 같은 Anthropic이 그린 AI 네이티브 제품/조직의 큰 그림