Guildex
AI 운영 설계

AI 업무 도우미가 매일 제대로 일하게 만드는 운영 담당자의 역할

AI 에이전트는 모델이 강하다는 이유만으로 안정적으로 굴러가지 않습니다. 큐, trace, eval, 승인, incident, 비용, 권한, 오래된 지식을 매일 운영하는 사람이 있을 때 업무가 됩니다.

2026.06.1911분 읽기AI 에이전트를 반복 가능한 업무 workflow로 바꾸려는 대표, 운영자, 컨설턴트, 팀 리더
승인 대기열, trace 타임라인, eval 점수판, incident log, healthcheck, 비용 meter, 오래된 지식 경고, rollback control, tool permission이 보이는 AI 에이전트 운영 대시보드

AI Agent Ops Manager 가이드

AI 도입의 다음 병목은 모델 선택만이 아닙니다. 운영입니다. 에이전트가 회사 지식을 읽고, tool을 호출하고, 고객 메시지를 만들고, system을 수정하고, 정해진 시간에 실행되기 시작하면 누군가는 매일의 loop를 책임져야 합니다. Agent Ops Manager는 그 책임자입니다. 그럴싸한 demo를 확인 가능하고, 수정 가능하고, 측정 가능하고, 개선 가능한 업무로 바꾸는 사람입니다.

1. 개요: 에이전트에는 프롬프트만이 아니라 운영자가 필요하다

AI 도입에서 자주 생기는 실수는 에이전트를 더 똑똑한 chat window처럼 다루는 것입니다. 목표를 주고, tool 몇 개를 붙이고, 나머지는 모델이 알아서 하길 기대합니다. demo에서는 멋집니다. 하지만 그 일이 매일 반복되고, 고객에게 닿고, record를 바꾸고, 돈을 쓰고, 최신 회사 규칙에 의존하면 금방 깨집니다.

에이전트가 강해질수록 일은 점점 운영에 가까워집니다. approval queue가 있고, failed run이 있고, tool error, 오래된 source document, cost spike, 애매한 handoff, 고객에게 나가는 draft, 더 일찍 멈췄어야 하는 case가 생깁니다. 이런 문제는 예쁜 prompt 하나로 해결되지 않습니다.

그래서 역할이 중요합니다. Agent Ops Manager는 반드시 machine learning engineer일 필요가 없습니다. 작은 회사에서는 대표, 운영 리드, 고객지원 리드, 외부 AI 운영 파트너가 맡을 수 있습니다. 핵심 업무는 agent loop를 건강하게 유지하고, 반복 수정사항을 더 나은 system으로 바꾸는 것입니다.

2. 작은 용어집: 말은 어렵지만 개념은 단순하다

Agent Ops Manager는 AI 에이전트의 매일 운영 상태를 책임지는 사람입니다. 쉽게 말하면 digital worker들의 교대근무 관리자입니다. 모든 일을 직접 하지는 않지만, 무엇을 자동 실행할지, 무엇을 승인받을지, 무엇이 실패했는지, 다음에는 무엇을 배워야 하는지 결정합니다.

Queue는 대기열입니다. Approval queue는 사람이 approve, edit, reject해야 하는 행동들이 기다리는 줄입니다. Trace는 에이전트가 지나간 경로입니다. 어떤 instruction을 읽고, 어떤 tool을 호출했고, 어떤 결과를 받았고, 다음 결정을 어디서 했는지 보여줍니다. Span은 trace 안의 작은 작업 단위입니다. tool call 하나, retrieval step 하나가 span입니다.

Eval은 에이전트가 제대로 하는지 반복해서 확인하는 test입니다. Regression test는 고친 실수가 다시 나오지 않게 잠그는 test입니다. Healthcheck는 workflow가 살아 있고 정상인지 빠르게 보는 점검입니다. Rollback은 잘못된 행동을 되돌리거나 피해를 줄이는 절차입니다. SLA는 service promise, KPI는 workflow가 잘 되는지 보는 숫자입니다.

SOP는 Standard Operating Procedure, 즉 표준 업무 절차입니다. 쉽게 말해 팀이 원하는 일 처리 방식을 적어둔 문서입니다. AGENTS.md나 CLAUDE.md 같은 파일은 project memory file입니다. 에이전트에게 이 프로젝트의 규칙, 맥락, 경계를 알려주는 안내서입니다. MCP는 agent가 tool, file, database, app에 연결되는 표준 connector입니다. 유용하지만 tool call이 안전한지는 MCP가 대신 판단해주지 않습니다.

  • Queue: 일, 승인, 실패, escalation이 기다리는 대기열입니다.
  • Trace: agent가 무엇을 했고 왜 했는지 보이는 경로 기록입니다.
  • Eval: agent가 여전히 제대로 작동하는지 반복 확인하는 test입니다.
  • Regression: 고친 실수가 다시 돌아오는 현상입니다.
  • Healthcheck: workflow가 살아 있고 정상인지 보는 빠른 점검입니다.
  • Rollback: 잘못된 행동을 되돌리거나 피해를 줄이는 준비된 방법입니다.
  • MCP: 연결 계층이지 permission과 review rule의 대체물이 아닙니다.

3. 매일 봐야 하는 loop: 운영자가 확인하는 것

첫 번째 일은 approval queue입니다. 어떤 고객 메시지, CRM update, refund, public post, file change, tool call이 검토를 기다리고 있나요? 운영자는 단순히 approve만 누르면 안 됩니다. 왜 승인이 필요했는지, agent가 충분한 근거를 줬는지, 다음에는 이 case를 더 쉽게 만들 수 있는지 봐야 합니다.

두 번째 일은 failure queue입니다. 어떤 run이 timeout됐고, 잘못된 source를 썼고, 잘못된 tool을 호출했고, budget을 넘겼고, 약한 답변을 만들었고, 정보 부족한 escalation을 했나요? 실패한 run은 네 가지 artifact 중 하나로 바뀌어야 합니다. 더 나은 SOP, 더 날카로운 source rule, 새로운 eval case, 더 엄격한 permission boundary입니다.

세 번째 일은 freshness입니다. 회사 지식에 연결된 agent는 오래된 진실 때문에 틀릴 수 있습니다. 운영자는 source of truth가 바뀌었는지, 정책이 만료됐는지, 고객에게 나가는 규칙이 오래된 memo와 충돌하는지, source가 stale할 때 agent가 멈추고 물어보는지 확인해야 합니다.

  • Approval queue를 검토하고 approve, edit, reject 이유를 label로 남깁니다.
  • Failed run을 검토합니다. tool error, 약한 근거, timeout, 잘못된 retrieval, 위험한 추정을 봅니다.
  • 고객에게 영향을 주는 output이 약속이 되기 전에 확인합니다.
  • 전체 bill만이 아니라 workflow별 token과 cost spike를 봅니다.
  • 오래된 source, 충돌 문서, unresolved handoff를 찾습니다.
  • 반복 실수를 SOP update, eval, permission rule, dashboard alert로 바꿉니다.

4. Dashboard: 무엇이 보여야 하나

좋은 agent dashboard는 예쁜 analytics page가 아닙니다. control surface입니다. 오늘 실행 수, 성공률, 실패 run, 대기 중인 approval, reject된 approval, unresolved escalation, tool error, 평균 latency, workflow별 cost, stale source count, 반복 실패 category가 보여야 합니다.

AWS AgentCore observability, OpenTelemetry trace, Google SRE monitoring의 방향은 실무적으로 같습니다. production system은 무엇이 깨졌는지와 왜 깨졌는지 답할 수 있을 만큼 보여야 합니다. 에이전트에서는 infra signal과 product signal이 둘 다 필요합니다. latency도 중요하지만 agent가 맞는 source를 썼는지, 위험 행동 전에 멈췄는지도 중요합니다.

Dashboard는 symptom과 cause도 나눠야 합니다. Symptom은 사용자가 경험한 일입니다. wrong answer, late reply, failed workflow, unsafe draft입니다. Cause는 그것을 만든 원인입니다. stale knowledge, missing permission, bad tool result, weak instruction, budget exhaustion, model routing mistake입니다. 운영자는 둘 다 필요합니다.

  • Operations: run 수, 성공률, failure, latency, duration, retry, timeout.
  • Safety: approval, rejection, escalation, forbidden action attempt, rollback event.
  • Knowledge: source freshness, conflict count, missing owner, stale answer risk.
  • Cost: token usage, model routing, expensive task, repeated retry, wasted context.
  • Quality: eval pass rate, regression failure, human edit, customer complaint, recurring defect.

5. Trace와 eval이 느낌보다 중요한 이유

많은 팀은 최종 output만 봅니다. 고객이 보는 것이 output이니 자연스러운 일입니다. 하지만 최종 output review만으로는 진짜 문제가 숨어버립니다. 답이 틀린 이유가 오래된 source를 가져와서인지, tool을 건너뛰어서인지, policy를 잘못 읽어서인지, context를 넘겨서인지, 세 단계 전에 위험한 가정을 해서인지 알기 어렵습니다.

이것이 observability gap입니다. 2026년 output-level feedback 논문은 사람이 결과만 볼 때 숨은 execution state 문제를 찾기 어렵다고 지적합니다. 2026년 AI coding agent logging 연구도 유용한 경고를 줍니다. agent는 logging을 사람보다 덜 다루는 경향이 있었고, 명시적인 logging instruction만으로는 충분하지 않았으며, 사람이 나중에 observability를 고치는 silent janitor가 되기 쉬웠습니다. 실무 교훈은 단순합니다. 운영 증거를 prompt 소원에 맡기면 안 됩니다.

좋은 운영자는 trace를 eval로 바꿉니다. agent가 오래된 정책을 써서 실패했다면 policy freshness를 확인하는 test를 만듭니다. 잘못된 tool을 호출했다면 permission 또는 routing test를 추가합니다. 승인 없이 고객 약속을 했다면 다음 release 전에 그 pattern을 막는 regression case를 만듭니다.

6. Permission, approval, MCP: 경계가 생긴 뒤에 tool을 연결한다

MCP와 tool calling이 강력한 이유는 agent가 행동할 수 있기 때문입니다. 그래서 운영자가 필요합니다. 연결된 CRM, email tool, payment system, file system, browser, deployment command는 더 이상 단순한 text가 아닙니다. 실제 표면을 바꿉니다.

OpenAI Codex approval과 permission guidance, OpenAI Agents approval pattern, MCP tool specification은 같은 운영 아이디어를 가리킵니다. 민감한 tool call은 보이고, 확인 가능하고, log로 남고, 제한되고, review 가능해야 합니다. 모델이 tool을 쓰고 싶다고 했다는 이유만으로 안전해지는 것은 아닙니다.

운영자는 permission table을 유지합니다. Read-only internal lookup은 대체로 자동 실행할 수 있습니다. 고객 메시지, CRM update, refund, publishing, outbound는 보통 draft-first 또는 approval-first여야 합니다. Money movement, credential change, account deletion, irreversible production write, regulated decision은 기본 금지 또는 매번 명시 승인 대상입니다.

  • 자동 레인: 내부용, read-only, 되돌리기 쉬움, 비용 낮음, 검증 쉬움.
  • 승인 레인: 외부 노출, 비용 발생, 민감 정보, 고객 영향, 정책 의존.
  • 금지 레인: 되돌리기 어려움, 파괴적 행동, credential, 규제, 큰 blast radius.
  • 모든 tool에는 owner, allowed action, blocked action, log 위치, rollback rule이 있어야 합니다.

7. 주간 loop: incident를 system upgrade로 바꾼다

일일 운영은 workflow를 살아 있게 만듭니다. 주간 운영은 더 좋게 만듭니다. 일주일에 한 번 운영자는 top failure, 가장 많이 edit된 approval, 가장 비싼 run, stale source, 고객 영향 issue를 봐야 합니다. 질문은 누가 실수했느냐가 아닙니다. 다음 주에 같은 실수를 막는 artifact가 무엇이냐입니다.

OpenAI cookbook의 agent improvement loop는 여기서 좋은 모델입니다. Trace, human feedback, model observation, eval, code 또는 harness change가 flywheel을 만듭니다. 비즈니스 언어로 말하면 correction이 chat history에 머물면 안 된다는 뜻입니다. SOP update, source-of-truth change, eval case, dashboard alert, permission update가 되어야 합니다.

이 weekly loop가 있어야 autonomy도 안전하게 넓어집니다. demo가 멋졌다는 이유로 agent에게 더 많은 권한을 주면 안 됩니다. log가 반복 성공을 보이고, eval이 통과하고, approval edit이 적고, rollback이 준비되어 있고, human owner가 남은 risk를 설명할 수 있을 때 권한을 넓혀야 합니다.

  • 반복 실패 top 5를 보고 각각을 artifact로 바꿉니다.
  • Reject된 approval, edit된 draft, customer complaint에서 eval case를 추가합니다.
  • 오래된 SOP와 source-of-truth document를 업데이트합니다.
  • Permission을 audit하고 현재 workflow보다 넓은 tool 권한을 제거합니다.
  • 무엇이 개선됐고, 무엇은 아직 approval 대상이며, 무엇은 blocked인지 보고합니다.

8. 작은 회사에서는 누가 Agent Ops를 맡아야 하나

작은 회사가 새 부서를 만들 필요는 없습니다. 이름이 붙은 owner 한 명이 먼저입니다. 첫 달은 대표가 맡을 수 있습니다. 이후에는 workflow에 따라 운영, support, growth, 외부 service partner가 맡을 수 있습니다. 핵심은 ownership이 명시되어야 한다는 것입니다. 모두가 AI가 스스로 관리된다고 생각하면 실패 queue는 아무도 보지 않습니다.

Owner가 최고의 prompt writer일 필요는 없습니다. business rule, customer risk, source of truth, approval boundary를 이해하는 사람이면 됩니다. Trace, dashboard, tool integration, eval harness에는 technical help가 필요할 수 있지만 운영 기준은 business에서 나와야 합니다.

이 역할은 GUILDEX service package로도 자연스럽습니다. Fit Check로 workflow 하나를 고릅니다. 첫 workflow를 source, SOP card, approval lane, verification과 함께 만듭니다. 그 다음 Monthly Agent Ops Retainer로 queue monitoring, incident review, eval update, stale knowledge cleanup, permission audit, 짧은 운영 report를 제공합니다.

  • Founder: priority, risk appetite, first workflow choice를 책임집니다.
  • Operations lead: SOP, approval, handoff, weekly review를 책임집니다.
  • Support 또는 sales lead: 고객-facing 품질과 escalation rule을 책임집니다.
  • Technical partner: trace, tool wiring, dashboard, eval harness, release check를 책임집니다.
  • GUILDEX package: Fit Check, First Workflow Setup, Monthly Agent Ops Retainer.

9. AI가 발전할수록 사람도 함께 발전해야 하는 이유

AI가 좋아진다고 사람의 성장이 선택 사항이 되는 것은 아닙니다. 사람의 일이 바뀝니다. 앞으로 가치 있는 사람은 모든 답을 직접 쓰고, 모든 button을 누르고, 모든 draft를 고치는 사람만이 아닙니다. 일을 정의하고, 근거를 고르고, 경계를 정하고, pattern을 읽고, 실패 후 system을 개선하는 사람입니다.

그래서 Agent Ops는 anti-automation이 아닙니다. 더 깊은 자동화로 가는 길입니다. 사람이 source rule, approval rule, eval, dashboard, rollback, ownership을 표현할 수 있게 되면 agent는 더 많은 일을 안전하게 맡을 수 있습니다. 사람은 task doer에서 system operator이자 coach로 올라갑니다.

첫 행동은 작게 시작하면 됩니다. 이번 주 agent workflow 하나를 고르고 owner를 정하세요. Approval queue 하나, failure log 하나, eval list 하나, stale-source check 하나, weekly review 하나를 만드세요. 그 정도면 AI를 운 좋은 prompt가 아니라 운영체계로 다루기 시작한 것입니다.

참고자료

첫 AI 에이전트를 운영되는 workflow로 바꾸세요

Guildex는 팀이 현실적인 workflow 하나를 고르고, source rule, approval lane, tool permission, trace, eval, weekly improvement routine을 정의해 AI 도입이 방치된 실험이 아니라 관리되는 운영체계가 되도록 돕습니다.