AI 업무 선정 가이드
첫 AI 에이전트는 데모가 멋있어서 고르면 안 됩니다. 자주 반복되고, AI가 볼 맥락이 충분하며, 문제가 생기기 전에 사람이 검토할 수 있고, 다음 버전을 위한 학습 데이터가 남는 업무부터 골라야 합니다.
1. 개요: 첫 업무 선택이 AI 도입의 누적 효과를 결정합니다
많은 팀이 "어떤 에이전트를 살까, 만들까"부터 묻습니다. 하지만 먼저 물어야 할 질문은 다릅니다. "어떤 업무가 충분히 좁고, 자주 반복되고, 안전하게 배울 수 있을까?"입니다.
OpenAI의 에이전트 가이드는 에이전트가 특히 복잡한 의사결정, 관리하기 어려운 규칙, 비정형 데이터가 많은 업무에서 유용하다고 설명합니다. Anthropic은 여기에 중요한 단서를 붙입니다. 가능한 가장 단순한 해법부터 시작하고, 비용과 지연과 복잡성을 감수할 가치가 있을 때만 에이전트성을 높이라는 것입니다.
그래서 첫 AI 에이전트 업무는 너무 사소해서도, 너무 위험해서도 안 됩니다. 너무 사소하면 일반 자동화가 더 싸고 빠릅니다. 너무 위험하면 회사가 실수로 학습합니다. 좋은 중간 지점은 자주 반복되고, 사람이 검토할 수 있으며, AI가 초안 작성, 분류, 검색, 요약, 다음 행동 준비를 맡을 수 있는 업무입니다.
2. 다섯 가지 기준: 빈도, 맥락, 리스크, 회수 가능성, 학습 데이터
첫 후보 업무는 다섯 가지 기준을 통과해야 합니다. 빈도는 그 일이 얼마나 자주 반복되는지입니다. 맥락 부담은 사람이 매번 메시지, 문서, 정책, 고객 이력, 과거 결정을 모으느라 쓰는 시간입니다.
리스크는 결과가 틀렸을 때의 실제 비용입니다. 회수 가능성은 나쁜 행동이 고객, 돈, 계약, 보안, 공식 기록에 닿기 전에 멈추거나 되돌릴 수 있는지입니다. 학습 데이터는 사람이 검토한 결과가 SOP, eval, 권한 규칙, 프롬프트 개선으로 남을 수 있는지입니다.
이 차이가 "AI가 한 번 해냈다"와 "AI가 매주 프로세스를 개선한다"를 나눕니다. 첫 업무는 예쁜 초안 하나가 아니라 피드백 루프를 만들어야 합니다.
- 빈도: 이 일이 매일 또는 매주 반복됩니까?
- 맥락 부담: 사람이 같은 배경 자료를 반복해서 모읍니까?
- 리스크: 답이 틀렸을 때 실제 손실은 무엇입니까?
- 회수 가능성: 결과를 초안, 추천, 승인 대기 상태로 둘 수 있습니까?
- 학습 데이터: 검토자가 실패 이유를 라벨링해서 시스템을 개선할 수 있습니까?
3. 맡기기 좋은 첫 업무: 작고, 반복되고, 검토 가능한 일
좋은 첫 업무는 대개 화려하지 않습니다. 리드 정리, 고객 문의 분류, 회의와 메일 요약, 견적 초안, 내부 문서 검색, 누락 정보 체크, 주간 패턴 리포트처럼 반복되고 맥락이 필요하며 사람이 검토할 수 있는 업무가 좋습니다.
Microsoft의 agent tool 문서는 좋은 경계선을 줍니다. 도구는 에이전트가 외부 데이터에 접근하거나 실제 행동을 하게 만들어 유용성을 크게 높이지만, 동시에 지연, 디버깅 난이도, 신뢰성 문제, 민감한 행동에 대한 승인 필요성을 함께 가져옵니다. 그래서 첫 업무는 실행 권한 없이 시작하는 편이 좋습니다.
예를 들어 에이전트가 문의를 읽고, 고객 기록을 찾고, 긴급도를 분류하고, 다음 답변을 초안으로 만들고, 왜 그렇게 판단했는지 보여주게 할 수 있습니다. 하지만 최종 발송, 환불, 계약 변경, 공식 DB 기록은 로그와 eval이 쌓일 때까지 사람 승인 뒤에 두는 편이 안전합니다.
- 리드 정리: 유입 경로, 회사, 문제, 긴급도, 다음 행동을 요약합니다.
- 고객 문의 분류: 주제, 감정, 위험도, 근거 정책, 추천 답변을 정리합니다.
- 회의/메일 요약: 결정, 담당자, 기한, 미해결 질문을 뽑습니다.
- 견적/제안서 초안: 템플릿과 고객 맥락을 바탕으로 첫 버전을 준비합니다.
- 내부 지식 검색: 출처가 있는 답변을 만들고 정책 공백을 표시합니다.
4. 첫 업무로 피해야 할 일: 되돌리기 어렵고 민감하고 평판에 닿는 일
가치 있는 업무라고 해서 첫 후보가 되는 것은 아닙니다. 결제, 계약 확정, 법률 판단, 인사 결정, 계정 삭제, 공개 포스팅, 고객에게 바로 발송, 운영 시스템 변경은 되돌리기 어려운 외부 효과가 있습니다.
AI가 이런 업무를 전혀 도울 수 없다는 뜻은 아닙니다. 다만 첫 버전은 더 앞에서 멈춰야 합니다. 환불 설명을 작성하되 환불은 실행하지 않습니다. 계약 리스크를 요약하되 계약을 승인하지 않습니다. 고객 답변을 준비하되 바로 보내지 않습니다. CRM 변경안을 제안하되 공식 기록에는 자동으로 쓰지 않습니다.
NIST AI RMF는 AI를 단순 생산성 도구가 아니라 관리해야 할 위험으로 보게 합니다. 비즈니스 언어로 바꾸면 이렇습니다. 결과의 파급력이 클수록 업무 오너, 승인 경로, 근거, 롤백 계획이 더 선명해야 합니다.
- 첫 업무로 피할 것: 송금, 삭제, 법무 결론, 인사 판단, 보안 예외, 검토 없는 공개 커뮤니케이션.
- 안전한 첫 버전: 초안만 작성, 추천만 제공, 근거 요약, 승인 대기 큐.
- 확장 조건: 로그, 검토자 라벨, 승인 기준, 롤백 규칙, eval 케이스가 있을 때.
5. 쉬운 용어 정리: workflow, handoff, rollback, risk tier, SOP, eval
workflow는 일이 입력에서 결과까지 가는 반복 경로입니다. 고객지원 workflow라면 고객 메시지에서 시작해 답변, 환불 요청, 에스컬레이션으로 끝날 수 있습니다.
handoff는 에이전트가 멈추고 사람이나 다른 시스템에 넘기는 지점입니다. 좋은 handoff는 명확합니다. 누가 받는지, 무엇을 봐야 하는지, 어떤 결정을 해야 하는지가 보여야 합니다.
rollback은 문제가 생겼을 때 변경을 되돌리거나 멈추는 계획입니다. 비전문가에게는 "잘못되면 이전 안전한 상태로 어떻게 돌아갈까?"라는 규칙으로 이해하면 됩니다.
- risk tier: 낮음, 중간, 높음처럼 검토 강도를 정하는 간단한 위험 등급입니다.
- SOP: 업무를 어떻게 처리해야 하는지 적은 운영 규칙입니다. 사람 직원의 업무 매뉴얼이자 에이전트가 읽어야 할 기준입니다.
- eval: 반복 가능한 시험 케이스입니다. 프롬프트, 모델, 권한, SOP를 바꾼 뒤 에이전트가 좋아졌는지 나빠졌는지 확인합니다.
- scorecard: 감이 아니라 표로 첫 업무 후보를 고르게 해주는 작은 평가표입니다.
6. 첫 에이전트 업무를 고르는 실무 점수표
각 후보 업무를 1점부터 5점까지 매깁니다. 단순 평균만 보지 말고 치명적인 리스크가 있는지도 봐야 합니다. 반복 빈도와 맥락 부담이 높고, 되돌릴 수 없는 위험이 낮고, 검토 라벨이 명확한 업무가 좋은 첫 후보입니다.
점수표는 AI에 관심 있는 사람만 작성하면 안 됩니다. 실제 workflow owner가 함께 작성해야 합니다. 그 사람이 실제 비용, 고객 리스크, 검토 부담이 어디에 있는지 압니다.
X와 Reddit의 커뮤니티 신호도 같은 운영 교훈을 보여줍니다. 사람들은 E2E 에이전트에 기대가 크지만, 실제로는 검토 비용, 깨지기 쉬운 규칙, 책임자 부재, 통제되기 전 자율성을 키우는 유혹에서 반복적으로 막힙니다.
- 5점: 매일 반복되고, 맥락이 필요하고, 초안으로 둘 수 있고, 실수를 잡기 쉽고, 실패 이유를 라벨링할 수 있습니다.
- 3점: 유용하지만 제한된 도구 권한, 더 명확한 정책, 이름 있는 검토자가 먼저 필요합니다.
- 1점: 드물고, 모호하고, 결과가 치명적이고, 검토하기 어렵고, 되돌리기 어렵습니다.
- 가장 먼저 시작할 업무는 2주 동안 실행보다 검토 중심으로 운영할 수 있는 최고점 후보입니다.
7. Guildex식 도입 사다리
안전한 첫 에이전트는 보통 사다리를 올라갑니다. 먼저 관찰하고 요약합니다. 다음에는 초안을 작성합니다. 그 다음에는 다음 행동을 추천합니다. 그 다음에는 행동을 승인 대기 큐에 넣습니다. 마지막으로 로그와 eval에서 품질이 안정적으로 보일 때 좁은 저위험 행동만 자동 실행합니다.
이 사다리는 야심을 낮추기 위한 것이 아닙니다. 회사가 assistant에서 operator로 넘어가되, 소유자, 검토, 승인, 개선을 건너뛰지 않게 하기 위한 것입니다.
Guildex Fit Check에서 첫 산출물은 모델 선택이 아닙니다. 후보 업무, 점수, 첫 안전 버전, 검토자, 승인 경계, 롤백 규칙, 확장 판단 지표가 들어간 workflow selection sheet입니다.
- 1단계: 관찰하고 요약합니다.
- 2단계: 초안을 만들고 출처를 붙입니다.
- 3단계: 다음 행동을 추천합니다.
- 4단계: 행동을 사람 승인 대기 상태로 둡니다.
- 5단계: 로그, eval, 롤백이 있는 좁은 저위험 행동만 자동 실행합니다.
8. 결론: 학습 비용이 낮고 눈에 보이는 곳에서 시작하세요
첫 AI 에이전트 업무는 과시용 프로젝트가 아닙니다. 회사가 지식 연결, 결과 검토, 예외 처리, 지시문 개선을 배우는 자리입니다. 이 학습이 화려한 자동화 하나보다 더 중요합니다.
반복되고, 맥락이 보이고, 위험을 제한할 수 있고, 사람이 검토할 수 있고, 모든 수정이 시스템 기억으로 남는 업무를 고르세요. 거기서부터 AI 도입은 누적되기 시작합니다.
참고자료
- OpenAI: A practical guide to building agents
- Anthropic: Building effective agents
- Microsoft Learn: Adding tools to agents
- Microsoft Learn: Tool approval and human-in-the-loop
- NIST AI Risk Management Framework
- Reddit r/AI_Agents: Anthropic 에이전트 원칙 커뮤니티 토론
- X: workflow design과 E2E agent 신호
- X: 빠른 AI 출력과 검토 비용 신호
- X: AI를 잘 쓰는 것과 시스템에 박는 것의 차이
도구를 연결하기 전에 첫 AI 에이전트 업무부터 고르세요
Guildex Fit Check는 후보 업무를 빈도, 맥락 부담, 리스크, 회수 가능성, 검토 경로, 개선 데이터로 점수화해 첫 AI 에이전트가 안전하게 누적되는 지점에서 시작하도록 돕습니다.
