AI 글쓰기 품질 설계
AI 글쓰기의 흔한 실패는 글을 못 쓴다는 데 있지 않습니다. 오히려 너무 매끄럽게 쓴다는 데 있습니다. 그래서 문제입니다. 문장은 자연스러운데 핵심이 없고, 근거가 얇고, 독자가 누구인지 흐릿하고, 사람이 책임지고 판단한 흔적이 없습니다. 해결책은 마법 같은 프롬프트가 아니라 좋은 결과가 무엇인지 보이는 기준을 만드는 것입니다.
1. 개요: 품질 문제는 첫 문장을 쓰기 전부터 시작됩니다
많은 팀이 AI에게 블로그, 제안서, 이메일, 보고서를 맡긴 뒤 비슷한 실망을 합니다. 문장은 깔끔합니다. 구조도 정돈되어 있습니다. 그런데 묵직한 알맹이가 없습니다. 어느 회사, 어느 독자, 어느 날에 붙여도 어색하지 않은 글이 나옵니다.
이번 조사에서 반복적으로 보인 신호도 같았습니다. OpenAI, Anthropic, Google의 공식 프롬프트 문서는 모두 명확한 지시, 예시, 맥락, 성공 기준, 평가를 강조합니다. 글쓰기 피드백 관련 최근 연구에서도 AI 피드백은 빠르고 넓고 정돈되어 있지만, 사람이 주는 피드백은 상황 맥락, 구체성, 미묘한 판단에서 강점이 있다는 흐름이 보입니다.
커뮤니티 신호도 비슷했습니다. 로컬 X 인박스에서는 반복되는 AI 문체를 제거하는 도구, 실행 후 피드백을 다음 루프에 반영하는 운영 방식이 많이 공유되었습니다. Reddit 쪽 논의에서도 불만은 같았습니다. AI는 그럴싸한 템플릿을 빠르게 만들지만, 좋은 글은 사람이 맥락, 예시, 목소리, 검수 기준을 넣을 때 나옵니다.
2. 기술 용어를 쉬운 말로 바꾸면 이렇습니다
AI 글쓰기 품질을 올리기 위해 개발자가 될 필요는 없습니다. 다만 몇 가지 용어를 알면 일을 나누기가 쉬워집니다. 프롬프트는 AI에게 주는 요청문입니다. 레퍼런스는 AI가 추측하지 말고 참고해야 할 자료입니다. 예시는 좋은 결과와 나쁜 결과가 어떻게 생겼는지 보여주는 샘플입니다.
루브릭은 채점표입니다. 정확성, 구체성, 읽기 쉬움, 근거, 톤, 실행 가능성을 어떤 기준으로 볼지 적어둔 표입니다. eval은 반복 시험지라고 생각하면 됩니다. 오늘 기분으로 "괜찮은데?"라고 보는 것이 아니라, 같은 시험 문제로 다음 주에도 기준을 통과하는지 보는 장치입니다.
SOP는 일하는 순서표입니다. 사람이든 AI든 이 일을 할 때 어떤 순서로 확인해야 하는지 적어둔 체크리스트입니다. AGENTS.md나 CLAUDE.md 같은 파일은 그 순서표와 팀 규칙을 AI가 매번 읽게 하는 운영 메모입니다. MCP는 AI와 외부 도구를 연결하는 표준 규격입니다. 쉽게 말하면 AI가 도구를 함부로 쓰지 않고 정해진 방식으로 쓰게 하는 연결 플러그에 가깝습니다.
- 프롬프트: AI에게 주는 요청문입니다.
- 레퍼런스: AI가 참고해야 할 자료입니다.
- 예시: 좋은 결과와 나쁜 결과를 보여주는 샘플입니다.
- 루브릭: 품질을 보는 채점표입니다.
- eval: 반복해서 확인하는 시험지입니다.
- SOP: 일하는 순서표입니다.
- 에이전트 지시 파일: AI가 매번 읽는 팀 규칙입니다.
- MCP: AI와 도구를 연결하는 표준 플러그입니다.
3. "더 잘 써줘"가 빈 껍데기를 만드는 이유
"더 잘 써줘"는 AI에게 너무 흐린 지시입니다. 누구에게 더 좋은 글인가요? 상담 신청을 고민하는 고객에게 좋은 글인가요? 다음 행동을 알아야 하는 내부 직원에게 좋은 글인가요? 검색으로 들어와 바로 답을 원하는 방문자에게 좋은 글인가요? 이 셋은 전부 다른 글입니다.
기준이 비어 있으면 AI는 인터넷에서 많이 본 평균적인 문장 구조로 빈칸을 채웁니다. 그래서 약한 AI 글은 비슷한 모양을 가집니다. 넓은 도입부, 균형 잡힌 듯한 주장, 깔끔한 목록, 부드러운 결론, 그리고 "이 회사와 이 상황에서만 나올 수 있는 말"은 거의 없습니다.
따라서 초점은 문체가 아니라 글의 임무입니다. 이 글은 독자가 무엇을 이해하고, 비교하고, 결정하고, 실행하게 만들기 위한 글인가요? 이 질문에 답하지 않으면 AI는 보기 좋은 문장으로 빈 곳을 메우게 됩니다.
4. 프롬프트보다 먼저 써야 하는 품질 기준 카드
AI에게 글을 쓰라고 하기 전에 작은 품질 기준 카드를 만드세요. 거대한 브랜드 가이드가 필요하다는 뜻이 아닙니다. 한 페이지면 충분합니다. 독자는 누구인가, 이 글은 어떤 결정이나 행동을 돕는가, 반드시 들어가야 할 근거는 무엇인가, 피해야 할 표현은 무엇인가, 완료 기준은 무엇인가를 적는 것입니다.
이 카드가 막연한 프롬프트와 쓸모 있는 결과 사이의 중간층입니다. 프롬프트는 "이 일을 해줘"라고 말합니다. 품질 기준 카드는 "이 일이 잘 됐다는 뜻은 이것이다"라고 말합니다. AI는 일을 수행하면서도 비즈니스 핵심을 놓칠 수 있기 때문에 이 차이가 중요합니다.
예를 들어 "AI 글쓰기에 대한 블로그를 써줘"는 약합니다. 더 좋은 기준은 이렇습니다. "비전문가인 소규모 사업 운영자가 읽는다. AI 글이 왜 비어 보이는지 설명한다. 기술 용어를 쉽게 정의한다. 커뮤니티 신호, 공식 가이드, 연구 근거, 간단한 검수표를 포함한다. 과장, 근거 없는 확신, 흔한 생산성 구호는 피한다."
- 독자: 누가 읽고, 이미 무엇을 알고 있나요?
- 목적: 읽은 뒤 무엇을 이해하거나 해야 하나요?
- 근거: 어떤 자료, 예시, 숫자, 현장 경험이 들어가야 하나요?
- 금지 목록: 어떤 표현, 구조, 주장, 톤을 피해야 하나요?
- 완료 기준: 사람이 무엇을 보고 발행 가능하다고 판단하나요?
5. 형용사보다 예시가 강합니다
막연한 형용사는 약한 조종 장치입니다. "전문적으로", "인사이트 있게", "쉽게", "사람처럼"이라는 말은 사람마다 뜻이 다릅니다. AI에게도 너무 넓은 공간을 줍니다. 그러면 AI는 그 단어의 평균적인 느낌을 흉내 냅니다.
예시는 훨씬 강합니다. 좋은 문단 하나와 약한 문단 하나를 보여주세요. 왜 좋은지, 왜 약한지 설명하세요. OpenAI와 Google의 문서도 few-shot, 즉 몇 개의 예시를 통해 모델에게 원하는 패턴과 형식을 보여주는 방식을 강조합니다. 쉽게 말하면 맛을 설명만 하지 말고 실제 음식을 보여주는 것입니다.
좋은 예시는 아름다운 문장만 뜻하지 않습니다. 비즈니스에 쓸모 있는 문장이어야 합니다. 실제 독자의 고민, 제약 조건, 근거, 다음 행동이 들어 있어야 합니다. 그래야 AI가 반짝이지만 속이 빈 초안을 덜 만들게 됩니다.
6. AI 글을 검수하는 일곱 줄 루브릭
루브릭은 취향을 반복 가능한 확인으로 바꿉니다. 판단을 없애는 도구가 아니라 판단할 손잡이를 만들어주는 도구입니다. "뭔가 별로야" 대신 "독자가 흐립니다", "근거가 얇습니다", "다음 행동이 없습니다"라고 말할 수 있게 합니다.
비즈니스 글쓰기에서는 복잡한 표가 필요 없습니다. 아래 항목을 1점부터 5점까지 보고, 가장 크게 고칠 부분을 한 문장으로 쓰면 됩니다. 점수보다 중요한 것은 매번 같은 품질 항목을 본다는 습관입니다.
여기서 AI 검수도 도움이 됩니다. AI에게 초안을 루브릭으로 먼저 검사하게 하면 약한 지점을 빠르게 찾을 수 있습니다. 다만 브랜드 신뢰, 고객 의사결정, 가격, 계약, 법적 리스크, 공개 주장에 영향을 주는 글은 사람이 최종 판단해야 합니다.
- 정확성: 주장이 사실이고 출처로 확인되나요?
- 구체성: 이 독자, 이 회사, 이 상황에만 맞는 말이 있나요?
- 쓸모: 독자가 결정하거나 행동하는 데 도움이 되나요?
- 근거: 예시, 커뮤니티 신호, 문서, 데이터가 들어 있나요?
- 읽기 쉬움: 비전문가도 멈추지 않고 따라올 수 있나요?
- 목소리: 템플릿이 아니라 생각하는 사람처럼 들리나요?
- 리스크: 불확실한 주장, 민감한 주제, 약속을 조심스럽게 다루나요?
7. 진짜 개선 루프: 사람이 고친 내용이 다음 기준이 됩니다
가장 비싼 실수는 같은 AI 습관을 매번 다시 고치는 것입니다. 사람이 매일 똑같이 빈 도입부를 지우고 있다면, 그것은 편집이 아니라 규칙이 빠져 있다는 신호입니다.
좋은 루프는 단순합니다. 초안 작성, 검수, 수정, 기준 업데이트, 재시험입니다. OpenAI의 에이전트 개선 루프 예시는 실행 기록, 사람과 모델의 피드백, eval, 작업 환경 수정을 연결합니다. 글쓰기에도 같은 원리가 적용됩니다. 무엇이 잘못됐는지 증거를 남기고, 그것을 더 명확한 규칙으로 바꿔 다음 작업이 배우게 하는 것입니다.
실무에서는 수정 뒤 다섯 곳 중 하나를 업데이트하면 됩니다. 프롬프트 템플릿, SOP, 스타일 카드, 예시 모음, 평가 체크리스트입니다. 시간이 지나면 AI는 단순히 더 많은 프롬프트를 받는 것이 아니라 더 좋은 작업 환경을 갖게 됩니다.
8. AI가 발전할수록 사람도 함께 발전해야 하는 이유
AI 모델이 좋아질수록 사람의 역할은 사라지는 것이 아니라 위로 올라갑니다. 모든 문장을 직접 치는 일은 줄어들 수 있습니다. 대신 무엇이 좋은 문장인지, 좋은 주장인지, 좋은 비즈니스 결과물인지 정의하는 일이 더 중요해집니다.
이 역할에는 다른 능력이 필요합니다. 사람은 얇은 근거, 흐릿한 주장, 빠진 맥락, 그럴싸한 확신을 더 잘 알아차려야 합니다. 고객 대화, 영업 통화, 지원 티켓, 운영 로그, 내부 의사결정에서 나온 실제 예시를 보존해야 합니다. AI가 책임 있게 지어낼 수 없는 재료가 바로 이런 구체성입니다.
강한 AI 글쓰기 팀은 가장 긴 프롬프트를 가진 팀이 아닙니다. 가장 명확한 기준, 가장 좋은 예시, 가장 빠른 피드백 루프, 그리고 "이 글은 그럴싸하지만 아직 말한 것이 없다"라고 말할 수 있는 판단력을 가진 팀입니다.
9. 비개발자 팀이 바로 시작하는 방법
하나의 반복 글쓰기 업무부터 시작하세요. 모든 블로그, 모든 세일즈 이메일, 모든 보고서를 한 번에 바꾸려고 하지 마세요. 품질이 중요하고 반복이 많은 형식 하나를 고르면 됩니다.
작은 노트 세 개를 만드세요. 첫째, AI가 참고할 수 있는 자료를 적은 소스 노트. 둘째, 좋은 결과의 기준을 적은 스타일과 기준 노트. 셋째, 반복 실수와 수정 내용을 남기는 검수 노트입니다. 팀이 이미 Notion, Obsidian, Google Docs, GitHub를 쓴다면 그 안에서 시작해도 됩니다.
그다음 매주 한 번만 루프를 돌리세요. AI가 초안을 쓰고, AI가 루브릭으로 자가 검수하고, 사람이 최종 검토하고, 기준을 업데이트하고, 잘 고쳐진 버전을 다음 예시로 저장합니다. 이렇게 해야 AI 글쓰기가 운에 맡기는 놀이가 아니라 운영 시스템이 됩니다.
10. 결론: 프롬프트는 현관문일 뿐입니다
좋은 프롬프트는 중요합니다. 하지만 프롬프트는 현관문일 뿐입니다. 진짜 품질은 그 뒤의 방에서 나옵니다. 믿을 수 있는 자료, 명확한 예시, 보이는 기준, 반복 가능한 검수, 사람의 판단이 필요합니다.
실무적인 결론은 간단합니다. AI 글이 비어 보인다면 톤만 다시 요청하지 마세요. AI가 어떤 기준을 맞추려고 했는지 물어보세요. 기준이 적혀 있지 않았다면 모델은 즉흥 연주를 한 것입니다. 가끔 그 즉흥 연주는 아름답습니다. 하지만 비즈니스 글쓰기를 아름다운 즉흥성에 맡기면 안 됩니다.
기준을 먼저 쓰세요. 그다음 프롬프트를 쓰세요. 검수하세요. 사람이 고친 내용을 다음 기준으로 바꾸세요. 그때부터 AI 글은 덜 흔하고, 더 쓸모 있고, 팀이 자신 있게 발행할 수 있는 작업물에 가까워집니다.
참고자료
- OpenAI API docs: Prompt engineering
- OpenAI API docs: Working with evals
- OpenAI Cookbook: Agent improvement loop with traces, evals, and Codex
- Claude docs: Prompt engineering overview
- Claude docs: Define success criteria and build evaluations
- Google AI for Developers: Prompt design strategies
- arXiv: Generative AI Feedback, English Writing and Teacher Rubrics
- arXiv: A Comparative Study of Technical Writing Feedback Quality
- arXiv: Can large language models provide useful feedback on research papers?
- X: AI writing pattern-removal signal from the local research inbox
- X: loop engineering signal from the local research inbox
- Reddit: community discussion on failed generic AI writing prompts
- Reddit: community discussion on human voice in AI-assisted writing
AI 글쓰기를 초안 생성이 아니라 운영 흐름으로 바꾸세요
Guildex Fit Check는 반복되는 글쓰기 업무를 소스 규칙, 예시, 루브릭, 승인 지점, 개선 루프로 바꾸어 AI 결과물이 실제 운영에 쓸모 있도록 정리합니다.
