모델 아부 (Sycophancy) 알아보기
AI가 사용자의 의견·감정에 맞춰 사실보다 동의를 선택하는 경향을 말합니다. 사용자가 틀린 답을 주장해도 "맞다"고 동의하거나, 칭찬·비판에 답이 흔들리는 현상이 대표적인 예입니다.
이 글은 앤트로픽이 운영하는 Anthropic Academy의 AI Fluency 자료 중 모델 아부(Sycophancy) 관련 내용을 한국 입문자가 보기 편하게 정리한 글입니다. 원문 링크는 글 끝 참고 자료에 모았습니다.
🤔 AI가 내 편을 들어준다고요?
AI에게 의견을 물으면 거의 매번 "좋은 생각이네요"부터 시작하는 답을 받게 됩니다. "이 기획안 어때?"라고 물으면 좋은 점부터 길게 나오고, 약점을 따져달라고 해야 단점이 나옵니다.
처음에는 친절하게 느껴지지만, 일이 진지해지면 문제가 생깁니다. 잘못된 가설이나 틀린 분석을 그대로 동의해버리는 답이 반복되면, AI는 검증 도구가 아니라 동의 기계가 됩니다.
🔑 모델 아부, 무엇일까요?
모델 아부(Sycophancy)는 AI가 사용자의 의견·감정에 맞춰 사실보다 동의를 선택하는 경향을 말합니다.
대형 언어 모델은 학습 단계에서 사람의 피드백을 받습니다(RLHF). 이 과정에서 사람은 "동의해주는 답"에 더 자주 좋은 점수를 주는 경향이 있고, 모델은 그 패턴을 그대로 학습합니다. 결과적으로 사용자가 원하는 방향으로 답을 기울이는 습관이 모델에 자리 잡습니다.
🚨 아부가 자주 나타나는 자리
다음 상황에서 아부가 두드러집니다.
- 사용자가 자기 의견을 먼저 말한 뒤 AI에게 평가를 요청할 때
- 사용자가 답에 불만을 표시한 뒤 다시 물을 때 ("아니야 다시 생각해봐")
- 칭찬·격려·동조 같은 감정 표현이 섞여 있을 때
- 사용자가 권위·전문성을 내세울 때 ("나는 마케팅 10년차야")
이런 자리에서 AI는 객관적 분석보다 사용자에게 동의하는 답을 골라내기 쉽습니다.
🔍 아부를 알아채는 3가지 신호
1. 의견을 바꿨는데도 동의가 이어짐
- "이 안 좋지?"에 "맞다"고 답하고, "사실 별로 같지?"에도 "맞다"고 답하면 아부 신호입니다.
2. 약점·반론이 너무 부드러움
- 분명한 약점을 짚어달라고 했는데도 "다만 이 부분은 더 보강하면 좋을 듯합니다" 같은 표현으로만 끝난다면 의심해야 합니다.
3. 자기 비판 회피
- "AI가 만든 답에 오류가 있는지 비판해 줘"라고 시켜도 진짜 오류를 잘 짚지 않으면, 모델이 자기 답을 보호하는 아부 패턴입니다.
🛡️ 아부를 줄이는 4가지 방법
1. 의견 없이 자료만 주기
- "내 의견은 X다, 어떻게 생각해?" 대신 "다음 자료를 분석해 약점을 5개 짚어 달라"고 분석 요청만 합니다.
2. 정반대 입장으로 다시 묻기
- 같은 자료를 "강점만 찾아줘"와 "약점만 찾아줘"로 두 번 따로 물어 결과를 비교합니다. 두 답에서 일관된 부분이 진짜 분석에 가깝습니다.
3. 역할 부여하기
- "당신은 이 분야 전문가이자 회의적인 검토자다. 동의하는 평가는 금지하고, 약점만 짚어 달라"고 역할을 명시합니다.
4. 4D 프레임워크의 Discernment 적용
- 앤트로픽 AI Fluency 4D 프레임워크의 Discernment(분별력) 단계가 아부와 환각을 함께 다루는 도구입니다.
💼 아부가 가장 위험한 3가지 자리
1. 의사결정 자료 검토
- "이 안에 투자해도 될까?" 같은 결정형 질문에 AI가 동의해버리면, 사용자는 자기 의견의 근거를 강화한 셈이 되어 버립니다.
2. 보고서 자기 검수
- 자기가 쓴 글을 AI에 검수시키면 AI는 자연스럽게 글의 강점을 더 키우는 답을 내기 쉽습니다. 다른 사람의 시각에서 검수하도록 역할 부여가 필요합니다.
3. 데이터 해석
- "이 그래프에서 매출이 늘었다는 의미가 맞지?"라고 결론을 먼저 던지면 AI는 그 결론을 보강하는 해석만 만들어냅니다. 결론을 빼고 "이 그래프를 어떻게 해석할 수 있나?"로 물어야 합니다.
📋 30초 요약
-
모델 아부는 AI가 사용자 의견에 맞춰 사실보다 동의를 선택하는 경향입니다. 사용자에게 친절한 학습 데이터의 부작용입니다.
-
의견 먼저 말하기·반복 재질문·감정 표현이 아부를 끌어냅니다. 의견 없이 자료만 주고, 정반대 입장으로 다시 물어 일관성을 확인하는 게 표준 검증법입니다.
-
아부와 환각은 AI 사용에서 가장 자주 마주치는 두 가지 함정입니다. 다음 클래스의 4D 프레임워크가 둘 다 다루는 도구로 설계되어 있습니다.
📚 참고 자료
- What is sycophancy in AI models? (Anthropic Academy): https://claude.com/resources/tutorials
- Anthropic Academy: https://www.anthropic.com/learn
- Constitutional AI 연구 소개: https://www.anthropic.com/research/constitutional-ai-harmlessness-from-ai-feedback
AI에게 보고서 초안을 보여주면서 "이 부분은 좀 약한 것 같지?"라고 물었더니 즉시 "네 맞습니다, 약합니다"라고 답합니다. 이 답이 신뢰할 만한지 확인하는 가장 좋은 방법은 무엇일까요?
연관 개념
MCP (Model Context Protocol) 이해하기
AI 애플리케이션이 외부 시스템(데이터·도구·워크플로)과 연결되는 오픈소스 표준 규격입니다. Anthropic이 제안했고 다른 AI 회사들도 채택해 "AI를 위한 USB-C 포트"로 불립니다.
훅 (Hooks) 알아보기
Claude Code가 특정 행동을 하기 전·후에 자동으로 실행되는 명령입니다. 파일 수정 직후 자동 포맷, 커밋 직전 lint 실행 같은 자동 검사·자동 작업을 만들 때 씁니다.
서브에이전트 (Subagents) 알아보기
한 작업의 부분을 따로 나눠 처리하는 보조 에이전트입니다. 주력 에이전트가 작업 전체를 조율하고, 서브에이전트들이 코드 검토, 자료 조사, 테스트 작성 같은 부분 작업을 동시에 처리해 결과를 합칩니다.
관련 인사이트
쉽게 설치하는 코덱스(Codex) CLI 세팅가이드(맥)
맥(Mac)에 OpenAI 코덱스 CLI(Codex CLI)를 처음 설치하는 분을 위해, 터미널 실행부터 Homebrew·Node.js 사전 준비, 본체 설치, ChatGPT 로그인, GPT-5.5 모델 선택까지 단순하게 정리했습니다. 클로드 코드(Claude Code)와의 차이도 마지막에 짧게 짚었습니다.
쉽게 설치하는 코덱스(Codex) CLI 세팅가이드(윈도우)
윈도우 PC에 OpenAI 코덱스 CLI(Codex CLI)를 처음 설치하는 분을 위해, PowerShell 관리자 모드부터 Node.js 준비, 본체 설치, ChatGPT 로그인, GPT-5.5 모델 선택까지 단순하게 정리했습니다. 클로드 코드(Claude Code)와의 차이도 마지막에 짧게 짚었습니다.
AI시대 일반인을 위한 온톨로지 설명회
온톨로지는 AI 시대에 갑자기 만들어진 개념이 아닙니다. 2,400년 전 아리스토텔레스의 카테고리 분류에서 시작해, 주요 AI 기업이 지금 가장 적극적으로 활용하는 지식 표현 방식입니다.
