CCAF 시험 개요 — 심화편
문서 성격: Claude Certified Architect – Foundations (CCAF) 시험의 구조, 출제 방식, 사고 모델, 범위를 정리한 독립 참고 자료
기준: 공식 CCAF 시험 가이드 (Version 0.1, 2025년 2월) + 공개 합격 후기 분석
최종 갱신: 2026년 3월
이 시험은 무엇인가
Claude Certified Architect – Foundations(이하 CCAF)는 Anthropic이 2026년 3월 12일에 출시한 최초의 공식 기술 자격증이다. 이 시험은 일반적인 AI 활용 능력이나 프롬프트 작성 수준을 측정하는 것이 아니다. 솔루션 아키텍트(solution architect)가 Claude를 활용한 프로덕션급 시스템을 설계하고 배포할 때 내려야 하는 트레이드오프 판단 능력을 검증한다.
다시 말해, 이 시험이 묻는 것은 “Claude를 사용할 줄 아는가?”가 아니라 **“Claude로 프로덕션 시스템을 설계할 때 올바른 아키텍처 결정을 내릴 수 있는가?”**이다.
시험이 다루는 4대 기술 스택
CCAF는 Claude 생태계의 핵심 기술 4가지를 중심으로 출제된다. 이 4가지를 관통하는 실무 판단이 시험의 본질이다.
| 기술 | 역할 | 시험에서의 비중 |
|---|---|---|
| Claude Agent SDK | 에이전트 정의, 에이전트 루프, 훅, 서브에이전트 생성, allowedTools 설정 | 도메인 1을 중심으로 전 도메인에 걸쳐 등장 |
| Claude Code | CLAUDE.md 설정, 스킬, 슬래시 명령, plan mode, CI/CD 통합 | 도메인 3에 집중, 도메인 5와 교차 |
| Claude API | tool_use, tool_choice, stop_reason, JSON 스키마, Message Batches API | 도메인 1, 4에서 핵심 |
| Model Context Protocol (MCP) | MCP 서버/도구/리소스 설정, .mcp.json 범위, 환경 변수 확장 | 도메인 2에 집중, 도메인 1·4와 교차 |
대상 수험자
공식 시험 가이드는 대상 수험자(target candidate)를 매우 구체적으로 정의하고 있다. 이것은 단순한 권장 사항이 아니라, 시험 문항의 난이도와 전제 지식을 결정하는 기준이기도 하다.
이상적인 수험자 프로필:
- Claude API, Agent SDK, Claude Code, MCP를 사용한 6개월 이상의 실무 구축 경험
- Claude Agent SDK를 이용한 에이전트 애플리케이션 구축 — 멀티 에이전트 오케스트레이션, 서브에이전트 위임, 도구 통합, 생명주기 훅 포함
- CLAUDE.md 파일, Agent Skills, MCP 서버 통합, plan mode를 활용한 Claude Code 커스터마이징
- MCP 도구 및 리소스 인터페이스 설계
- JSON 스키마, few-shot 예시, 추출 패턴을 활용한 구조화된 출력을 위한 프롬프트 설계
- 장문서, 멀티턴 대화, 멀티 에이전트 핸드오프에 걸친 문맥 창(context window) 관리
- CI/CD 파이프라인에 Claude를 통합한 자동화된 코드 리뷰, 테스트 생성, PR 피드백 경험
- 에러 처리, 인간 개입(human-in-the-loop) 워크플로, 자기 평가 패턴 등 에스컬레이션 및 신뢰성 관련 의사결정
이 목록에서 주목할 점은, “Claude를 잘 사용하는 것”과 “Claude로 시스템을 설계하는 것”은 완전히 다른 역량이라는 점이다. CCAF는 후자에 초점을 맞추고 있다.
시험 형식
시험의 물리적 형식을 정확히 이해하는 것은 준비 전략에 직접적인 영향을 미친다.
기본 구조
| 항목 | 내용 |
|---|---|
| 문항 수 | 60문항 |
| 문항 유형 | 객관식 4지선다 (정답 1개 + 오답 3개) |
| 채점 방식 | 스케일링 점수(scaled score), 100~1,000 범위 |
| 합격 기준 | 720점 이상 |
| 오답 감점 | 없음 — 모든 문제에 반드시 답하는 것이 유리하다 |
| 미응답 처리 | 오답으로 처리됨 |
여기서 스케일링 채점(scaled scoring)이 의미하는 바를 이해해야 한다. 시험에는 여러 버전의 시험지(exam form)가 존재할 수 있으며, 각 버전의 난이도가 약간씩 다를 수 있다. 스케일링 모델은 이러한 난이도 차이를 보정하여, 어떤 버전의 시험을 치르든 동등한 기준으로 합/불합을 판정한다. 따라서 “60문제 중 몇 개를 맞혀야 한다”는 식의 단순 환산은 정확하지 않다.
오답 선택지(Distractor)의 설계
이 시험에서 가장 주의할 점 중 하나는 오답 선택지가 의도적으로 그럴듯하게 설계되어 있다는 것이다. 공식 시험 가이드는 이렇게 정의한다:
오답 선택지(distractor)는 불완전한 지식이나 경험을 가진 수험자가 선택할 법한 답이다.
이것은 매우 중요한 설계 원칙이다. 오답이 명백히 틀린 내용이 아니라, 부분적으로 맞거나 특정 상황에서는 합리적이지만 해당 시나리오의 근본 원인(root cause)을 놓치는 방향으로 구성된다. 예를 들어:
- “few-shot 예시를 추가하여 도구 호출 순서를 강제한다” → few-shot 자체는 유효한 기법이지만, 순서 보장은 규정 준수 문제이므로 코드 수준 강제가 필요하다.
- “감정 분석으로 에스컬레이션을 결정한다” → 감정 분석은 실제로 쓸 수 있는 기술이지만, 고객의 좌절감은 사례의 복잡도와 상관관계가 없다.
따라서 시험 준비 시에는 정답뿐 아니라 “왜 이 선택지가 틀린가”를 이해하는 것이 핵심이다. 공식 모의시험의 오답 해설을 주의 깊게 읽어야 하는 이유도 여기에 있다.
시나리오 기반 출제 구조
CCAF의 가장 독특한 특징은 모든 문제가 시나리오에 기반한다는 것이다. 이것은 단순히 문제 앞에 이야기가 붙는 것이 아니라, 시험의 출제 구조 자체가 시나리오를 중심으로 설계되어 있다는 뜻이다.
시나리오 작동 방식
- 시험에는 총 6개의 시나리오가 풀(pool)로 존재한다
- 시험을 치를 때 6개 중 4개가 무작위로 선택되어 출제된다
- 모든 문제는 선택된 4개 시나리오 중 하나에 **고정(anchored)**된다
- 수험자는 해당 시나리오의 시스템 아키텍트로서 답을 선택한다
이것이 의미하는 바는 명확하다: 6개 시나리오를 모두 학습해야 한다. 어떤 4개가 나올지 예측할 수 없으며, 각 시나리오는 여러 도메인에 걸쳐 있기 때문에 한 시나리오를 깊이 이해하면 여러 도메인의 이해가 자연스럽게 강화된다.
6개 시나리오 개요
| # | 시나리오 | 설명 | 교차 도메인 |
|---|---|---|---|
| 1 | 고객 지원 해결 에이전트 | Agent SDK 기반. MCP 도구(get_customer, lookup_order, process_refund, escalate_to_human)를 통해 백엔드 시스템에 접근. 80%+ 최초 접촉 해결률 목표. | D1, D2, D5 |
| 2 | Claude Code를 이용한 코드 생성 | 코드 생성, 리팩터링, 디버깅, 문서화에 Claude Code를 활용. 슬래시 명령, CLAUDE.md, plan mode vs 직접 실행 판단. | D3, D5 |
| 3 | 멀티 에이전트 연구 시스템 | Agent SDK 기반. 코디네이터가 웹 검색, 문서 분석, 종합, 보고서 생성 서브에이전트에게 위임. 출처가 명시된 종합 보고서 생성. | D1, D2, D5 |
| 4 | Claude를 이용한 개발자 생산성 | Agent SDK 기반. 낯선 코드베이스 탐색, 레거시 시스템 이해, 보일러플레이트 생성, 반복 작업 자동화. 빌트인 도구(Read, Write, Bash, Grep, Glob)와 MCP 서버 통합. | D2, D3, D1 |
| 5 | CI/CD를 위한 Claude Code | CI/CD 파이프라인에 Claude Code를 통합하여 자동 코드 리뷰, 테스트 케이스 생성, PR 피드백 제공. 오탐을 줄이는 프롬프트 설계. | D3, D4 |
| 6 | 구조화된 데이터 추출 | 비정형 문서에서 정보를 추출하고 JSON 스키마로 검증. 엣지 케이스 처리. 다운스트림 시스템과의 통합. | D4, D5 |
시나리오-도메인 교차 맵
이 교차 관계를 표로 정리하면 학습 우선순위를 잡기 쉽다.
| 시나리오 | D1 | D2 | D3 | D4 | D5 |
|---|---|---|---|---|---|
| 1. 고객 지원 해결 에이전트 | ● | ● | ● | ||
| 2. Claude Code를 이용한 코드 생성 | ● | ● | |||
| 3. 멀티 에이전트 연구 시스템 | ● | ● | ● | ||
| 4. Claude를 이용한 개발자 생산성 | ● | ● | ● | ||
| 5. CI/CD를 위한 Claude Code | ● | ● | |||
| 6. 구조화된 데이터 추출 | ● | ● |
●는 해당 시나리오의 주요 도메인을 뜻한다.
이 표에서 알 수 있는 것은, 도메인 1(에이전트 아키텍처)과 도메인 5(문맥 관리)가 가장 많은 시나리오에 걸쳐 있다는 점이다. 반면 도메인 4(구조화된 출력)는 시나리오 5와 6에 집중되어 있어, 해당 시나리오가 선택되지 않으면 비중이 상대적으로 줄어들 수 있다. 그러나 어떤 시나리오가 나올지 모르므로 모든 도메인을 고르게 준비해야 한다.
도메인별 비중과 태스크 구조
각 도메인은 여러 개의 **태스크 문장(task statement)**으로 구성된다. 태스크 문장은 “이런 상황에서 이런 판단을 내릴 수 있는가?”를 정의하며, 각 태스크 문장 아래에 필요한 **지식(knowledge)**과 **기술(skill)**이 명시되어 있다.
도메인 구성 요약
| 도메인 | 비중 | 태스크 수 | 핵심 키워드 |
|---|---|---|---|
| 1. 에이전트 아키텍처 및 오케스트레이션 | 27% | 7개 (1.1~1.7) | stop_reason, 허브-앤-스포크, Task 도구, 훅, 프롬프트 체이닝, fork_session |
| 2. 도구 설계 및 MCP 통합 | 18% | 5개 (2.1~2.5) | tool description, isRetryable, tool_choice, .mcp.json, Grep/Glob/Edit |
| 3. Claude Code 구성 및 워크플로 | 20% | 6개 (3.1~3.6) | CLAUDE.md 계층, context: fork, .claude/rules/, plan mode, -p 플래그 |
| 4. 프롬프트 엔지니어링 및 구조화된 출력 | 20% | 6개 (4.1~4.6) | 명시적 기준, few-shot, nullable 필드, 검증 루프, batch API, 멀티패스 리뷰 |
| 5. 문맥 관리 및 신뢰성 | 15% | 6개 (5.1~5.6) | 케이스 팩트 블록, 에스컬레이션 기준, 구조화된 에러 문맥, 스크래치패드, 출처 매핑 |
여기서 주목할 점이 하나 있다. **도메인 1과 3의 합산 비중이 47%**로, 시험의 거의 절반을 차지한다. 에이전트 아키텍처와 Claude Code 구성이 이 시험의 핵심이라는 뜻이다. 그러나 도메인 5(15%)를 가볍게 볼 수 없는 이유는, 이 도메인이 6개 시나리오 중 4개에 걸쳐 있어 교차 출제 빈도가 가장 높기 때문이다.
시험을 관통하는 5가지 사고 모델
이 시험은 암기를 측정하지 않는다. 반복적으로 등장하는 추론 패턴, 즉 사고 모델(mental model)을 이해하고 있어야 한다. 아래 5가지는 도메인과 시나리오를 가리지 않고 출제의 기반이 되는 원칙이다.
사고 모델 1: 코드 수준 강제 > 프롬프트 지시
이 시험에서 가장 빈번하게 출제되는 단일 개념이다.
핵심은 간단하다. 비즈니스 규칙이 반드시 지켜져야 하는 상황에서는 프롬프트 지시만으로 충분하지 않다. 프롬프트는 확률적으로 작동하므로 대부분은 맞더라도 0이 아닌 실패율이 남는다. 반면 훅(hook)과 사전 조건 게이트(prerequisite gate)는 규칙을 코드로 강제하므로 결과를 더 확실하게 통제할 수 있다.
시험에서 이것이 어떻게 나오는가:
프로덕션 데이터에 따르면 12%의 경우에서 에이전트가
get_customer를 건너뛰고 고객이 말한 이름만으로lookup_order를 호출합니다. 이로 인해 잘못된 계정이 식별되고 잘못된 환불이 발생하고 있습니다. 이 신뢰성 문제를 가장 효과적으로 해결하는 방법은?
이런 문제에서 “시스템 프롬프트에 고객 확인이 필수라고 명시한다”나 “few-shot 예시를 추가한다”는 선택지가 그럴듯해 보이지만, 정답은 get_customer가 검증된 고객 ID를 반환할 때까지 lookup_order와 process_refund를 코드 수준에서 차단하는 것이다.
판별 공식: “이 규칙이 지켜지지 않으면 금전적·법적 결과가 발생하는가?” → 예 → 코드 수준 강제. 아니오 → 프롬프트 지시로 충분.
사고 모델 2: 도구 설명이 라우팅의 핵심이다
모델이 여러 도구 중 하나를 선택할 때, 그 결정을 주도하는 것은 시스템 프롬프트도 함수 이름도 아니다. 가장 큰 영향을 주는 것은 **도구 설명(tool description)**이다.
왜 이것이 중요할까? 유사한 기능을 가진 두 도구의 설명이 최소한으로만 작성되어 있으면(“고객 정보를 검색” / “주문 정보를 검색”), 모델은 어떤 것을 써야 할지 추측하게 된다. 해결 방법은 아키텍처를 바꾸거나 도구를 통합하는 것이 아니라, 설명문을 개선하는 것이 첫 번째 단계이다.
시험에서의 출제 패턴:
에이전트가 주문 관련 질문에서도
get_customer를 자주 호출합니다. 두 도구 모두 최소한의 설명과 유사한 식별자 형식을 가지고 있습니다. 가장 효과적인 첫 단계는?
정답은 “각 도구의 설명을 확장하여 입력 형식, 예제 질의, 엣지 케이스, 유사 도구와의 경계를 포함한다”이다. 도구 통합(consolidation)은 유효한 선택이지만 “첫 단계”로는 과도한 노력이 필요하다.
사고 모델 3: 서브에이전트는 문맥을 상속하지 않는다
멀티 에이전트 시스템에서 코디네이터가 서브에이전트를 생성할 때, 서브에이전트는 코디네이터의 대화 이력을 자동으로 받지 않는다. 공유 메모리도 없고, 이전 서브에이전트의 결과가 자동으로 전달되지도 않는다.
이 원칙의 실무적 함의는 명확하다. 종합(synthesis) 에이전트가 웹 검색 에이전트의 결과를 필요로 한다면, 해당 결과를 종합 에이전트의 프롬프트에 직접 포함시켜야 한다. 메타데이터(출처 URL, 문서명, 페이지 번호)와 본문 내용을 구조화된 형식으로 분리해 전달하는 것이 모범 사례다.
사고 모델 4: “중간 부분 손실”은 실제 제약이다
모델은 긴 입력을 처리할 때 앞부분과 뒷부분에 위치한 정보는 안정적으로 처리하지만, 중간에 위치한 정보는 누락하거나 정확도가 떨어지는 경향이 있다. 이것은 “lost in the middle” 효과로 알려진 실증적 현상이며, 더 큰 문맥 창을 사용한다고 해결되지 않는다.
이 제약에 대한 설계 대응:
- 핵심 요약을 집계된 입력의 앞부분에 배치한다
- 명시적인 섹션 헤더로 결과를 구조화한다
- 대규모 리뷰는 파일별 로컬 패스 + 별도의 파일 간 통합 패스로 분할한다
시험에서의 함정: “더 큰 문맥 창을 가진 상위 모델로 전환한다”는 선택지는 문맥 크기와 주의 품질(attention quality)을 혼동하는 오답이다.
사고 모델 5: Batch API는 지연 시간 결정이다
Message Batches API는 50% 비용 절감을 제공하지만, 구속력 있는 제약은 최대 24시간의 처리 기간과 보장된 SLA의 부재이다.
이 사고 모델의 적용은 단순하다:
| 워크플로 유형 | API 선택 | 이유 |
|---|---|---|
| pre-merge 검사 (개발자가 결과를 기다림) | 실시간 API | 차단(blocking) 워크플로 — 지연 불가 |
| 실시간 고객 상호작용 | 실시간 API | 응답 지연 불가 |
| 야간 기술 부채 보고서 | Batch API | 다음 날 아침 검토 — 24시간 SLA 수용 가능 |
| 주간 감사 | Batch API | 비차단(non-blocking) 주기적 작업 |
| 야간 테스트 생성 | Batch API | 비차단 자동화 |
시험에서의 함정: “두 워크플로 모두 batch API로 전환하여 비용을 절감한다”는 관리자의 제안을 어떻게 평가해야 하는지가 출제된다. 정답은 “차단 워크플로는 실시간으로 유지하고, 비차단 작업만 batch로 전환한다”이다.
시험 범위 밖 (출제되지 않는 항목)
공식 시험 가이드는 범위 밖 항목을 명시적으로 나열하고 있다. 이 목록을 정확히 알고 있으면 학습 시간을 불필요한 영역에 낭비하지 않을 수 있다.
출제되지 않는 항목 (공식)
| 카테고리 | 구체적 항목 |
|---|---|
| 모델 학습 | 파인튜닝, RLHF, Constitutional AI, 안전성 학습 방법론 |
| 검색·임베딩 | 임베딩 모델, 벡터 데이터베이스 구현 상세, RAG 파이프라인 |
| API 운영 | Rate limiting, 할당량, API 가격 계산, 토큰 카운팅 알고리즘 |
| 인증·보안 | OAuth, API 키 로테이션, 인증 프로토콜 상세 |
| 인프라 | MCP 서버 배포/호스팅, 클라우드 제공업체별 설정 (AWS, GCP, Azure) |
| 기타 기능 | Computer use (브라우저 자동화), 이미지 분석, 스트리밍 API |
| 비교·벤치마크 | 모델 비교 지표, 성능 벤치마킹 |
| 캐싱 | Prompt caching 구현 상세 (존재한다는 사실 수준만 알면 됨) |
이 목록에서 특히 주의할 것은 RAG와 임베딩이 범위 밖이라는 점이다. AI 아키텍처 전반을 다루는 일반적인 자격증과 달리, CCAF는 Claude 생태계의 실무 도구(Agent SDK, Claude Code, MCP)에 철저히 초점을 맞추고 있다. 또한 가격 계산이나 비용 최적화 수치도 범위 밖이다 — 시험이 묻는 것은 “batch가 50% 저렴하다”라는 사실이 아니라 “batch를 언제 쓰고 언제 쓰지 말아야 하는가”라는 판단이다.
시험 준비의 핵심 원칙
공식 시험 가이드와 합격 후기에서 반복적으로 등장하는 준비 원칙을 정리하면 다음과 같다.
정답을 고르는 것보다 오답이 틀린 이유를 아는 것이 중요하다
공식 모의시험(60문항, 등록 후 제공)의 각 문항에는 정답 해설뿐 아니라 오답 해설이 포함되어 있다. 이 오답 해설을 주의 깊게 읽는 것이 단순히 정답을 외우는 것보다 효과적이다. 오답이 틀린 이유를 이해하면, 유사하지만 다른 시나리오에서도 올바른 판단을 내릴 수 있기 때문이다.
두 답이 모두 맞아 보일 때의 판별 기준
시험에서 두 선택지가 모두 합리적으로 보이는 경우가 발생한다. 이때 적용해야 하는 핵심 질문은:
“이것은 결정론적(deterministic) 준수가 필요한가, 아니면 확률적(probabilistic) 준수로 충분한가?”
이 질문 하나로 대부분의 애매한 문항에서 올바른 선택지를 식별할 수 있다.
시험이 측정하는 것은 판단력이지 암기력이 아니다
stop_reason 값이나 CLAUDE.md 경로 같은 기본적인 사실은 알고 있어야 하지만, 시험의 본질은 **“이 상황에서 왜 이 접근이 다른 접근보다 나은가?”**를 판단하는 능력이다. 각 패턴의 *이유(why)*를 이해하는 데 학습 시간을 투자해야 한다.
등록 및 접근 정보
| 항목 | 내용 |
|---|---|
| 등록 포털 | anthropic.skilljar.com |
| 접근 요건 | Claude Partner Network 멤버십 (모든 조직 무료 가입 가능) |
| 준비 과정 | Anthropic Academy on Skilljar — 13개 무료 코스 (파트너 접근 없이도 수강 가능) |
| 모의시험 | 60문항, 시험과 동일한 시나리오 형식, 문항별 해설 포함 — 등록 후 제공 |
| 비용 | 파트너 네트워크 최초 5,000명 무료 접근 |
| 후속 자격증 | 2026년 후반에 sellers, developers, advanced architects 대상 추가 자격증 출시 예정 |
참고: 아직 파트너 조직에 속하지 않은 개인도 준비 과정을 먼저 수강하고, 시험 접근을 위해 파트너 조직과 연계하는 것이 권장된다.
필수 읽기 자료
시험 준비에 가장 높은 ROI를 제공하는 자료를 우선순위로 정리하면 다음과 같다.
| 순위 | 자료 | 이유 |
|---|---|---|
| 1 | 공식 CCAF 시험 가이드 PDF | 가장 중요한 단일 문서. 도메인, 태스크 문장, 샘플 문제 + 오답 해설, 실습 과제 포함 |
| 2 | 공식 60문항 모의시험 (등록 후 제공) | 실제 시험과 동일한 형식. 오답 해설이 학습 자료로 기능 |
| 3 | Building Effective Agents — Anthropic Research | 도메인 1의 이론적 기반 |
| 4 | Effective Context Engineering — Anthropic Engineering | 도메인 5 + 전 도메인의 문맥 관리 원칙 |
| 5 | Writing Tools for Agents — Anthropic Engineering | 도메인 2의 핵심 — 도구 설명 최적화 |
| 6 | Advanced Tool Use — Anthropic Engineering | Tool Search, PTC 등 고급 도구 사용 패턴 |
| 7 | Claude Code Documentation | 도메인 3 전체 |
| 8 | Anthropic Academy on Skilljar | 13개 무료 과정 — 체계적 학습 경로 |