AI 크롤러 설정 가이드 — GPTBot·ClaudeBot·PerplexityBot·Google-Extended robots.txt 작성법
임재복
GPTBot·ClaudeBot·PerplexityBot 같은 AI 크롤러를 robots.txt에서 어떻게 다루느냐가, ChatGPT·Claude·Perplexity의 답변에 내 콘텐츠가 인용될 수 있는지를 결정합니다. 핵심 원칙은 ‘용도 구분’입니다. 검색·인용용 크롤러(OAI-SearchBot·PerplexityBot·Claude-SearchBot)를 차단하면 해당 AI 검색 답변에서 내 사이트가 제외되므로 허용이 기본값이고, 학습용 크롤러(GPTBot·ClaudeBot·CCBot)와 Google-Extended는 콘텐츠 전략에 따라 선택적으로 차단하면 됩니다. 아래 식별표와 robots.txt 예시는 모두 각 운영사 공식문서로 직접 검증한 내용입니다.
왜 AI 크롤러 설정이 중요할까요? — 차단은 AI 인용의 ‘실격’입니다
생성형 AI가 답변에 참고하는 콘텐츠는 두 경로로 들어갑니다. 모델 학습 단계에서 수집된 데이터, 그리고 답변 시점에 실시간으로 검색·열람되는 페이지입니다. 어느 쪽이든 AI 크롤러가 내 사이트에 접근할 수 있어야 시작됩니다.

이것은 추측이 아니라 운영사가 명시한 동작입니다. OpenAI는 공식 크롤러 문서에서 OAI-SearchBot을 차단(opt-out)한 사이트는 ChatGPT 검색 답변에 표시되지 않는다고 밝히고 있습니다. Perplexity 역시 검색 결과 노출을 위해 PerplexityBot 허용을 권장합니다. 즉 검색·인용용 크롤러 차단은 단순한 ‘데이터 보호’가 아니라, AI 검색이라는 채널에서의 자발적 실격입니다.
반대 방향의 통제도 명확합니다. OpenAI 문서에 따르면 GPTBot을 Disallow로 막는 것은 “이 사이트의 콘텐츠를 학습에 사용하지 말라”는 의사 표시로 처리됩니다. 구글의 크롤러 공식문서는 Google-Extended 차단이 Gemini 모델 학습·그라운딩 활용만 막을 뿐, 구글 검색 포함 여부나 순위에는 영향을 주지 않는다고 명시합니다. 용도별 토큰이 분리되어 있으니, 일괄 차단이 아니라 선별 설정이 가능합니다.
문제는 생성형 AI 초기에 굳어진 ‘AI 봇은 전부 차단’이라는 관성입니다. 학습용과 검색용을 구분하지 않고 막으면 데이터는 지키지만 AI 검색 시대의 가시성을 통째로 포기하게 됩니다. KDD 2024에 채택된 GEO 연구는 생성엔진 답변 내 가시성을 최대 40%까지 끌어올릴 수 있다고 보고했는데, 이 모든 최적화의 전제가 ‘크롤러 접근 가능성’입니다 — 읽히지 못하는 콘텐츠는 최적화 대상조차 되지 못합니다.
대한민국 검색 점유율 변화에서 정리했듯 국내 정보 탐색 채널도 빠르게 재편되고 있고, AI 엔진 최적화(AIEO)가 그 대응 방법론이라면 크롤러 설정은 그 1단계입니다. AI 답변 인용은 트래픽 총량을 늘리는 장치가 아니라 구매 직전의 구체적인 질문에 브랜드가 등장하게 만드는 장치입니다. 매출이 될 1명이 머무는 자리를 비워둘 이유가 없습니다.
주요 AI 크롤러 식별표 — User-agent·운영사·용도
아래 표는 OpenAI·Anthropic·Perplexity·Google·Common Crawl의 공식문서를 직접 확인해 정리한 것입니다(2026년 6월 기준). 공식문서로 확인되지 않는 봇은 싣지 않았습니다. robots.txt에는 아래 User-agent 토큰을 그대로 사용합니다.
| User-agent 토큰 | 운영사 | 용도 | robots.txt 준수 | 공식문서 |
|---|---|---|---|---|
| GPTBot | OpenAI | 파운데이션 모델 학습용 수집 | 준수 | OpenAI 봇 문서 |
| OAI-SearchBot | OpenAI | ChatGPT 검색 결과 노출·링크 | 준수 | OpenAI 봇 문서 |
| ChatGPT-User | OpenAI | 사용자 요청 시 페이지 방문(자동 크롤링 아님) | 적용되지 않을 수 있음 | OpenAI 봇 문서 |
| ClaudeBot | Anthropic | 생성형 AI 모델 개선·안전성 향상용 웹 콘텐츠 수집 | 준수 | Anthropic 크롤러 문서 |
| Claude-SearchBot | Anthropic | 검색 결과 품질 개선 | 준수 | Anthropic 크롤러 문서 |
| Claude-User | Anthropic | 사용자 질문 시 웹 페이지 접근 | 준수 | Anthropic 크롤러 문서 |
| PerplexityBot | Perplexity | Perplexity 검색 결과 노출·링크(모델 학습에는 미사용) | 준수 | Perplexity 크롤러 문서 |
| Perplexity-User | Perplexity | 사용자 행동 지원을 위한 페이지 접속 | 대체로 적용되지 않음 | Perplexity 크롤러 문서 |
| Google-Extended | Gemini 학습·그라운딩 사용 여부를 제어하는 토큰(별도 크롤러 아님) | 준수(제어 토큰) | Google 크롤러 문서 | |
| CCBot | Common Crawl(비영리) | 오픈 웹 아카이브 구축 — 다수 LLM 학습 코퍼스의 원천 | 준수 | Common Crawl 문서 |
용도별 3분류 — 무엇을 막고 무엇을 열어야 할까요?
- 학습용 크롤러 — GPTBot, ClaudeBot, CCBot: 수집한 콘텐츠가 모델 학습에 쓰입니다. 차단해도 AI 검색 노출과는 별개로 동작합니다. 특히 Common Crawl의 오픈 아카이브는 GPT-3 논문에서 확인되듯 대규모 언어모델 학습 코퍼스의 원천으로 활용되어 왔습니다.
- 검색·인용용 크롤러 — OAI-SearchBot, PerplexityBot, Claude-SearchBot: AI 검색 답변에 사이트를 노출하고 링크하기 위한 수집입니다. 차단은 해당 AI 검색에서의 실격을 의미합니다.
- 사용자 대리 fetcher — ChatGPT-User, Claude-User, Perplexity-User: 사용자가 질문하는 순간 그 페이지를 대신 열람합니다. OpenAI는 “사용자가 시작한 행동이라 robots.txt 규칙이 적용되지 않을 수 있다”고, Perplexity는 Perplexity-User가 robots.txt를 대체로 따르지 않는다고 명시합니다. 성격상 사람의 방문에 가까워 차단의 실익도 낮습니다.
Google-Extended는 위 3분류 어디에도 속하지 않는 특수 케이스입니다. 별도 User-agent로 방문하지 않고, 기존 Google 크롤러가 수집한 콘텐츠를 Gemini 학습과 그라운딩(답변 시점에 검색 인덱스의 콘텐츠를 모델에 제공하는 것)에 쓸지 여부만 제어합니다.

서버 로그 식별용 전체 User-agent 문자열
버전 숫자는 갱신될 수 있으므로 실무에서는 ‘GPTBot’처럼 토큰 기준 부분 일치로 매칭하는 것이 안전합니다.
GPTBot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.3; +https://openai.com/gptbot
OAI-SearchBot Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; +https://openai.com/searchbot
ChatGPT-User Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
PerplexityBot Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
CCBot CCBot/2.0 (https://commoncrawl.org/faq/)
주의: Google-Extended는 서버 로그에 등장하지 않습니다(별도 UA 없음). Anthropic 봇 3종은 ClaudeBot·Claude-SearchBot·Claude-User 토큰으로 식별합니다.
robots.txt 설정 예시 3패턴 — 복사해서 쓰는 코드
robots.txt는 도메인 루트(예: https://example.com/robots.txt)에 두는 텍스트 파일이며, 구글 공식 안내대로 “지시를 따를지는 크롤러에 달려 있는” 약속입니다. 편집 방법은 환경마다 달라서 WordPress는 SEO 플러그인으로, 헤드리스·정적 사이트는 루트 정적 파일로 관리합니다. CMS별 차이는 CMS 6종 비교 가이드를 참고하세요.
패턴 1 — 전부 허용: AI 가시성 최대화
# AI 크롤러 포함 전체 허용 (차단 규칙 없음 = 기본 허용)
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
차단 규칙이 없으면 크롤링은 기본 허용이지만, 명시적으로 선언해 의도를 남기는 구성입니다. 콘텐츠로 잠재고객을 만나는 것이 목적인 대부분의 B2B 블로그·가이드 사이트에 적합합니다.

패턴 2 — 선별 허용: 민감 경로만 차단
# 학습용 크롤러: 보호할 경로만 차단, 나머지 허용
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: CCBot
Disallow: /downloads/
Disallow: /members/
# 검색·인용용 크롤러: 전체 허용
User-agent: OAI-SearchBot
User-agent: PerplexityBot
User-agent: Claude-SearchBot
Allow: /
Sitemap: https://example.com/sitemap.xml
하나의 그룹에 User-agent 줄을 여러 개 쌓으면 동일한 규칙이 함께 적용됩니다. 리드 확보용 다운로드 자료, 유료 리포트, 회원 전용 디렉토리만 학습 수집에서 보호하고, 공개 콘텐츠는 인용 노출을 유지하는 균형형입니다.

패턴 3 — 학습만 차단: 인용은 열고 데이터는 지키기
# 학습용 크롤러 전면 차단
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# 검색·인용용 크롤러(OAI-SearchBot 등)는 규칙 없음 = 허용
Sitemap: https://example.com/sitemap.xml
학습 데이터 제공은 거부하되 AI 검색 노출은 유지하는 구성입니다. 두 가지를 감안해야 합니다. 첫째, Google-Extended 차단은 학습뿐 아니라 그라운딩까지 함께 막으므로 Gemini 답변에서의 인용 기회에 영향을 줄 수 있습니다. 둘째, OpenAI는 robots.txt 변경이 반영되기까지 약 24시간이 걸릴 수 있다고 안내하므로 수정 직후의 크롤링을 위반으로 단정하지 않아야 합니다.

허용할까, 차단할까 — 콘텐츠 마케팅 관점의 의사결정 기준
설정 자체는 5분이면 끝납니다. 어려운 것은 의사결정입니다. 판단 축은 두 가지입니다. 인용 노출로 얻는 것(AI 답변 속 브랜드 등장, 지명 검색과 검증된 의도의 유입)과 데이터 제공으로 잃을 수 있는 것(콘텐츠가 모델 내부 지식으로 흡수되어 출처 없이 재생산될 가능성)입니다.
| 사이트 유형 | 권장 패턴 | 판단 근거 |
|---|---|---|
| B2B 콘텐츠 마케팅·블로그 | 패턴 1~2 | AI 답변 인용이 곧 잠재고객 접점. 보호가 필요한 독점 데이터 비중이 낮음 |
| 미디어·유료 구독 콘텐츠 | 패턴 3 | 콘텐츠 자체가 상품이라 학습 흡수가 직접 손실. 인용 노출은 검색 봇으로 유지 |
| 커머스·상품 카탈로그 | 패턴 1 | 상품 정보는 노출될수록 유리. AI 추천·쇼핑 답변 대비 |
| SaaS 제품 문서 | 패턴 1 | AI가 문서를 인용해 답하면 지원 비용을 줄이고 도입 검토자와의 접점이 생김 |
| 독점 리서치·데이터 판매 | 패턴 2~3 | 핵심 자산 디렉토리는 차단하고 마케팅 콘텐츠만 개방 |
유형표보다 중요한 것은 자기 콘텐츠에 대한 세 가지 질문입니다.
- 이 콘텐츠가 인용되면 누가 보는가. AI에게 구체적인 질문을 던지는 사용자는 고객 여정에서 비교·검증 단계에 있을 확률이 높습니다. 그리고 AI도 결국 신뢰할 수 있는 출처를 골라 인용합니다 — E-E-A-T 기준이 검색을 넘어 AI 인용에서도 작동하는 이유입니다.
- 이 콘텐츠가 학습되면 무엇을 잃는가. 일반적인 노하우 콘텐츠는 학습돼도 손실이 작지만, 비용을 들여 만든 독점 데이터·리서치는 모델에 흡수되는 순간 차별성이 희석됩니다.
- 내가 비운 자리를 누가 채우는가. 검색·인용 크롤러를 차단해도 AI는 답변을 멈추지 않습니다. 그 답변의 출처 자리는 허용한 경쟁사가 차지합니다.
성장의 권장 기본값은 명확합니다. B2B·콘텐츠 중심 사이트라면 검색·인용 크롤러는 모두 허용하고, 학습 크롤러는 핵심 자산 경로만 차단하는 패턴 2입니다. 트래픽 양이 아니라, 구매 직전 질문에 답하는 자리에 브랜드를 두는 선택이기 때문입니다.
설정이 적용됐는지 확인하는 방법 — 테스트와 서버 로그
1) robots.txt 응답과 문법 확인
curl -s https://example.com/robots.txt
파일이 200으로 응답하는지, 의도한 규칙이 그대로 보이는지부터 확인합니다. 구글 기준 파싱 결과는 Search Console의 robots.txt 보고서에서 점검할 수 있고, 크롤링·인덱싱 전반의 점검 체계는 기술 SEO 완전 가이드에서 다룹니다.
2) 서버 로그에서 AI 크롤러 트래픽 식별하기
설정했으면 측정해야 합니다. 데이터 사이언스 관점에서 액세스 로그는 AI 크롤러 수요를 보여주는 일차 데이터입니다. 토큰별 요청 수를 집계하면 어떤 크롤러가 얼마나 자주, 어떤 페이지를 가져가는지 정량적으로 확인할 수 있습니다.

# 액세스 로그에서 AI 크롤러별 요청 수 집계
grep -oE "GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-SearchBot|Claude-User|PerplexityBot|Perplexity-User|CCBot" access.log | sort | uniq -c | sort -rn
이 집계를 주 단위로 쌓으면 세 가지가 보입니다. 차단한 학습 봇의 요청이 실제로 줄었는지(준수 검증), 검색 봇이 어떤 콘텐츠를 자주 수집하는지(AI 검색 수요 신호), 그리고 ChatGPT-User·Perplexity-User 요청의 증가 추이 — 이것은 실제 사용자가 AI를 거쳐 내 페이지를 열람하고 있다는 직접 증거입니다.
3) User-agent 위조 트래픽 거르기
User-agent 문자열은 누구나 위조할 수 있습니다. 그래서 각 운영사는 공식 IP 대역을 JSON으로 공개합니다. OpenAI는 gptbot.json·searchbot.json, Perplexity는 perplexitybot.json을 제공하고, Common Crawl은 crawl.commoncrawl.org 역DNS로 검증할 수 있습니다. 로그의 IP를 공식 대역과 대조하면 위조 봇을 걸러낼 수 있습니다. Cloudflare의 분석처럼 UA를 속이는 봇은 행동 기반 머신러닝으로 식별하는 것이 현실적인 방어선이며, robots.txt를 무시하는 봇의 차단은 WAF·CDN 레이어의 일입니다.

AI 크롤러 설정은 GEO(생성엔진 최적화)의 출발점일 뿐, 실제 인용 확보는 콘텐츠 구조·Entity·인용 가능성 설계까지 이어져야 합니다. 성장의 GEO·AIEO 서비스는 크롤러 접근성 진단부터 AI 답변 인용 확보까지 전 과정을 설계합니다. GEO·AIEO 서비스 살펴보기 또는 상담 문의로 시작하실 수 있습니다.
자주 묻는 질문 (FAQ)
GPTBot을 차단하면 ChatGPT 검색에서도 사라지나요?
아니요. GPTBot은 모델 학습용이고, ChatGPT 검색 노출은 OAI-SearchBot이 담당합니다. GPTBot만 차단하면 학습 제공을 거부하면서 ChatGPT 검색 노출은 유지할 수 있습니다. 다만 OAI-SearchBot까지 차단하면 OpenAI 공식 안내대로 ChatGPT 검색 답변에서 제외됩니다.
Google-Extended를 차단하면 구글 검색 순위가 떨어지나요?
아닙니다. 구글 공식문서는 Google-Extended가 구글 검색 포함 여부에 영향을 주지 않으며 순위 신호로도 쓰이지 않는다고 명시합니다. 다만 Gemini 학습과 그라운딩 활용이 함께 차단되므로, Gemini 답변에서의 인용 기회에는 영향이 있을 수 있습니다.
robots.txt 수정은 언제부터 적용되나요?
크롤러가 robots.txt 캐시를 갱신하는 주기에 따라 다릅니다. OpenAI는 반영까지 약 24시간이 걸릴 수 있다고 안내합니다. 즉시 강제할 방법은 없으므로, 수정 후 1~2일간 서버 로그로 실제 동작 변화를 확인하는 것이 정확합니다.
robots.txt를 무시하는 AI 봇은 어떻게 막나요?
robots.txt는 강제력이 없는 약속이므로, 무시하는 봇은 서버·CDN 레이어에서 막아야 합니다. 운영사 공식 IP 대역 기반 방화벽 규칙, Cloudflare의 AI 봇 차단 기능 같은 행동 기반 차단이 대표적입니다. 다만 사용자 대리 fetcher까지 차단하면 AI를 경유해 들어오는 실제 잠재고객의 열람까지 막게 된다는 점은 고려해야 합니다.
