Growth Marketing
Insight

Technical GEO — llms.txt·스키마 마크업·AI 크롤러, AI가 읽는 웹사이트의 3대 인프라

임재복

임재복

5분 읽기
llms.txt, 스키마 마크업, AI 크롤러를 중심으로 Technical GEO 인프라를 설명하는 GEO 백서 글 썸네일

이 글은 성장(Growth)의 GEO 백서 시리즈 9/20 — Ch.6 Technical GEO입니다. 전체 목차와 PDF 전문은 백서 페이지에서 확인하실 수 있습니다.

Answer-First: Technical GEO는 llms.txt 도입, 스키마 마크업 전면 적용, AI 크롤러 전략적 허용의 3가지로 구성됩니다. HtmlRAG 연구에 따르면 HTML 구조를 보존한 웹페이지는 평문 대비 RAG 성능이 유의미하게 향상되며, 기존 SEO의 기술적 기반이 AI 인용에서도 여전히 유효합니다. 기술적 기반 없이는 아무리 좋은 콘텐츠도 AI의 시야에 들어가지 못합니다.

왜 기술 인프라가 가장 먼저인가

많은 브랜드 마케팅 책임자분들이 “콘텐츠를 먼저 개선하면 되지 않느냐”고 물으십니다. 맞는 말이지만, 순서가 중요합니다. GEO 3축 전략에서 쓴 비유를 이어가자면, 도로 없이는 아무리 좋은 차량도 목적지에 닿지 못합니다. AI 크롤러가 여러분의 웹사이트를 방문했을 때 콘텐츠를 제대로 읽어갈 수 없다면, 그 뒤에 벌이는 모든 콘텐츠 전략과 외부 멘션 활동은 효과가 반감됩니다.

Allen AI와 워싱턴대 연구진의 OpenScholar 연구(2024)가 이를 잘 보여줍니다. GPT-4o 같은 대형 모델도 구조화된 소스 없이 자체 지식만으로 과학적 질문에 답변을 생성하면 인용의 78~90%가 환각(hallucination)이었습니다. 반면 검색 증강(RAG) 기반으로 실제 소스를 검색하고 참조한 OpenScholar는 사람 전문가 수준의 인용 정확도를 보였습니다. 이것이 의미하는 바는 분명합니다. AI가 여러분의 콘텐츠를 “구조적으로 읽을 수 있게” 만들어주는 것이 인용의 전제조건입니다.

Pan et al.(IEEE TKDE, 2024)의 지식 그래프(Knowledge Graph) 로드맵 연구 역시, 구조화된 데이터가 LLM의 환각을 줄이고 엔티티 인식을 강화한다고 결론짓습니다. 여러분의 웹사이트가 제공하는 정보를 AI가 명확한 엔티티로 인식하려면, 그 정보가 기계가 읽을 수 있는 형태로 구조화되어 있어야 합니다. 이것이 GEO 전략의 기술 축, Technical GEO의 본질입니다.

Technical GEO의 3대 축을 하나씩 살펴보겠습니다. 이 기술 체계가 백서 전체에서 차지하는 위치는 GEO 백서 페이지에서 확인하실 수 있습니다.

llms.txt, JSON-LD 스키마 마크업, AI 크롤러 허용 설정의 3대 인프라로 구성된 Technical GEO 아키텍처 다이어그램
Technical GEO는 llms.txt·스키마 마크업·AI 크롤러 전략의 세 인프라가 한 몸으로 작동하는 체계입니다.

llms.txt — AI를 위한 웹사이트 설명서

llms.txt는 2024년 하반기에 등장한, AI 에이전트와 LLM을 위한 표준화된 웹사이트 설명 파일입니다. robots.txt가 검색엔진 크롤러에게 “어디를 크롤링해도 되는지”를 알려주는 파일이라면, llms.txt는 AI에게 “이 웹사이트가 무엇이고, 어떤 정보를 제공하며, 핵심 콘텐츠는 어디에 있는지”를 체계적으로 요약해주는 파일입니다.

llms.txt와 llms-full.txt의 역할, 2024년 하반기 등장 시점과 약 30만 도메인 분석에서 10%가량 도입된 흐름을 정리한 다크 차트
llms.txt는 AI가 사이트의 정체성과 핵심 콘텐츠를 빠르게 파악하도록 돕는 요약 가이드입니다.

왜 이것이 중요할까요? AI 크롤러는 웹사이트를 방문했을 때 수천 개의 페이지를 모두 읽지 않습니다. 제한된 컨텍스트 윈도우 안에서 가장 핵심적인 정보를 빠르게 파악해야 합니다. llms.txt는 바로 그 “요약 가이드” 역할을 합니다. 마치 신입 직원에게 회사 소개서를 건네주는 것과 같습니다. 도입도 빠르게 확산되고 있습니다. SE Ranking이 2025년 말 약 30만 개 도메인을 분석한 결과 이미 10%가량이 llms.txt를 갖추고 있었고, Anthropic·Stripe·Cloudflare 같은 기술 기업들이 도입을 선도하고 있습니다.

llms.txt는 두 가지 버전으로 운영합니다. 요약 버전(llms.txt)은 사이트의 정체성, 핵심 서비스, 주요 콘텐츠 링크를 간결하게 정리한 것이고, 전체 버전(llms-full.txt)은 모든 서비스와 콘텐츠를 상세하게 기술한 확장판입니다. AI 에이전트는 보통 요약 버전을 먼저 읽고, 더 깊은 정보가 필요할 때 전체 버전을 참조합니다.

다음은 B2B 마케팅 에이전시를 가정한 llms.txt 작성 예시입니다.

# Growth Marketing Agency

> Growth Marketing Agency는 대한민국 서울에 본사를 둔
> B2B 디지털 마케팅 에이전시로, SEO/GEO 전략 컨설팅과
> 콘텐츠 마케팅을 전문으로 합니다.

## 핵심 서비스

- [GEO 컨설팅](/service/geo-consulting): AI 검색 가시성 진단 및 전략 수립
- [콘텐츠 마케팅](/service/content-marketing): B2B 전문 콘텐츠 기획·제작
- [기술 SEO](/service/technical-seo): 웹사이트 구조 최적화 및 스키마 구축

## 전문 콘텐츠

- [GEO 완벽 가이드](/geo-guide): GEO 전략 종합 백서 (2026)
- [마케팅 인사이트 블로그](/insight): 주간 업계 분석 및 사례 연구
- [성공 사례](/case): 클라이언트 캠페인 결과 및 ROI 분석

## 문의

- 이메일: contact@example.com
- 전화: 02-1234-5678

이 예시에서 각 요소의 역할을 설명드리겠습니다. 첫 줄의 # 제목은 조직의 공식 명칭으로, AI가 엔티티를 식별하는 기본 단위가 됩니다. > 인용 블록은 조직의 정체성을 1~3문장으로 요약하며, AI가 “이 사이트가 무엇인가”를 즉시 파악하는 데 사용됩니다. ## 섹션은 핵심 서비스, 콘텐츠, 연락처 등을 카테고리로 분류하고, - [링크명](URL): 설명 형식은 각 페이지의 목적을 AI가 자연어로 이해할 수 있게 합니다. 중요한 것은 마크다운 형식을 사용한다는 점입니다. AI 모델은 마크다운을 가장 잘 파싱하기 때문입니다.

스키마 마크업 — JSON-LD로 브랜드를 구조화하기

스키마 마크업은 웹페이지의 정보를 기계가 읽을 수 있는 구조화된 데이터(Structured Data)로 변환하는 기술입니다. 특히 JSON-LD(JavaScript Object Notation for Linked Data) 형식이 표준으로 자리 잡았으며, Google과 주요 AI 엔진 모두 이 형식을 권장합니다.

Organization JSON-LD의 @type, name, description, sameAs 필드가 AI의 브랜드 이해를 돕는 과정을 보여주는 구조도
JSON-LD 스키마는 브랜드 정보를 AI가 추론이 아니라 구조화된 사실로 읽도록 만듭니다.

왜 JSON-LD가 AI 시대에 더 중요해졌을까요? 기존 SEO에서 스키마 마크업은 “리치 결과(Rich Results)를 얻기 위한 보너스” 정도로 여겨졌습니다. 하지만 AI 검색 시대에는 그 역할이 근본적으로 달라졌습니다. AI는 웹페이지의 텍스트를 읽을 때 “이 텍스트가 회사 이름인지, 서비스 설명인지, 주소인지”를 추론해야 합니다. JSON-LD는 그 추론 과정을 생략시켜줍니다. 명시적으로 “이것은 Organization이고, 이름은 X이며, 주소는 Y다”라고 알려주는 것이니까요.

BrightEdge가 16개월간 AI 오버뷰(AIO) 인용을 추적한 데이터가 보여주듯, AIO 인용 페이지의 절반 이상(약 54%)이 기존 오가닉 검색 순위권 페이지와 중복됩니다. 기존 SEO의 기술적 기반(구조화된 데이터, 빠른 로딩, 모바일 최적화)이 AI 인용에서도 여전히 유효하다는 의미입니다. 기존 SEO 자산을 버리는 것이 아니라, 그 위에 AI 친화적 레이어를 추가하는 것이 Technical GEO의 접근법입니다.

다음은 기업 웹사이트에 적용할 Organization 스키마의 예시입니다.

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Growth Marketing Agency",
  "url": "https://www.example.com",
  "logo": "https://www.example.com/logo.png",
  "description": "B2B 디지털 마케팅 에이전시. GEO, SEO, 콘텐츠 마케팅 전문.",
  "foundingDate": "2018",
  "address": {
    "@type": "PostalAddress",
    "addressLocality": "서울특별시",
    "addressCountry": "KR"
  },
  "sameAs": [
    "https://www.linkedin.com/company/example",
    "https://ko.wikipedia.org/wiki/Example"
  ]
}

각 필드가 AI에게 어떤 역할을 하는지 살펴보겠습니다. @type: Organization은 이 데이터가 단순 텍스트가 아니라 하나의 조직 엔티티임을 AI에게 선언합니다. name은 엔티티의 공식 명칭이며, AI가 다른 소스에서 같은 이름을 발견했을 때 동일 엔티티로 연결하는 기준이 됩니다. description은 AI가 “이 조직이 무엇을 하는 곳인지”를 파악하는 데 사용되며, 관련 질문에 대한 답변 소스로 매칭될 확률을 높입니다. sameAs는 가장 중요한 필드 중 하나입니다. LinkedIn, Wikipedia 등 외부 권위 있는 소스와 이 엔티티를 연결하여, AI가 교차검증할 때 “이 조직은 위키피디아에도 등록되어 있고, LinkedIn에도 공식 페이지가 있다”는 신뢰 신호를 제공합니다.

Organization 스키마 외에도, 콘텐츠 페이지에는 Article, FAQPage, HowTo 스키마를, 서비스 페이지에는 Service, Product 스키마를 적용하는 것이 좋습니다. Entity Authority 글에서 살펴본 지식 그래프 기반 RAG 연구들이 실증하듯, 그래프 구조의 지식 표현은 AI의 이해력을 크게 끌어올립니다. 스키마 마크업은 바로 이 구조화의 실무적 구현입니다.

AI 크롤러 전략 — “허용”이 기본값이어야 합니다

AI 크롤러 전략에서 가장 흔한 실수는 “일단 차단하고 보자”는 접근입니다. 이것은 SEO 시대의 방어적 사고방식의 잔재입니다. GEO 시대에는 “허용이 기본값, 차단은 예외”가 되어야 합니다.

GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot과 보호 영역별 AI 크롤러 허용 및 차단 판단 기준을 비교한 매트릭스
GEO 시대의 크롤러 정책은 공개 콘텐츠를 열어두고 보호가 필요한 영역만 예외적으로 차단하는 방식이 기본입니다.

주요 AI 크롤러와 그 역할을 이해하는 것이 첫 번째 단계입니다. GPTBot은 OpenAI의 크롤러로, GPT 계열 생성형 AI 모델의 학습용 데이터 수집에 사용됩니다(ChatGPT 검색 결과 노출은 별도의 OAI-SearchBot이 담당합니다). ClaudeBot은 Anthropic의 크롤러로 Claude 모델 개선을 위한 공개 데이터 수집에 사용되며, 검색 인용은 Claude-SearchBot이 맡습니다. PerplexityBot은 Perplexity 검색 결과에 웹사이트를 노출·링크하기 위한 크롤러로, 모델 학습에는 사용되지 않습니다. GoogleOther는 구글 제품팀들이 내부 연구개발 등 다양한 목적으로 공개 콘텐츠를 수집하는 범용 크롤러이며, Gemini 모델 학습에 콘텐츠를 쓸지 여부는 Google-Extended 토큰으로 제어합니다. Bytespider는 ByteDance(TikTok 모회사)의 AI 학습용 크롤러이고, CCBot은 Common Crawl 프로젝트의 크롤러로, 주요 LLM 사전학습 데이터셋의 근간이 됩니다.

이 크롤러들을 차단하면 어떤 일이 벌어질까요? 여러분의 콘텐츠는 AI의 학습 데이터에서 빠지고, 실시간 검색에서도 제외됩니다. AI가 관련 질문을 받았을 때, 여러분 대신 경쟁사의 콘텐츠를 인용하게 됩니다. 도로를 스스로 봉쇄하는 것과 같습니다.

네이버의 사례는 대표적인 경고입니다. 네이버 블로그의 robots.txt는 “AI 학습 및 검색 증강 생성(RAG) 목적의 봇 접근을 엄격히 금지한다”는 선언과 함께 GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot, CCBot 등을 명시적으로 차단하고 있습니다(2026년 6월 확인 기준). 그 결과 네이버 블로그와 지식iN의 방대한 한국어 콘텐츠는 ChatGPT와 Perplexity의 답변에서 사실상 배제되었습니다. 네이버는 자체 AI 서비스(AI 브리핑)를 보호하려는 전략적 판단이었겠지만, 일반 기업이 이런 차단 전략을 따라하면 AI 검색 시대에서 스스로 퇴장하는 결과를 초래합니다.

robots.txt에서 AI 크롤러를 허용하는 설정은 간단합니다. 아무것도 하지 않으면 기본적으로 허용이지만, 명시적으로 허용 의사를 표시하는 것이 권장됩니다. 다만, 유료 콘텐츠나 고객 데이터 페이지 등 보호가 필요한 영역은 선별적으로 차단하되, 마케팅 콘텐츠와 공개 페이지는 반드시 열어두어야 합니다. 크롤러별 차단·허용 판단 기준과 robots.txt 설정 절차는 별도의 AI 크롤러 robots.txt 가이드에서 실무 단위로 다룹니다.

[체크리스트] Technical GEO Audit 20항목

Technical GEO 구축 상태를 점검하기 위한 체크리스트를 4개 카테고리, 20항목으로 정리했습니다. IT/개발팀과 SEO팀이 함께 점검하시기 바랍니다.

Technical GEO Audit의 4개 카테고리와 각 5항목 구성을 요약한 점검 차트
Technical GEO Audit은 네 영역을 각각 5항목으로 나누어 기술 기반을 빠르게 점검하게 해줍니다.

A. llms.txt 및 AI 접근성 (5항목)

  1. llms.txt 파일이 루트 디렉토리(example.com/llms.txt)에 존재하는가?
  2. llms-full.txt(상세 버전)도 함께 제공하고 있는가?
  3. llms.txt에 조직명, 핵심 서비스, 대표 콘텐츠 링크가 포함되어 있는가?
  4. llms.txt의 내용이 실제 사이트 구조·서비스와 일치하며, 최근 3개월 이내 업데이트되었는가?
  5. llms.txt에 연락처와 외부 권위 소스(Wikipedia, LinkedIn 등) 링크가 포함되어 있는가?

B. 스키마 마크업 및 구조화된 데이터 (5항목)

  1. Organization 스키마가 메인 페이지에 JSON-LD 형식으로 구현되어 있는가?
  2. 모든 블로그/콘텐츠 페이지에 Article 스키마가 적용되어 있는가?
  3. FAQ 콘텐츠에 FAQPage 스키마가, How-to 콘텐츠에 HowTo 스키마가 적용되어 있는가?
  4. sameAs 필드에 공식 소셜 미디어 프로필과 외부 권위 소스가 연결되어 있는가?
  5. Google Rich Results Test에서 구조화된 데이터 오류가 0건인가?

C. AI 크롤러 설정 (5항목)

  1. robots.txt에서 GPTBot, ClaudeBot, PerplexityBot이 차단되지 않았는가?
  2. GoogleOther와 Google-Extended가 차단되지 않았는가?
  3. CCBot(Common Crawl)이 최소한 주요 공개 페이지에 대해 허용되어 있는가?
  4. 유료 콘텐츠와 고객 데이터 페이지만 선별적으로 차단하고 있는가?
  5. X-Robots-Tag HTTP 헤더에서 AI 크롤러에 대한 noindex가 없는가?

D. 웹사이트 기술 기반 (5항목)

  1. 모든 페이지의 Core Web Vitals(LCP, CLS, INP)가 Google 기준 “양호(Good)”인가?
  2. 모바일 친화적 반응형 디자인이 적용되어 있는가?
  3. 사이트맵(XML Sitemap)이 최신 상태이며, 모든 공개 페이지가 포함되어 있는가?
  4. HTTPS가 전 페이지에 적용되어 있으며, 혼합 콘텐츠(Mixed Content) 경고가 없는가?
  5. 페이지 제목(H1)과 메타 디스크립션이 질문형 검색 의도에 맞게 작성되어 있는가?

담당 조직: IT/개발팀의 역할

Technical GEO는 IT/개발팀이 주도하고 SEO팀이 요구사항을 정의하는 협업 구조로 진행합니다. llms.txt 작성, 스키마 마크업 구현, 크롤러 설정은 모두 기술적 실행이 필요한 영역입니다. 다만, “어떤 정보를 llms.txt에 넣을 것인가”, “어떤 스키마를 우선 적용할 것인가”에 대한 전략적 판단은 브랜드마케팅팀과 콘텐츠팀이 함께 해야 합니다. GEO 조직 설계 글의 RACI 매트릭스에서 Technical GEO의 부서별 역할 배분을 확인하세요.

Technical GEO에서 IT 개발팀, SEO팀, 브랜드마케팅팀, 콘텐츠팀이 맡는 역할을 단계별로 보여주는 협업 구조도
Technical GEO는 IT/개발팀의 구현과 SEO·브랜드·콘텐츠팀의 전략 판단이 함께 움직여야 작동합니다.
llms.txt 파일 존재, 상세 버전 제공, 조직명과 핵심 서비스 링크, 최근 3개월 내 업데이트, 외부 권위 소스 연결을 점검하는 체크리스트
llms.txt 점검은 파일 유무뿐 아니라 사이트 구조와 외부 권위 소스까지 함께 확인해야 합니다.

Key Takeaway

  • Technical GEO는 모든 GEO 전략의 기술적 전제조건입니다. 콘텐츠나 외부 활동보다 먼저 구축해야 합니다.
  • llms.txt는 AI에게 건네는 “회사 소개서”입니다. 도입이 빠르게 확산되는 지금, 경쟁사보다 먼저 작성하세요.
  • JSON-LD 스키마 마크업은 AI가 여러분의 정보를 추론이 아닌 사실로 인식하게 만듭니다.
  • AI 크롤러는 “허용이 기본, 차단은 예외”입니다. 네이버처럼 전면 차단하면 AI 검색에서 퇴장합니다.
  • 20항목 체크리스트로 현재 기술 인프라 상태를 즉시 점검하세요.

우리 브랜드가 지금 AI의 답변에 어떻게 등장하는지 궁금하시다면, AI 답변 점유율 진단을 문의해 주세요. GEO 백서 PDF 전문도 받아보실 수 있습니다.

자주 묻는 질문 (FAQ)

llms.txt는 robots.txt와 무엇이 다른가요?

robots.txt가 크롤러에게 “어디를 수집해도 되는지” 접근 범위를 알려주는 파일이라면, llms.txt는 AI에게 “이 사이트가 무엇이고 핵심 콘텐츠가 어디에 있는지”를 마크다운으로 요약해 주는 안내서입니다. 두 파일은 대체 관계가 아니라 상호 보완 관계입니다.

스키마 마크업은 무엇부터 적용해야 하나요?

메인 페이지의 Organization 스키마(JSON-LD)가 출발점입니다. sameAs 속성으로 위키피디아·링크드인 같은 외부 권위 소스를 연결한 뒤, 콘텐츠 페이지에 Article·FAQPage·HowTo, 서비스 페이지에 Service·Product 스키마를 확장 적용합니다.

AI 크롤러를 차단하면 어떤 일이 생기나요?

콘텐츠가 AI의 학습 데이터와 실시간 검색에서 모두 빠지고, AI는 관련 질문에 경쟁사 콘텐츠를 대신 인용하게 됩니다. 네이버처럼 전략적 이유로 전면 차단하는 경우가 아니라면, 보호가 필요한 페이지만 선별 차단하고 마케팅 콘텐츠는 열어두는 것이 원칙입니다.

Technical GEO는 누가 담당해야 하나요?

IT/개발팀이 구현을 주도하고 SEO팀이 요구사항을 정의하는 협업 구조가 표준입니다. 어떤 정보를 llms.txt에 담을지, 어떤 스키마를 우선 적용할지 같은 전략적 판단에는 브랜드마케팅팀과 콘텐츠팀이 함께 참여해야 합니다.

GEO 백서 시리즈: ← 이전 챕터 · 전체 목차 · 다음 챕터