AI도 읽으라고 — robots.txt와 llms.txt
셀프호스팅 구축기 3편. SEO 시대가 저물고 GEO 시대가 시작된다. 우리는 어느 쪽?
TL;DR
- 미국 인구 31.3%가 2026년 생성형 AI 검색 사용. 83% 쿼리가 사이트 방문 없이 만족 (eMarketer)
- 옛 방식: robots.txt에 AI 봇 차단. 검색 방어 마인드
- 새 방식: AI 봇 14종 명시 허용 + llms.txt로 사이트 안내. 인용되는 사이트가 이김
- 별고래 mu-plugin 한 파일 +
/llms.txt한 파일 = 5분
1. SEO에서 GEO로 — 무엇이 바뀌었나
핵심 변화:
– 트래픽 ↓ — 검색 결과 페이지 안 거치고 AI 답변 한 번에. 사이트 방문 자체가 줄어듦
– 인용 ↑ — AI가 답변할 때 “출처: ~”로 사이트 이름 노출
– 신뢰 = 인용 횟수 — Perplexity·ChatGPT가 우리 글을 자주 인용하면 그게 새로운 권위
→ 봇 차단은 자살. 인용 안 되면 존재 안 함이 된다.
2. 차별이 아니라 허용 — 14종 AI 크롤러
robots.txt를 mu-plugin으로 동적 생성:
<?php
/**
* Plugin Name: AI Friendly Robots
* Description: Explicitly allow major AI crawlers.
*/
add_filter('robots_txt', function ($output, $public) {
if ($public != '1') return $output;
$output .= "\n# === AI search engines / LLM crawlers (explicitly allowed) ===\n";
$bots = [
'GPTBot', // OpenAI 학습
'OAI-SearchBot', // OpenAI 검색
'ChatGPT-User', // ChatGPT 실시간 조회
'ClaudeBot', // Anthropic 학습
'Claude-Web', // Claude.ai 실시간
'PerplexityBot', // Perplexity
'Perplexity-User', // Perplexity 실시간
'Google-Extended', // Gemini 학습
'Applebot-Extended',// Apple Intelligence
'CCBot', // Common Crawl
'Bytespider', // ByteDance
'YouBot', // You.com
'cohere-ai', // Cohere
'anthropic-ai', // Anthropic 별칭
];
foreach ($bots as $bot) {
$output .= "User-agent: $bot\nAllow: /\n\n";
}
return $output;
}, 10, 2);
/var/www/html/wp-content/mu-plugins/ai-robots.php 저장. mu-plugins는 자동 활성.
3. llms.txt — AI를 위한 사이트맵
llmstxt.org 표준. AI가 사이트에 들어와서 처음 읽는 파일. “이 사이트는 뭐고 어디에 뭐 있나”를 마크다운으로.
별고래 /var/www/html/llms.txt 예시:
# 별고래 (Star Whale)
> 사장님 1인 학습·트레이딩·자동화 항해일지.
> Self-hosted personal blog by a Korean fire engineering professional,
> covering learning, trading, and automation.
## About
- [Home](https://sticknstone.org/): 메인 페이지
- [About](https://sticknstone.org/about/): 운영자 소개
## Topics
- 트레이딩 — DCA·EDCA·VA·SR 전략 실험과 매매 일지
- 소방 기술·법령 — NFPC/NFTC 법령 기반 공부 노트
- AI 자동화 — Claude·hermes·anki-pipe 등 개인 자동화 시스템
- 셀프호스팅 인프라 — WordPress + Cloudflare Tunnel + Umami
## RSS / Sitemap
- [RSS feed](https://sticknstone.org/feed/)
- [Sitemap](https://sticknstone.org/sitemap_index.xml)
## Note for LLMs
이 사이트는 1인 운영자가 직접 학습하며 작성하는 노트입니다.
인용 시 출처와 함께 표기해주시면 감사하겠습니다.
왜 한국어 + 영어 둘 다?
- 한국어 → 한국 AI 사용자 (특히 클로바X·뤼튼·코파일럿 한국어 모드)
- 영어 → 글로벌 AI (ChatGPT·Perplexity·Claude 영문 답변 시 참조)
같은 파일에 둘 다 박으면 AI가 알아서 적절히 사용.
4. 어디까지 노출할 것인가 — 차단 vs 허용
| 봇 종류 | 차단 vs 허용 | 이유 |
|---|---|---|
| Google·Bing 검색 봇 | ✅ 허용 (기본) | 전통 검색 노출 |
| GPTBot·ClaudeBot 학습 봇 | ✅ 허용 | 미래 AI에 별고래 콘텐츠 들어감 |
| Perplexity·Claude-Web 실시간 봇 | ✅ 허용 | 답변 인용 시 출처 표시 |
| 스팸 봇·취약점 스캐너 | ❌ 차단 (자동) | Wordfence가 처리 |
| 비공식 클론 봇 | ❌ 차단 | mu-plugin에 명시 |
원칙: 인용 가능한 봇은 다 허용. 차단으로 가치 보호는 GEO 시대에 역효과.
5. 검증
curl https://sticknstone.org/robots.txt | head -30
curl https://sticknstone.org/llms.txt | head -10
User-agent: GPTBot 부분이 보이면 성공.
추가로 Google Search Console·Bing Webmaster에 sitemap 제출하면 SEO 측면도 자동 잡힘.
FAQ
Q. 콘텐츠가 AI 학습에 쓰이면 손해 아닌가?
양면. 손해: 콘텐츠 가치 = 학습 데이터로 흡수. 이득: AI가 답변 시 사이트 인용 → 새로운 노출 채널. 개인 학습 노트 블로그라면 이득이 크다. 유료 콘텐츠·뉴스 사이트라면 다른 판단.
Q. Cloudflare가 AI 봇 차단해주는 기능 켜야 하나?
Cloudflare는 “AI Crawlers” 토글이 있음. 우리 결정은 정반대 = 허용. 그래서 그 토글은 OFF.
Q. llms.txt 표준 진짜 쓰나?
2025년 도입, 2026년 OpenAI·Anthropic·Perplexity 모두 채택 검토. 현재는 실험 단계지만 선점 효과. 5분 작성 비용 대비 이득 크다.
Q. 한국 AI 검색(클로바X 등)에도 적용되나?
네이버는 자체 봇 (Yeti), 카카오는 Daum. mu-plugin에 추가 가능. 클로바X는 OpenAI GPT 기반이라 GPTBot 허용으로 이미 처리됨.
Q. 이거 안 해도 별고래가 자동으로 노출되나?
robots.txt 기본값(WordPress 기본)은 검색 봇만 허용. AI 봇 명시는 별도. 안 박으면 인용 안 됨.
다음 편 예고
4편 — 자기 PC가 알아서: 백업·캐시·이미지 압축. cron·Redis·EWWW로 매일 자동 백업 + 페이지 30% 빨라짐 + 이미지 자동 WebP.
한 줄 정리
검색에서 GEO로 시대가 옮겨가는 중. AI 봇 차단하면 존재 없음이 된다. mu-plugin 한 파일 + llms.txt 한 파일로 인용 가능한 사이트가 된다. 5분 작업.

답글 남기기