Er bestaat een hardnekkig misverstand over AI-crawlers: dat je ze allemaal moet blokkeren “om je content te beschermen.” Op socials en in LinkedIn-posts wordt dat vaak gepresenteerd als een no-brainer.
Het is geen no-brainer. Sterker nog: voor de meeste bedrijven is het een slecht advies.
In deze post: welke AI-crawlers er zijn, wat elke bot doet, en hoe je bewust kiest wie je toelaat en wie niet — aan de hand van je doel, niet een algemene angst.
Wat is een AI-crawler eigenlijk?
Een AI-crawler is een bot die webcontent leest met als primair doel: data verzamelen voor een AI-model. Dat kan drie soorten doelen dienen:
- Training — content gebruiken om toekomstige modellen te trainen
- Indexering — content opnemen in een zoekindex die het model live kan raadplegen
- On-demand ophalen — alleen lezen wanneer een gebruiker er actief om vraagt
Die drie zijn geen hetzelfde. Je kunt training blokkeren en indexering toestaan. Dat is precies waarom grote publishers (NY Times, Reuters) vaak wel GPTBot blokkeren maar OAI-SearchBot toelaten.
De belangrijkste AI-crawlers in 2026
| User-agent | Operator | Doel | Respecteert robots.txt? |
|---|---|---|---|
GPTBot | OpenAI | Training | Ja |
OAI-SearchBot | OpenAI | ChatGPT Search indexering | Ja |
ChatGPT-User | OpenAI | Live browsing (wanneer user vraagt) | Ja |
ClaudeBot | Anthropic | Training | Ja |
Claude-Web / Claude-SearchBot | Anthropic | Live web-search voor Claude | Ja |
PerplexityBot | Perplexity | Indexering voor Perplexity search | Ja |
Perplexity-User | Perplexity | Live ophalen bij user-query | Negeert soms robots.txt |
Google-Extended | AI-training voor Gemini/Vertex | Ja | |
CCBot | Common Crawl | Open crawl gebruikt door veel AI-bedrijven | Ja |
Bytespider | ByteDance (TikTok/Doubao) | Training | Deels |
Applebot-Extended | Apple | Apple Intelligence training | Ja |
De vier strategische keuzes
Stel jezelf deze vier vragen voordat je iets blokkeert:
1. Wil je gevonden worden in AI-zoekmachines?
Ja → laat indexerings-bots (OAI-SearchBot, PerplexityBot, Claude-Web) toe.
Nee → blokkeren.
2. Vind je het erg dat je content toekomstige modellen traint?
Niet erg / prima → laat trainings-bots (GPTBot, ClaudeBot, Google-Extended) toe.
Wel erg → blokkeren.
3. Heeft je content commerciële waarde als dataset? (Denk uitgevers, onderzoek, betaalde archieven.) → dan maakt training-blokkeren zin.
4. Bouw je merk-autoriteit die profiteert van vermeldingen in AI-antwoorden? Waarschijnlijk ja — voor de meeste MKB, bureaus en kennisbedrijven is “ik wil genoemd worden” de belangrijkste driver.
Vier archetypes en hun keuze
Archetype A: bureau, MKB, kennisbedrijf Doel: zichtbaar zijn en geciteerd worden. Advies: álles toelaten. Je hebt meer te verliezen aan onzichtbaarheid dan aan training. Een artikel over jouw expertise dat in GPT-6 belandt en zich daarna viraal verspreidt is gratis marketing.
Archetype B: webshop Doel: productvisibility. Advies: toelaten, maar blokkeer product-detail API-endpoints en prijzen-feeds (die horen niet publiek te zijn). De reguliere crawl van je shop helpt.
Archetype C: SaaS met premium content Doel: leads, maar ook bescherming van paywall-content. Advies: mix. Laat indexering toe op marketing- en documentatie-pagina’s. Blokkeer trainings-bots op auth-protected delen (al mogen ze daar sowieso niet komen).
Archetype D: uitgever, onderzoek, creative works Doel: content heeft directe commerciële waarde. Advies: blokkeer trainings-bots. Overweeg wel indexerings-bots toe te laten, want publicaties willen meestal nog wel gevonden worden.
Praktische robots.txt — standaard setup voor een bureau
Voor de meeste MKB en bureaus (archetype A) is onze standaardaanbeveling simpel:
User-agent: *
Allow: /
Sitemap: https://agensea.nl/sitemap-index.xml
Oftewel: iedereen binnen, inclusief AI-crawlers. Je hoeft niets specifieks te doen. Ze respecteren allemaal de generieke *.
Strenger: alleen indexering, geen training
Wil je wél geïndexeerd worden maar niet training-data leveren? Dan wordt het:
User-agent: *
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
Sitemap: https://agensea.nl/sitemap-index.xml
Dit blokkeert de vier grote trainings-bots. OAI-SearchBot, PerplexityBot en Claude-Web blijven toegestaan (via de *-regel) omdat die voor indexering zijn.
De val: alles blokkeren “voor de zekerheid”
Als je in je robots.txt zet:
User-agent: *
Disallow: /
Dan sluit je Google ook buiten. Je verdwijnt uit de reguliere zoekresultaten. Dat is bijna nooit wat je wilt.
Een ander veelgemaakte fout: plakken van een “stop de AI”-robots.txt van een ander forum zonder te checken wat je blokkeert. We hebben sites gezien waar Googlebot per ongeluk was uitgesloten — drie maanden lang wegsmelt van je organische traffic.
Hoe controleer je of het werkt?
- robots.txt validator — Google’s robots testing tool of een generieke parser.
- Server-logs — filter op user-agent. Zie je nog
GPTBotbinnenkomen nadat je ‘m hebt geblokkeerd, dan is er iets mis. - Direct ophalen —
curl -A "GPTBot" https://jouwsite.nl/robots.txten checken of jouw disallow-regel wordt teruggegeven.
Wat wij doen
Voor onze eigen site (agensea.nl) laten we alle AI-crawlers toe. Onze strategie is helder: vindbaar zijn in AI-zoekmachines weegt zwaarder dan bescherming tegen training. Voor sommige klanten — een architectenbureau dat z’n portfolio commercieel wilde houden, een onderzoeksinstituut met betaalde rapporten — zijn we strenger.
Niet één antwoord past bij iedereen. De vraag is: wat is jouw doel?
Meer weten
- llms.txt implementeren — de opvolger van robots.txt voor AI
- GEO: de complete gids — hoe je überhaupt in AI-antwoorden verschijnt
- Bel 06 81 38 36 01 voor een vrijblijvende audit van je robots.txt + AI-crawler-strategie
Tags
Geschreven door
Jorian Wientjens
Developer en technisch specialist bij Agensea. Bouwt al jaren websites en maatwerk software, en kent het hele speelveld — van hosting en DNS tot performance en code-architectuur.