LLMS.txt getest: Wel of geen controle over AI-crawlers?
Grote taalmodellen (Large Language Models) gebruiken steeds vaker informatie van websites, maar ze hebben een belangrijk probleem: ze zijn goed in het oppakken van content en context, maar hebben moeite hele websites tegelijk te begrijpen. Het omzetten van ingewikkelde webpagina’s met menu’s, advertenties en JavaScript naar eenvoudige tekst is lastig en niet altijd precies.
Websites zijn gemaakt voor mensen, maar ook taalmodellen halen er informatie uit. Om de crawlers van deze modellen te ondersteunen is het nu mogelijk richtlijnen te geven middels de LLMS.txt file.
Let op: Het is (nog) niet bewezen dat deze implementatie ook daadwerkelijk effect heeft. Echter zien wij de makers van Claude.ai en Answer.ai de txt-file nu ook gebruiken. In dit artikel gaan we ervan uit dat andere AI-modellen dit ook gebruiken.
Inmiddels hebben wij de LLMS.txt file een maand getest op www.potsandplants.nl. We hebben de logs geanalyseerd en zien dat het bestand nauwelijks wordt gebruikt door LLMs. We zien een aantal kleinere LLMs terug in de logs, maar de grote AI-platformen zoals OpenAI, Claude en Perplexity ontbreken.
Verdere analyse suggereert dit ook. Zo lijkt de LLMS.txt vooral een voorstel te zijn, maar nog weinig toegepast in de praktijk. De LLMS.txt lijkt dan ook voor nu geen meerwaarde te bieden.
Ga direct naar:
Wat is LLMS.txt?
LLMS.txt is een nieuw standaardbestand waarmee je kan bepalen hoe AI-systemen en Large Language Models (LLM’s) de content op de website verwerken. Dit bestand biedt richtlijnen aan AI-crawlers over hoe ze met de website-inhoud mogen omgaan. LLMS.txt werd in september 2024 geïntroduceerd door Jeremy Howard, medeoprichter van Answer.AI.
Jeremy Howard over LLMS.txt
Volgens Jeremy Howard, oprichter van Answer.AI, richt LLMS.txt zich op het standaardiseren van de weergave van LLM-vriendelijke inhoud op websites. Door dit bestand in de rootdirectory te plaatsen, kunnen website-eigenaren gestructureerde informatie bieden in Markdown-formaat, waardoor LLM’s gemakkelijker toegang krijgen tot belangrijke gegevens zoals API-documentatie, bedrijfsinformatie en productspecificaties. LLMS.txt werkt samen met bestaande webstandaarden zoals robots.txt en sitemap.xml.
Waarom is LLMS.txt belangrijk?
Traditionele zoekmachines zoals Google indexeren en rangschikken webpagina’s, maar AI-zoekmachines gaan verder. Ze interpreteren, genereren en hergebruiken content, wat extra controle van website-eigenaren vereist. LLMS.txt biedt de mogelijkheid om:
- Specifieke AI-systemen toegang te geven of te blokkeren.
- Contentgebruik voor AI-training te reguleren.
- Bepaalde delen van de website af te schermen.
- Attributieregels en contentreproductievoorwaarden vast te leggen.
Voor e-commercebedrijven en contentplatforms biedt LLMS.txt voordelen zoals betere productindexering en AI-gestuurde aanbevelingen.
Hoe werkt LLMS.txt voor AI-crawlers en robots?
LLMS.txt is een eenvoudig tekstbestand dat wordt geplaatst in de rootdirectory van een website (bijvoorbeeld: example.com/llms.txt). AI-crawlers zoals GPTBot (OpenAI), PerplexityBot en ClaudeBot bezoeken dit bestand om te bepalen welke regels ze moeten volgen. Hiermee kan de websitebeheerder specifieke richtlijnen opstellen over welke content toegankelijk is en hoe deze mag worden gebruikt.
Kenmerk | Robots.txt | LLMS.txt |
Doel | Regelt welke zoekmachines toegang krijgen tot een website | Bepaalt of en hoe AI-modellen content mogen gebruiken |
Gebruik | Voorkomt indexering van bepaalde pagina’s door zoekmachines | Regelt AI-training, contentgebruik en dataverwerking |
Toepassing | Google, Bing, en andere zoekmachines | OpenAI, Anthropic (Claude), Perplexity en andere AI-omgevingen |
Hoe schrijf je een LLMS.txt-bestand?
- Bepaal het doel van je LLMS.txt-bestand.
- Maak een tekstbestand en sla het op als llms.txt.
- Voeg de gewenste regels toe (verder in dit artikel meer info hierover), zoals:
- Toegang verlenen of weigeren (Allow: / Disallow:).
- AI-training toestaan of verbieden (Training: allow/disallow).
- Specifieke crawlers beheren (User-agent:).
- Plaats het bestand in de rootdirectory van je website.
- Test en update het bestand regelmatig.
Belangrijke elementen die je kunt toevoegen
- User-agent: bepaalt voor welke AI-crawler de regels gelden.
- Allow: en Disallow: bepalen de toegangsrechten.
- Training: regelt of AI-modellen de content mogen gebruiken voor training.
- Attribution: specificeert of bronvermelding vereist is.
- Crawl-delay: stelt een vertraging in tussen verzoeken.
- Contact: voegt contactinformatie toe voor AI-ontwikkelaars.
- Noindex: voorkomt dat pagina’s worden geïndexeerd door AI-crawlers.
- Noarchive: verbiedt AI-modellen om een cacheversie van de content op te slaan.
- Snippet: bepaalt of een AI bepaalde gedeeltes van content mag gebruiken in samenvattingen of antwoorden.
- Dataset-opt-out: geeft aan dat specifieke datasets niet gebruikt mogen worden voor AI-training.
- Usage-restrictions: specificeert hoe AI de content mag gebruiken, zoals alleen voor persoonlijke of educatieve doeleinden.
- API-rules: bepaalt of AI-toegang via API’s wordt toegestaan of beperkt.
- Revalidation: geeft aan hoe vaak een AI-crawler opnieuw toestemming moet vragen om de content te gebruiken.
- License: specificeert onder welke licentie AI-modellen de content mogen gebruiken.
Meer over de mogelijkheden kan je vinden in Github: https://github.com/AnswerDotAI/llms-txt
Praktijkvoorbeeld: LLMS.txt van Pots&Plants.nl
Pots&Plants is een bedrijf van ons waar we allerlei zaken kunnen testen. Het is voor ons naast dat we het bedrijf runnen ook een testplatform waar we nieuwe ontwikkelingen gericht op CRM, CRO, SEO en AI kunnen testen. Hier is het LLMS.txt-bestand dat gebruikt wordt. Sommige onderstaande elementen zijn aangevuld t.o.v. hetgeen live staat. Dit om de verdere mogelijkheden te tonen in de praktijk.
Bekijk de live LLMS.txt: https://potsandplants.nl/llms.txt
# LLMS.txt voor www.potsandplants.nl
# 🚫 Algemene richtlijn: Beperk AI-training, maar sta correcte verwerking toe
AI-Use-Policy: No AI Training, Allow Indexing, Allow Summaries
#Vervolgens voeg je restricties toe. Dit kan je doen in een algemene User-Agent: * regel of zoals onderstaand per specifieke AI-Bot.
# 📂 Beperk toegang tot gevoelige delen van de website voor alle AI-bots
User-agent: *
Disallow: /admin
Disallow: /checkout
Disallow: /cart
Disallow: /user-data
Disallow: /private
Disallow: /wholesale
Disallow: /*.csv
Disallow: /*.pdf
Allow: /blog
Allow: /products
Allow: /faq
# 🤖 Specifieke beperkingen voor AI-bots. Onderstaand blokkeren we specifieke bots in zijn geheel of voor specifieke gedeeltes van de website.
User-agent: GPTBot
Disallow: /
User-agent: GoogleAI
Disallow: /customer-reviews
Disallow: /images/
Disallow: /wholesale
User-agent: AnthropicAI
Disallow: /
User-agent: OpenAI-User
Disallow: /
User-agent: PerplexityAI
Disallow: /
User-agent: ClaudeAI
Disallow: /
User-agent: MetaAI
Disallow: /
# 🔍 AI-richtlijnen voor correcte weergave
AI-Readability: Yes
Preferred-Language: nl
Structured-Data: JSON-LD, Schema.org
Summarization-Allowed: Yes, Source Required
Citation-Required: Yes
# 📜 Contentbescherming en licentie
License: All Rights Reserved
Content-Owner: Pots & Plants B.V.
# 📩 Contact en monitoring
Contact: info@potsandplants.nl
# 📊 Logging en rapportage
Log-Requests: Yes
Report-Usage: Yes
# ⏳ Geldig tot aan
Expires: 2025-12-31
# ⚡ Rate limiting
Crawl-delay: 10
# 📑 Gestructureerde data voor AI-modellen
Structured-Data-Format: JSON-LD, Schema.org
Main-Content-Type: E-Commerce, Blog
Product-Information: Name, Price, Description, Availability
Resultaten
Inmiddels hebben wij de LLMS.txt file een maand getest op www.potsandplants.nl. We hebben de logs geanalyseerd en zien dat het bestand nauwelijks wordt gebruikt door LLMs. We zien een aantal kleinere LLMs terug in de logs, maar de grote AI-platformen zoals OpenAI, Claude en Perplexity ontbreken.
Verdere analyse suggereert dit ook. Zo lijkt de LLMS.txt vooral een voorstel te zijn, maar nog weinig toegepast in de praktijk. De LLMS.txt lijkt dan ook voor nu geen meerwaarde te bieden.
LLMS.txt bij Anthropic
Anthropic.com, een groot AI safety en research bedrijf welke o.a. bekend is als ontwikkelaar van Claude AI, heeft een van de meest uitgebreide implementaties van LLMS.txt zo ver wij weten. Hun volledige bestand is te vinden op:
- LLMS.txt: https://docs.anthropic.com/llms.txt
- LLMS-full.txt (uitgebreide versie): https://docs.anthropic.com/llms-full.txt
Deze uitgebreide variant bevat meer dan 900 pagina’s aan documentatie, waardoor AI-modellen efficiënter toegang krijgen tot gestructureerde informatie.
Conclusie
Mocht de LLMS.txt breed geadopteerd zijn (of worden) door LLM-crawlers zou het een krachtig hulpmiddel zijn. Vergelijkbaar met de Robots.txt voor crawlers van zoekmachines zou dit voor AI-crawlers ook het begin van een crawl kunnen zijn.
Tevens zou dit voor de makers van AI-modellen ook gunstig kunnen zijn. Gezien zij gestructureerd data kunnen gaan ophalen. Dit verhoogt de kans dat zij de juiste informatie verzamelen en beter kunnen verwerken. Dit zou uiteindelijk moeten leiden tot uitkomsten binnen de platformen die nog accurater zijn.
Als laatste zou het ook een goede manier zijn om content en informatie te beschermen tegen ongewenst gebruik.
Handige links:
Github: https://github.com/AnswerDotAI/llms-txt
Pots&Plants voorbeeld: https://potsandplants.nl/llms.txt
Anthropic voorbeeld: https://docs.anthropic.com/llms.txt
Anthropic voorbeeld full.txt: https://docs.anthropic.com/llms-full.txt
Tim
Tim is co-founder en owned media consultant bij Boundless en heeft meer dan tien jaar ervaring in het optimaliseren van websites en platformen. Zijn focus ligt op het maximaliseren van de impact van eigen bedrijfskanalen. Van SEO en CRO voor websites tot het ontwikkelen van complete websites, data activatie strategieën en het opzetten van uitgebreide marketingstrategieën. Tim heeft gewerkt aan bureauzijde bij Dentsu voor enkele van 's werelds grootste merken, aan klantzijde bij VanMoof, en als freelancer voor bedrijven zoals adidas, Suitsupply, Pricewise en diverse andere B2C en B2B organisaties in uiteenlopende sectoren.
Geef een reactie