LLMS.txt getest: Wel of geen controle over AI-crawlers?

Grote taalmodellen (Large Language Models) gebruiken steeds vaker informatie van websites, maar ze hebben een belangrijk probleem: ze zijn goed in het oppakken van content en context, maar hebben moeite hele websites tegelijk te begrijpen. Het omzetten van ingewikkelde webpagina’s met menu’s, advertenties en JavaScript naar eenvoudige tekst is lastig en niet altijd precies.

Websites zijn gemaakt voor mensen, maar ook taalmodellen halen er informatie uit. Om de crawlers van deze modellen te ondersteunen is het nu mogelijk richtlijnen te geven middels de LLMS.txt file.

Let op: Het is (nog) niet bewezen dat deze implementatie ook daadwerkelijk effect heeft. Echter zien wij de makers van Claude.ai en Answer.ai de txt-file nu ook gebruiken. In dit artikel gaan we ervan uit dat andere AI-modellen dit ook gebruiken.

Inmiddels hebben wij de LLMS.txt file een maand getest op www.potsandplants.nl. We hebben de logs geanalyseerd en zien dat het bestand nauwelijks wordt gebruikt door LLMs. We zien een aantal kleinere LLMs terug in de logs, maar de grote AI-platformen zoals OpenAI, Claude en Perplexity ontbreken.

Verdere analyse suggereert dit ook. Zo lijkt de LLMS.txt vooral een voorstel te zijn, maar nog weinig toegepast in de praktijk. De LLMS.txt lijkt dan ook voor nu geen meerwaarde te bieden.

Ga direct naar:

    Wat is LLMS.txt?

    LLMS.txt is een nieuw standaardbestand waarmee je kan bepalen hoe AI-systemen en Large Language Models (LLM’s) de content op de website verwerken. Dit bestand biedt richtlijnen aan AI-crawlers over hoe ze met de website-inhoud mogen omgaan. LLMS.txt werd in september 2024 geïntroduceerd door Jeremy Howard, medeoprichter van Answer.AI.

    Jeremy Howard over LLMS.txt

    Volgens Jeremy Howard, oprichter van Answer.AI, richt LLMS.txt zich op het standaardiseren van de weergave van LLM-vriendelijke inhoud op websites. Door dit bestand in de rootdirectory te plaatsen, kunnen website-eigenaren gestructureerde informatie bieden in Markdown-formaat, waardoor LLM’s gemakkelijker toegang krijgen tot belangrijke gegevens zoals API-documentatie, bedrijfsinformatie en productspecificaties. LLMS.txt werkt samen met bestaande webstandaarden zoals robots.txt en sitemap.xml.

    Waarom is LLMS.txt belangrijk?

    Traditionele zoekmachines zoals Google indexeren en rangschikken webpagina’s, maar AI-zoekmachines gaan verder. Ze interpreteren, genereren en hergebruiken content, wat extra controle van website-eigenaren vereist. LLMS.txt biedt de mogelijkheid om:

    • Specifieke AI-systemen toegang te geven of te blokkeren.
    • Contentgebruik voor AI-training te reguleren.
    • Bepaalde delen van de website af te schermen.
    • Attributieregels en contentreproductievoorwaarden vast te leggen.

    Voor e-commercebedrijven en contentplatforms biedt LLMS.txt voordelen zoals betere productindexering en AI-gestuurde aanbevelingen.

    Hoe werkt LLMS.txt voor AI-crawlers en robots?

    LLMS.txt is een eenvoudig tekstbestand dat wordt geplaatst in de rootdirectory van een website (bijvoorbeeld: example.com/llms.txt). AI-crawlers zoals GPTBot (OpenAI), PerplexityBot en ClaudeBot bezoeken dit bestand om te bepalen welke regels ze moeten volgen. Hiermee kan de websitebeheerder specifieke richtlijnen opstellen over welke content toegankelijk is en hoe deze mag worden gebruikt.

    KenmerkRobots.txtLLMS.txt
    DoelRegelt welke zoekmachines toegang krijgen tot een websiteBepaalt of en hoe AI-modellen content mogen gebruiken
    GebruikVoorkomt indexering van bepaalde pagina’s door zoekmachinesRegelt AI-training, contentgebruik en dataverwerking
    ToepassingGoogle, Bing, en andere zoekmachinesOpenAI, Anthropic (Claude), Perplexity en andere AI-omgevingen

    Hoe schrijf je een LLMS.txt-bestand?

    1. Bepaal het doel van je LLMS.txt-bestand.
    2. Maak een tekstbestand en sla het op als llms.txt.
    3. Voeg de gewenste regels toe (verder in dit artikel meer info hierover), zoals:
      • Toegang verlenen of weigeren (Allow: / Disallow:).
      • AI-training toestaan of verbieden (Training: allow/disallow).
      • Specifieke crawlers beheren (User-agent:).
    4. Plaats het bestand in de rootdirectory van je website.
    5. Test en update het bestand regelmatig.

    Belangrijke elementen die je kunt toevoegen

    • User-agent: bepaalt voor welke AI-crawler de regels gelden.
    • Allow: en Disallow: bepalen de toegangsrechten.
    • Training: regelt of AI-modellen de content mogen gebruiken voor training.
    • Attribution: specificeert of bronvermelding vereist is.
    • Crawl-delay: stelt een vertraging in tussen verzoeken.
    • Contact: voegt contactinformatie toe voor AI-ontwikkelaars.
    • Noindex: voorkomt dat pagina’s worden geïndexeerd door AI-crawlers.
    • Noarchive: verbiedt AI-modellen om een cacheversie van de content op te slaan.
    • Snippet: bepaalt of een AI bepaalde gedeeltes van content mag gebruiken in samenvattingen of antwoorden.
    • Dataset-opt-out: geeft aan dat specifieke datasets niet gebruikt mogen worden voor AI-training.
    • Usage-restrictions: specificeert hoe AI de content mag gebruiken, zoals alleen voor persoonlijke of educatieve doeleinden.
    • API-rules: bepaalt of AI-toegang via API’s wordt toegestaan of beperkt.
    • Revalidation: geeft aan hoe vaak een AI-crawler opnieuw toestemming moet vragen om de content te gebruiken.
    • License: specificeert onder welke licentie AI-modellen de content mogen gebruiken.

    Meer over de mogelijkheden kan je vinden in Github: https://github.com/AnswerDotAI/llms-txt

    Praktijkvoorbeeld: LLMS.txt van Pots&Plants.nl

    Pots&Plants is een bedrijf van ons waar we allerlei zaken kunnen testen. Het is voor ons naast dat we het bedrijf runnen ook een testplatform waar we nieuwe ontwikkelingen gericht op CRM, CRO, SEO en AI kunnen testen. Hier is het LLMS.txt-bestand dat gebruikt wordt. Sommige onderstaande elementen zijn aangevuld t.o.v. hetgeen live staat. Dit om de verdere mogelijkheden te tonen in de praktijk.

     

    Bekijk de live LLMS.txt: https://potsandplants.nl/llms.txt

    # LLMS.txt voor www.potsandplants.nl

    # 🚫 Algemene richtlijn: Beperk AI-training, maar sta correcte verwerking toe

    AI-Use-Policy: No AI Training, Allow Indexing, Allow Summaries

     

    #Vervolgens voeg je restricties toe. Dit kan je doen in een algemene User-Agent: * regel of zoals onderstaand per specifieke AI-Bot.

    # 📂 Beperk toegang tot gevoelige delen van de website voor alle AI-bots

    User-agent: *

    Disallow: /admin

    Disallow: /checkout

    Disallow: /cart

    Disallow: /user-data

    Disallow: /private

    Disallow: /wholesale

    Disallow: /*.csv

    Disallow: /*.pdf

    Allow: /blog

    Allow: /products

    Allow: /faq

     

    # 🤖 Specifieke beperkingen voor AI-bots. Onderstaand blokkeren we specifieke bots in zijn geheel of voor specifieke gedeeltes van de website. 

    User-agent: GPTBot

    Disallow: /

    User-agent: GoogleAI

    Disallow: /customer-reviews

    Disallow: /images/

    Disallow: /wholesale

    User-agent: AnthropicAI

    Disallow: /

    User-agent: OpenAI-User

    Disallow: /

    User-agent: PerplexityAI

    Disallow: /

    User-agent: ClaudeAI

    Disallow: /

    User-agent: MetaAI

    Disallow: /

     

    # 🔍 AI-richtlijnen voor correcte weergave

    AI-Readability: Yes

    Preferred-Language: nl

    Structured-Data: JSON-LD, Schema.org

    Summarization-Allowed: Yes, Source Required

    Citation-Required: Yes

     

    # 📜 Contentbescherming en licentie

    License: All Rights Reserved

    Content-Owner: Pots & Plants B.V.

     

    # 📩 Contact en monitoring

    Contact: info@potsandplants.nl

     

    # 📊 Logging en rapportage

    Log-Requests: Yes

    Report-Usage: Yes

     

    # ⏳ Geldig tot aan

    Expires: 2025-12-31

     

    # ⚡ Rate limiting

    Crawl-delay: 10

     

    # 📑 Gestructureerde data voor AI-modellen

    Structured-Data-Format: JSON-LD, Schema.org

    Main-Content-Type: E-Commerce, Blog

    Product-Information: Name, Price, Description, Availability

     

    Resultaten

    Inmiddels hebben wij de LLMS.txt file een maand getest op www.potsandplants.nl. We hebben de logs geanalyseerd en zien dat het bestand nauwelijks wordt gebruikt door LLMs. We zien een aantal kleinere LLMs terug in de logs, maar de grote AI-platformen zoals OpenAI, Claude en Perplexity ontbreken.

    Verdere analyse suggereert dit ook. Zo lijkt de LLMS.txt vooral een voorstel te zijn, maar nog weinig toegepast in de praktijk. De LLMS.txt lijkt dan ook voor nu geen meerwaarde te bieden.

    LLMS.txt bij Anthropic

    Anthropic.com, een groot AI safety en research bedrijf welke o.a. bekend is als ontwikkelaar van Claude AI, heeft een van de meest uitgebreide implementaties van LLMS.txt zo ver wij weten. Hun volledige bestand is te vinden op:

    Deze uitgebreide variant bevat meer dan 900 pagina’s aan documentatie, waardoor AI-modellen efficiënter toegang krijgen tot gestructureerde informatie.

    Conclusie

    Mocht de LLMS.txt breed geadopteerd zijn (of worden) door LLM-crawlers zou het een krachtig hulpmiddel zijn. Vergelijkbaar met de Robots.txt voor crawlers van zoekmachines zou dit voor AI-crawlers ook het begin van een crawl kunnen zijn.

    Tevens zou dit voor de makers van AI-modellen ook gunstig kunnen zijn. Gezien zij gestructureerd data kunnen gaan ophalen. Dit verhoogt de kans dat zij de juiste informatie verzamelen en beter kunnen verwerken. Dit zou uiteindelijk moeten leiden tot uitkomsten binnen de platformen die nog accurater zijn.

    Als laatste zou het ook een goede manier zijn om content en informatie te beschermen tegen ongewenst gebruik.

    Handige links:

    Github: https://github.com/AnswerDotAI/llms-txt

    Pots&Plants voorbeeld: https://potsandplants.nl/llms.txt

    Anthropic voorbeeld: https://docs.anthropic.com/llms.txt

    Anthropic voorbeeld full.txt: https://docs.anthropic.com/llms-full.txt

    Tim is co-founder en owned media consultant bij Boundless en heeft meer dan tien jaar ervaring in het optimaliseren van websites en platformen. Zijn focus ligt op het maximaliseren van de impact van eigen bedrijfskanalen. Van SEO en CRO voor websites tot het ontwikkelen van complete websites, data activatie strategieën en het opzetten van uitgebreide marketingstrategieën. Tim heeft gewerkt aan bureauzijde bij Dentsu voor enkele van 's werelds grootste merken, aan klantzijde bij VanMoof, en als freelancer voor bedrijven zoals adidas, Suitsupply, Pricewise en diverse andere B2C en B2B organisaties in uiteenlopende sectoren.

    Geef een reactie

    Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *