Internetwerkstatt

Regeln für Roboter

von Christina Quast

Künstliche Intelligenz plus Online-Suche, das ist derzeit eine gängige Formel: Immer mehr Anbieter verbinden trainierte KI-Modelle mit aktueller Suche, zuletzt OpenAI, das Search-GPT für ChatGPT veröffentlicht hat. Für Redaktionen stellt sich die Frage, ob die eigenen Beiträge als Suchergebnisse oder als Trainingsdaten verwendet werden dürfen.

Solche Entscheidungen kann man Crawlern von Suchmaschinen und KI-Modellen auch mitteilen – und zwar in der „robots.txt“. Das ist eine schlichte Textdatei, die sich für jede Website speichern lässt. Crawler – auch Robots oder Spider genannt – nutzen die robots.txt, um die Regeln für eine Website zu erfahren, wenn automatisiert Informationen für fremde Dienste wie Suchmaschinen oder KI-Modelle gesammelt werden.

Diese Regeln sind so verfasst, dass Maschinen und Menschen sie lesen können. Das bedeutet, Redaktionen können die robots.txt nutzen, um über die Verwendung von eigenen Beiträgen zu entscheiden und auf anderen Websites nach verborgenen Informationen zu recherchieren.

Training und Suche regulieren

OpenAI schickt inzwischen drei verschiedene Crawler durch das Internet, die verschiedene Aufträge haben:

• Der GPTBot sammelt Trainingsdaten für das KI-Modell.

• Der ChatGPT-User sammelt externe Informationen für CustomGPTs, die zahlende Nutzer erstellen können. Sie legen auch fest, welche Websites eine CustomGPT besucht. Es werden keine Trainingsdaten gesammelt.

• Der OAI-SearchBot sammelt Ergebnisse für die Online-Suche in ChatGPT, die ebenfalls nicht als Trainingsdaten verwendet werden. Anhand dieser Liste können Redaktionen entscheiden, welche Regeln für die Crawler von OpenAI gelten sollen. Ein gängiges Beispiel dürfte sein, dass Beiträge nicht zum Training, aber als Suchergebnisse verwendet werden. In der robots.txt-Datei wird das so formuliert:

user-agent: GPTBot
Disallow: /
user-agent: ChatGPT-User
Allow: /verkehrsinfo.html
user-agent: OAI-SearchBot
Disallow: /anmeldung/
# Das ist ein Beispiel.

Diese Syntax beschreibt, welche Aktionen die verschiedenen Crawler ausführen dürfen, sie ist für Maschinen und Menschen zu lesen: Als „User-Agent“ wird der Crawler genannt, zum Beispiel GPTBot oder Googlebot, für den Aktionen definiert sind. Sollen die Regeln für alle Crawler gelten, kann man einen * setzen, den Operator für einen Platzhalter.

Mit „Allow“ (erlaubt) und „Disallow“ (nicht erlaubt) definiert man, welche Bereiche der Website die Crawler besuchen dürften – oder nicht. Der Schrägstrich (/) steht für die komplette Website, ansonsten können bestimmte Verzeichnisse, etwa /anmeldung, und Dateien, etwa verkehrsinfo.html, eingetragen werden. Mit der Raute können erklärende Kommentare für Menschen ergänzt werden, weil diese Zeilen von Maschinen ignoriert werden.

Ein Tipp fürs Recherchieren

Redaktionen können die robots.txt auch für die Recherche verwenden, denn bei vielen Websites lässt sich die Datei im Browser anzeigen, indem man an die Webadresse robots.txt anfügt – zum Beispiel drehscheibe.org/robots.txt. Dann kann man einsehen, welche Regeln für die Crawler gelten und auch, welche Verzeichnisse und Dateien nicht in Suchmaschinen oder KI-Modellen verwendet werden sollen. Solche Bereiche können für die Recherche durchaus interessant sein und so gefunden werden.

Bei drehscheibe.org ist zu lesen:
user-agent: *
disallow:/contao/

Das heißt, dass Crawler nicht das Verzeichnis „contao“ verwenden sollen, denn so lässt sich die Anmeldeseite zum CMS Contao aufrufen. Es ist üblich, dass Seiten zum Einloggen, aber auch mit Kontaktinformationen ausgeschlossen werden, die aber für Redaktionen nützlich sein können. Robots.txt verrät, was Suchmaschinen nicht als Ergebnis zeigen sollen.

Effekt der Datei

Wichtig zu wissen ist, dass die robots.txt-Datei nur hinweisend ist: Seriöse Crawler halten sich üblicherweise an die Regeln, obwohl sie nicht verpflichtend sind. Auch ein mögliches und bedenkliches Szenario wäre, wenn seriöse Medien alle KI-Modelle ausschließen, sodass deren Crawler eher unseriöse Trainingsdaten sammeln und so mehr verzerrte oder falsche Texte liefern. Es gibt also einige Gründe, warum Redaktionen sich mit dieser Textdatei befassen sollten.

Links

Übersicht der OpenAI Crawler: t1p.de/uebersichtcrawler

Robots.txt von drehscheibe: drehscheibe.org/robots.txt

Christina Quast

berichtet als freie Journalistin über digitale Tools und Themen und ist seit Mitte 2018 für den Blog „Journalisten Tools“ verantwortlich. Für Journalisten gibt sie auch Seminare und organisiert Barcamps.

E-Mail: quast@journalisten-tools.de
Internet: journalisten-tools.de

Veröffentlicht am 01.01.2025 15:25

Zurück

Kommentare

Einen Kommentar schreiben

Kommentieren