Ole Gitzbrecht

Ole Gitzbrecht

Team Lead Digital Marketing - Organic

noindex vs. robots.txt – Wir zeigen Ihnen, wie Sie clever deindexieren!

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on xing
XING
Share on whatsapp
WhatsApp

Damit Suchmaschinen wie Google passende Ergebnisse zu einer Suche anzeigen können, bedarf es einen großen Index an Seiten. Suchmaschinen durchforsten dabei das Internet und analysieren alle Seiten, die der Crawler findet, nach Inhalt und Relevanz.

Aber wie sollte ein Webmaster vorgehen, wenn er eine bestimmte Seite nicht im Index haben möchte oder sie aus dem Index entfernen möchte?

Hier kommen Schlagwörter wie „noindex-Tag“ oder „robots.txt“ ins Spiel. In diesen Artikel erklären wir Ihnen, was hinter diesen Begrifflichkeiten steht und wann Sie welche Methode einsetzen sollten.

Das noindex-Tag – Die richtigen Signale zur Deindexierung senden

Webmaster können dem Crawler der Suchmaschine an verschiedenen Stellen Verhaltenssignale senden. Der bekannteste ist hierbei das „Robots-Tag”. Hierbei wird die grundlegendste Funktion des Crawlers definiert: Soll die Seite indexiert werden oder nicht?

Das Robots-Tag wird grundsätzlich in vier verschiedenen Varianten ausgegeben:

Webmaster können dem Crawler der Suchmaschine an verschiedenen Stellen Verhaltenssignale senden. Der bekannteste ist hierbei das „Robots-Tag”. Hierbei wird die grundlegendste Funktion des Crawlers definiert: Soll die Seite indexiert werden oder nicht?

Das Robots-Tag wird grundsätzlich in vier verschiedenen Varianten ausgegeben:

BefehlFunktion
„index, follow“Die Seite wird indexiert und alle vorhandenen Links werden weiter analysiert.
„index, nofollow“Die Seite wird indexiert, aber alle vorhandenen Links werden nicht weiter analysiert.
„noindex, follow“Die Seite wird nicht indexiert, aber alle vorhandenen Links werden weiter analysiert.
„noindex, nofollow“Die Seite wird nicht indexiert und alle vorhandenen Links werden nicht weiter analysiert.

Damit nun eine Suchmaschine die Seite nicht in den Index, und somit ebenfalls nicht in den Suchergebnissen ausspielt, wird das Robots-Tag mit dem Befehl „noindex“ ausgestattet. Ob hierbei für den Crawler Schluss ist oder er die weiteren Links auf der Seite verfolgen soll, wird mit dem „follow“ bzw. „nofollow“ Befehl festgelegt.

Implementierung des noindex-Tags im Header

Das noindex-Tag kann, je nach technischer Umgebung, an zwei Stellen gesetzt werden. Die gebräuchliche und einfachste ist hierbei im Header einer Webseite.

Der Header ist der oberste Bereich im Quellcode einer Webseite, definiert mit. Hier werden grundsätzliche Dinge definiert, wie z.B. das Styling bzw. das Stylesheet einer Seite, die das Design bestimmt. Im Header wird aber auch das oben beschriebene Robots-Tag platziert.

Beispiel: Für eine deindexierte Seite, ohne Erlaubnis den Links zu folgen, wird das Robots-Tag so definiert:

<meta name=“robots“ content=“noindex,nofollow“ />

Implementierung des noindex-Tags auf Serverseite als X-Robots-Tag

Als weitere Variante kann das Tag aber auch auf Serverseite implementiert werden. Diese Methode ist etwas aufwendiger, kann dafür aber auch für Nicht-HTML Seiten wie z. B. PDF Dateien verwendet werden. Hierbei spricht man von dem X-Robots-Tag.

Das X-Robots-Tag wird, je nach Server-Setup, in der sogenannten .htaccess Datei gesetzt und sendet dieselben Signale, die auch das Robots-Tag im Header sendet. Ebenfalls müssen vorher die Datei bzw. die Dateien definiert werden. Sollen zum Beispiel mit einem Apache Server alle PDF Dateien deindexiert werden, wird das X-Robots-Tag wie folgt definiert:

<Files ~ „\.pdf$“>
Header set X-Robots-Tag „noindex, nofollow“
</Files

robots.txt – Suchmaschinen den Zugriff verweigern

Die robots.txt Datei ist eine einfache Textdatei, die auf dem Root einer Webseite, d. h. im obersten Verzeichnis, z. B. https://domain.tld/robots.txt liegt. Hier werden ebenfalls verschiedene Signale an die Suchmaschinen gesendet. Im Folgenden liegt der Fokus auf Allow und Disallow.

Oft gibt es Verzeichnisse auf dem Webserver, auf die Suchmaschinen keinen Zugriff haben sollen. In vielen Fällen handelt es sich hierbei um Admin-Verzeichnisse oder Serverdateien.

Um nun Suchmaschinen den Zugriff auf eine bestimmte Datei oder ein Verzeichnis zu verbieten, wird das Attribut Disallow: gesetzt.

Als Beispiel kann man hier eine Variante, in Verwendung des bekanntesten Content Management Systems (CMS) WordPress, nehmen:

User-agent: *
Disallow: /wp-admin/

In diesem Beispiel wird allen Crawlern der Zugriff auf das Verzeichnis /wp-admin/ verboten, der die Administrationsumgebung des CMS beinhaltet.

Aber Vorsicht: Ein Eintrag in die robots.txt Datei verbietet den Zugriff auf eine Seite und kann schon bei kleinen Schreibfehlern bereits zu großen Problemen in der Sichtbarkeit führen!

Wann sollte man das noindex-Tag und wann die robots.txt verwenden?

Die Deklaration über das noindex-Tag eignet sich dann, wenn Suchmaschinen die Seite bereits indexiert haben. Hiermit bekommt z. B. Google bei erneuter Analyse der Seite das Signal, die Seite aus dem Index zu entfernen.

Das Verbieten via robots.txt eignet sich dann, wenn die Seite noch nie indexiert wurde und auch zukünftig nicht indexiert werden soll. Oftmals werden diese Angaben beim Launch bzw. Relaunch einer Seite gesetzt. Wird das robots.txt-Tag bei einer bereits indexierten Seite eingesetzt, kann diese nicht aus dem Index entfernt werden, da hier so der komplette Zugriff auf die Seite verweigert wird.

Google Tool zum Entfernen von URLs

Sofern Sie Inhaber einer Webseite sind, stellt Google innerhalb der hauseigenen Search Console ein Tool zur Entfernung von URLs zur Verfügung, mit dem Sie die manuelle Entfernung einzelner URLs und Verzeichnisse beantragen können.

Dabei müssen Sie innerhalb des Tools, den kompletten Pfad der URL oder des Verzeichnisses angeben. Nach einem Klick auf “Weiter” haben Sie nun die Möglichkeit zwischen der vorübergehenden Ausblendung aus den Suchergebnissen (für ca. 90 Tage) oder der Entfernung aus dem Google Cache.

Google Tools zum entfernen von URLs

Die zweite Variante eignet sich besonders dann, wenn Sie wichtige Änderungen an Ihrer Website durchgeführt haben, da hier die alte Seite aus dem Zwischenspeicher des Google Indexes entfernt wird.

Achtung: Bei dieser Methode handelt es sich nur um eine kurzfristige Entfernung, bzw. Ausblendung aus den Suchergebnissen! Sollte die Seite weiterhin indexierbar und durch den Google Crawler auffindbar sein, wird diese auch wieder in den Google Index übernommen!

Nachträgliche Überprüfung der Entfernung

Sollten Sie mit Hilfe der oben genannten Methoden eine oder mehrere Seiten aus dem Google Index entfernt haben, gibt es eine einfache Methode, um diese zu überprüfen.

Innerhalb der Google Search Console gibt es eine Funktion, mit der Sie eine Seite durch den Google Bot abrufen lassen können. Diese Funktion hilft Ihnen zu verstehen, wie Google die Seite sieht und darstellt. Damit lassen sich nicht nur grafische Fehler durch blockierte Elemente, sondern auch die Indexierung überprüfen.

Nachträgliche Überprüfung der Entfernung


In diesem Screenshot sehen Sie, dass das Verzeichnis “/wp-admin/” nicht von Google abrufbar und somit nicht indexierbar ist, da das Verzeichnis (zur Administration des CMS) innerhalb der robots.txt blockiert wurde.

Somit lässt sich einfach und schnell prüfen, ob Google die Seite in die Suchergebnisse aufnehmen kann oder nicht.

Fazit: Suchmaschinen analysieren so viele Seiten wie möglich, aber wir sehen bei unseren Kunden oft, dass dieser Index viele irrelevante Seiten enthält. Mit den beschriebenen Methoden kann der Index bereinigt werden, hierbei gilt es aber auf viele kleine Details zu achten!

Weitere Artikel

Digital Marketing: Wie können wir Ihnen helfen?

Ob Amazon SEO, Suchmaschinenoptimierung oder Remarketing: Wir erstellen Ihnen eine maßgeschneiderte Marketing-Lösung. Unsere Digital Marketing Agentur freut sich darauf, Ihr Projekt erfolgreich zu unterstützen – und Sie mit überzeugenden Leistungen zu beeindrucken.

Ich bestätige die Datenschutzerklärung gelesen zu haben und willige dem Verarbeiten meiner Daten zum Zwecke der Kontaktaufname zu