Über mich

Startseite arrow Tipps & Tricks arrow URLs aus dem Google Index löschen lassen

URLs aus dem Google Index löschen lassen

Mittwoch, 17. Dezember 2008
Geschrieben von Armin Vieweg
Google crawlt alles, was nicht niet- und nagelfest ist. Wer das nicht möchte hat verschiedene Möglichkeiten. Doch wenn es zu spät ist, kann man etwas dagegen machen!

Um das CMS Wordpress zu testen habe ich neulich eine Subdomain unter Professor Web angelegt und das CMS installiert. Danach habe ich ein bisschen im CMS rumgespielt und neue Inhalte angelegt.

Den vollen Umfang von Wordpress ausreizend, habe ich natürlich auch Dateien hochgeladen. Bilder und auch eine PDF-Datei um zu schauen wie sich Dateien mit Wordpress handhaben lassen.



Die PDF-Datei war die erstbeste, die noch auf meinem Desktop rum lag. Leider handelte es sich dabei um eine Rechnung an einen meiner Kunden im PDF-Format.

Nichts ahnend und mit dem Gewissen, dass die Seite ja nirgends verlinkt oder erwähnt wird, habe ich nach dem Test die Seite wie sie war im Internet gelassen...


Google crawlt und crawlt und...
Neulich kam der Kunde (mittlerweile Ex-Kunde) dessen Rechnung ich missbraucht habe auf mich zu und drohte mir mit rechtlichen Schritten, wenn ich mich nicht besinnen würde und weiterhin seine Wünsche umsetze - kostenlos versteht sich.

Er hat die komplette Rechnung bei Google gefunden. Nicht nur ein Link auf die PDF-Datei, auch eine gecachte HTML-Version prangerte bei Google, die trotz nachträglich, gelöschter Datei voll einsehbar war.


Oh oh!
Was jetzt? Datei gelöscht aber immer noch indexiert. Bis der Google Bot erkennt das die Datei nicht mehr da ist kann es dauern.

Doch die Lösung steckt in den Webmaster-Tools von Google.



URLs entfernen
heißt eine extrem tolle Funktion die Google in den Webmaster-Tools anbietet. Hat man die Seite dessen Inhalte man aus dem Index entfernen möchte in den Tools verifiziert kann man die Löschung von URLs beantragen.

Man kann sich aussuchen ob man:
  • Einzelne URLs (Seiten, Dateien oder Bilder)
  • ein Verzeichnis mit dessen Unterverzeichnissen
  • die gesamte Website
  • oder eine veraltete Cache-Kopie
entfernt haben möchte.

Damit das aber machbar ist muss das Verzeichnis, die Datei oder die ganze Website entweder einen 404 oder 410 Error-Code zurückgeben, eine robots.txt die den Zugriff von Suchmaschinen verbietet oder einen entsprechenden Meta-Tag beinhalten.


Antrag auf Entfernung abschicken

Sind die Kriterien erfüllt und hat man das entsprechende Formular vollständig in den Webmaster-Tools ausgefüllt, kann man nichts mehr machen, außer warten.

Google selbst schreibt, dass sie versuchen innerhalb von 4-5 Tagen die Inhalte zu entfernen, in meinem speziellen Fall hat es gerade mal einen Tag gedauert.



Prävention ist alles
Da Google Internetseiten auch indexiert die nirgends sonst verlinkt sind (Google kommt über den eigenen Browser Chrome und der Google Toolbar an diese URLs) sollte man bei solchen Seiten die nicht für die Öffentlichkeit gedacht sind, entweder den Inhalt per .htaccess Authentifizierung komplett sperren oder zumindest eine robots.txt in das Hauptverzeichnis legen, dass den Zugriff der Suchmaschinen sperrt.

Eine solche robots.txt sieht dann so aus:

User-Agent: *
Disallow: /



Die Moral dieser Geschicht'
Niemals unbedacht irgendwelche Dateien testweise hochladen, wenn dann diese vor der Öffentlichkeit schützen und falls man sich nicht daran hält, das Weihnachtsgeld sparen um mögliche, rechtliche Schritte finanziell abdecken zu können :-(



  Keine Kommentare vorhanden
Letzte Aktualisierung ( Dienstag, 16. Dezember 2008 )
 
Weiter >