Der Zyklop-Crawler der Seoratio

Was ist der Zyklop-Crawler von Seoratio?

Herzlichen Willkommen auf den Spider-Seiten der Seoratio Gbr. Wir sind ein Online-Marketing-Dienstleister mit Sitz in Untermeitingen bei Augsburg und führen für unsere Kunden Beratung und Leistungen im Suchmaschinenmarketing durch. Näheres entnehmen Sie bitte unserer Leistungsbeschreibung www.seoratio.de/leistungen/
Im Kundenauftrag nehmen unsere Zyklop-Spider das Web unter die Lupe und suchen gezielt nach Webinhalten zur Analyse oder Weiterverarbeitung. Sollten unsere Spider Probleme auf Ihrer Website verursachen, bieten wir Ihnen mit dieser Website die nötigen Lösungsschritte an. Hier stellen wir die häufig auftretenden Problemfälle dar. Natürlich sind wir auch jederzeit für Sie persönlich da. Schreiben Sie uns eine E-Mail oder benutzen unser Kontaktformular www.seoratio.de/kontakt/

Wie steuert man die Zugriffe von Spidern auf einer Webseite?

Es gibt 2 Möglichkeiten einer Steuerung. Auf Seitenebene können Sie mit Hilfe des Meta-Tags „robots“ verhindern, dass Crawler  Ihre Seite in ihren Webindex aufnehmen. Um aber festzustellen ob eine Seite aufgenommen werden darf, muss Sie aufgerufen werden.

Auf Domainebene können Sie mit Hilfe des Quasi-Standards „Robot-Exclusion-Standard“ den Zugriff steuern, indem Sie in der robots.txt-Datei festlegen, welche Bereiche Ihrer Website nicht von bestimmten Crawlern besucht werden sollen. Um den Crawler der Seoratio auszusperren müssen Sie folgende Anweisung in ihrer Robots-Datei (http://www.ihre-domain.de/robots.txt)  angeben:

User-agent: zyklop
Disallow: /

Weitere Erläuterungen, wie Sie eine robots.txt-Datei aufbauen, finden Sie hier: http://de.wikipedia.org/wiki/Robots_Exclusion_Standard.
Eine robots-txt-Datei liefert keinen 100% Schutz vor Crawlern dar, da es keine Verpflichtung gibt, sich an die Anweisungen in der robots.txt-Datei zu halten. Unsere Spider beachten jedoch diese Regeln.

Was versteht man unter einem User Agent und wo befindet er sich?

Beispiele für User Agents sind Webbroswer, Email-Programme, Newsreader oder eben auch Crawler. Im Grunde sind User Agents Client-Programme, die mit einem Netzwerkdienst genutzt werden können. Sobald ein Crawler Ihre Seite besucht, überträgt er seinen Namen an den entsprechenden Server. Sie können die Namen der Crawler, die Ihre Website besuchen, in den Logfiles Ihres Servers einsehen.

Sie vermuten eine Hacker- oder DDoS-Attacke?

Unsere Webcrawler fragen eine URL pro Sekunde ab. Viele Spider u.a. auch Google gehen hier deutlich aggressiver vor. Trotzdem kann es in Einzelfällen möglich sein, dass unser Zyklop-Crawler auf Ihrem Webserver eine so hohe Last erzeugt. Dieser Fall ist vergleichbar mit einer DoS-Attacke (Denial-of-Service-Attacke), die aber von uns natürlich ungewollt ist. Bitte Kontaktieren Sie uns umgehend über das Kontaktformular, wir werden dafür sorgen, dass der Crawler Ihre Seite nicht mehr behelligt.
Unser Crawler kann keine „illegalen“ Aktivitäten auf Ihrer Seite ausüben, wie etwa Passwörter ausspähen, Schadsoftware installieren oder Hacken. Wenn unser Crawler einen passwort-geschützten Bereich erreicht, dann nur, weil er einen ungeschützten Zugang gefunden hat. Dies deutet auf einen Fehler in Ihrer Seitenarchitektur hin. 
Der gleiche Fall gilt, wenn Sie Formulareingaben, Warenkörbe mit leeren Bestellungen, oder leere Kommentare erhalten.
Der Zyklop-Crawler von Seoratio wurde nur zu einem Zweck zum Einsatz gebracht: Er verfolgt Links. Wenn bei dem verfolgen von Links Aktionen ausgelöst werden, die obigen Szenarien entsprechen, deutet dies auf eine unreichende Absicherung Ihrer Webanwendung hin und bietet jedem anderen Besucher Ihrer Website die Möglichkeit der Manipulation. In Ihrem eigenen Interesse sollten sie so schnell wie möglich Ihre Webanwendung überprüfen lassen und an die neuesten Sicherheitsstandards anpassen.
Ihnen entstandene Unannehmlichkeiten tun uns sehr leid und sind von uns in keinster Weise beabsichtigt.

Bild Crawler

Crawler, Bots und Spider

Warum gibt es Crawler und was machen sie?

Ein Webcrawler (Synonyme sind auch Tobot, Crawler oder Spider) ist ein Programm, dass im WWW Webseiten durchsucht. Googles Dienst könnte beispielsweise ohne Webcrawler nicht zur Verfügung gestellt werden. Ein Crawler navigiert über Hyperlinks, das hei&szilig;t, er ruft Internetseiten auf, indem er den Links folgt und so von einer Seite zur nächsten gelangt. Werden Hyperlinks gefunden, die bisher noch nicht abgesurft wurden, speichert der Crawler den Link und besucht die Seite zu einem späteren Zeitpunkt. Um Hyperlinks aus einer Website auszulesen, wird diese auf dem Host des Crawlers gespeichert.

Haben wir Ihr Interesse geweckt?

Beantragen Sie einen Testaccount oder beantragen Sie einen Zugang: