XML Sitemaps

Aus induux Wiki

Die sitemap.xml ist eine wichtige Text-Datei im XML-Format, die auf dem Webserver im Root-Verzeichnis (/) liegt und mit der der Google-Bot (-Crawler) informiert wird, welche Webseiten via Google auffindbar sein sollen, also relevant sind.

Hat Google diese Übersicht nicht, wird das Google Crawling Budget verschwendet.
Synonym(e): sitemap.xml, XML-Sitemap, HTML-Sitemap



Die wichtigsten Fakten:

  • Die XML Sitemap ist eine XML-Datei mit dem relevanten Inhalt einer Webpräsenz.
  • Damit die Sitemap vom Crawler gefunden werden kann, sollte sie in der robots.txt referenziert werden z. B.: https://www.example.com/sitemap.xml
  • Aktuell können in einer Sitemap 50.000 URLs aufgelistet werden und die Sitemap darf eine Größe von 50 MB nicht überschreiten. Ist die Sitemap größer oder beinhaltet mehr URLs muss eine weitere Sitemap angelegt werden.
  • Die XML Sitemap kann via Google Search Console Google übermittelt übermittelt werden. In der Google Search Console gibt es auch die Info, ob Google ein Problem gesehen hat

Was soll in die Sitemap?

In der Sitemap sollten nur Seiten aufgelistet werden, die für den Crawler bzw. das Ranking relevant sind.

  • Produktseiten
  • Übersichtsseiten der Produkte
  • Dienstleistungen
  • relevante Newsseiten

Das Format der sitemap.xml Datei

Die Sitemap besteht aus einem Container, der die komplette Sitemap umfasst. In diesem werden die Seiten, jeweils in einen Block pro URL unterteilt, angegeben. Diese Blöcke beinhalten die URL zur Seite im <loc> Feld sowie Eigenschaften, die die Seite beschreiben.

Damit die Suchmaschinen-Bots wichtige Seiten möglichst zuerst indizieren, bietet das Format der Sitemap einige Attribute, das Crawling-Verhalten zu steuern.

  • priority - gibt die vom Seitenbetreiber festgelegte Priorität der einzelnen Seite an; angegeben als Wert zwischen 0 und 1, der Standardwert ist 0.5
  • lastmod - das letzte Änderungsdatum der Seite, so muss die Seite nicht erneut abgefragt werden, wenn das Änderungsdatum älter ist als die letzte Indizierung
  • changefreq - wie häufig sich die Seite ändert. Gültige Werte sind beispielsweise daily, weekly, monthly

Beispiel für einen URL-Block

Jede Webseite der Website die ranken soll (hier das Beispiel mypage1.html) wird in einem Block angegeben. Die Priorität wird pro Seite festgelegt und erlaubt so die Gewichtung der Seiten im Verhältnis zueinander.

<url>
   <loc>https://www.example.com/mypage1.html</loc>
   <lastmod>2019-01-25T16:27:05+00:00</lastmod>
   <priority>0.80</priority>
   <changefreq>weekly</changefreq>
</url>

Anforderungen an die XML Sitemap / Agentur

Beim Einsatz von Content Management Systeme (CMS) sollte die XML-Sitemap automatisch generiert werden, da die Häufigkeit von Seitenänderungen so hoch ist, dass ein Webmaster nicht ständig die Sitemap aktualisieren kann. Meist ist es bereits eine Standard-Funktion des CMS oder kann über ein Plug-In installiert werden.

Allerdings ist das Standard-Setup meist nicht optimal. Es sollte darauf geachtet werden:

  1. dass in der sitemap.xml Datei wirklich nur Content-Seiten enthalten sind, die Google auch im Index haben soll. Seiten wie AGB, Impressum, Datenschutz oder Such-Ergebnisseiten können/sollten nicht in der Sitemap enthalten sein.
  2. dass die Priorität (Priorty) bei wichtigen Seiten nicht mit einem Wert < 1 angegeben ist. Am besten auf 1 setzen oder weg lassen.

Überprüfung der Sitemap:

  1. Es muss regelmäßig überprüft werden, ob die Syntax der Datei fehlerfrei ist und es keine Fehlermeldung in der GSC gibt
  2. Regelmäßige Überprüfung der Sitemap mit einem SEO Tool wie z. B. mit Screaming Frog. Siehe dazu auch den Artikel Siehe Artikel "How To Audit XML Sitemaps.

Quelle

Du hast Feedback zur Wiki-Seite?