Dienstag, Januar 10, 2006

Wie sammelt und priorisiert Google Suchresultate?

Google hat vor kurzem im "Google Newsletter for Librarians" eine Einführung publiziert welche aufzeigt, wie Google Web-Seiten durchsucht und innerhalb der Suchresultate ordnet. Oft werde ich in Diskussionen mit den gleichen Missverständnissen konfrontiert, deshalb habe ich nachfolgend die wichtigsten Fakten aus dem (vom Google Ingenieur Matt Cutts verfassten) Dokument zusammengefasst und mit Antworten zu typischen Fragen erweitert:

1. Von Google indexiert zu werden bedeutet nicht, dass die Website im Index ist

Viele Webmaster und Internet-Verantwortliche denken, dass ein Besuch vom Googlebot Roboterprogramm (Crawler) gleichbedeutend mit der Aufnahme im Google Index ist. Dies ist nicht der Fall, denn nach der Indexierung einer Website muss Google mit den indexierten Seiten noch viele Bearbeitungsschritte durchführen, damit diese bei den Suchresultaten gefunden werden.

"Our first step is to crawl and index the billions of pages of the World Wide Web. [...] Our crawl has produces an enormous set of documents, but these documents aren't searchable yet. Without an index, if you wanted to find a term like civil war, our servers would have to read the complete text of every document every time you searched."
Ohne einen Index müsste Google bei jeder Suchabfrage jedes Dokument komplett durchlesen.

Auch der Suchmaschineneintrag bei Google erfolgt nicht in Echtzeit. Wenn man die Anmeldedaten an Google übergeben hat, dauert es noch einige Zeit, bis die Suchmaschine die Web-Seiten auch wirklich scannt. Bis Ihre Seiten dann in dem Google-Index auftauchen können in ungünstigen Fällen bis zu 2,5 Monate vergehen.

2. Die Schlüsselwörter einer Webseite sind wichtig

Einige Leute behaupten, dass die Links der einzig wichtige Faktor sind um eine gute Postition bei den Suchresultaten (Ranking) zu erzielen. Google erklärt die Bedeutung von Schlüsselwörtern (Keywords) in Webseiten wie folgt:

"So the next step is to build an index. [...] we juggle our data in order to list every document that contains a certain word. For example, the word 'civil' might occur in documents 3, 8, 22, 56, 68, and 92, while the word 'war' might occur in documents 2, 8, 15, 22, 68, and 77. [...]

Suppose someone comes to Google and types in civil war. In order to present and score the results, we need to do two things:

1. Find the set of pages that contain the user's query somewhere
2. Rank the matching pages in order of relevance"
Wenn also jemand einen Suchbegriff wie Online Kommunikation eintippt, müssen folgende zwei Dinge gemacht werden um die Suchresultate aufzulisten:

1. Finden der Gruppe aller Seiten, die den Suchbegriff irgendwo erhalten
2. Ordnen der passenden Seiten in Bezug der Relevanz

Um bei einem speziellen Schlüsselwort gefunden zu werden ist es also wichtig, dass dieses Schlüsselwort auf der Seite erscheint und an den richtigen Stellen vorkommt.

3. Die richtigen Links von anderen Websites sind wichtig

Nachdem aufgrund der Schlüsselwörter entschieden wurde, welche Seiten in den Suchresultaten gezeigt werden sollen, verwendet Google eine Vielzahl von Algorithmen um zu entscheiden, in welcher Reihenfolge diese Seiten aufgelistet werden. Von all diesen Algorithmen ist PageRank vermutlich der bekannteste.

"Now we have the set of pages that contain the user's query somewhere, and it's time to rank them in terms of relevance. Google uses many factors in ranking. Of these, the PageRank algorithm might be the best known.

PageRank evaluates two things: how many links there are to a web page from other pages, and the quality of the linking sites. With PageRank, five or six high-quality links from websites such as www.cnn.com and www.nytimes.com would be valued much more highly than twice as many links from less reputable or established sites."
PageRank wertet also zwei Sachen aus: Wieviele Links zeigen auf eine Seite und wie ist die Qualität dieser Links. Mit PageRank würden fünf oder sechs hochwertige Links von den Websites wie www.cnn.com und www.nytimes.com viel höher bewertet als zweimal so viele Links von weniger angesehenen oder etablierten Websites.

Es ist keine Überraschung: Die Zahl und die Qualität der eingehenden Links beeinflusst das Ranking Ihrer Seite bei Google. Überprüfen Sie deshalb, ob Sie viele eingehende Links von relevanten und angesehenen Websites haben.

4. PageRank ist nicht der einzige wichtige Faktor

Im Gegensatz zur allgemeinen Meinung verwendet Google deutlich mehr Faktoren als nur PageRank.

"But we use many factors besides PageRank. For example, if a document contains the words 'civil' and 'war' right next to each other, it might be more relevant than a document discussing the Revolutionary War that happens to use the word 'civil' somewhere else on the page.

Also, if a page includes the words 'civil war' in its title, that's a hint that it might be more relevant than a document with the title '19th Century American Clothing.' In the same way, if the words 'civil war' appear several times throughout the page, that page is more likely to be about the civil war than if the words only appear once."
Wenn also eine Seite die gesuchten Schlüsselwörter in ihrem Titel beinhaltet ist dies ein Hinweis, dass diese Seite relevanter ist als eine andere mit einem nichts aussagenden Titel. Wenn die Schlüsselwörter mehrmals innerhalb der Seite erscheinen hat diese Seite vermutlich mehr mit dem Suchbegriff zu tun als eine Seite, auf der diese Schlüsselwörter nur einmal erscheinen.

Wie läuft eine Suche bei Google ab?

Nachdem Google die vorherigen Schritte durchlaufen hat, erzeugt es eine Liste der Dokumente (Seiten) mit ihrer Punktzahlen und nimmt die Seiten mit den höchsten Werten als die besten Treffer. Zusätzlich generiert Google snippets - einige Sätze, die von jedem Dokument die Wörter hervorheben, die der Benutzer in die Suchabfrage schrieb. Dann zeigt Google die geordneten URLs und die snippets als Resultatsseiten an.

Wie Sie sehen können, erfordert eine Suchabfrage einiges an Computer-Ressourcen. Für jede Suchabfrage, die jemand eintippt, können über 500 Computern zusammen arbeiten um die besten Dokumente zu finden. Und all das geschieht in weniger als einer halben Sekunde.

Mit diesem Wissen konnen Antworten auf folgende Fragen gegeben werden:

Meine Website wird nicht korrekt im Index aufgeführt.

Die Suchmaschine Google hat weltweit 15'000 Server, die in verschiedenen Rechenzentren stehen. Nicht alle Server verwenden den gleichen Google Index. Darüber hinaus wird ständig an der Aktualisierung gearbeitet, denn Google hat in seinem Index 4 Milliarden Webseiten, die regelmässig gescannt werden.

Wenn Sie also eine Anfrage an Google stellen, verbinden Sie sich mit einem dieser Rechenzentren und bekommen den Index gezeigt, der dort gerade vorhanden ist. Wenn Sie nun eine halbe Stunde später noch einmal etwas suchen so kann es sein, dass Sie mit einem Rechenzentrum verbunden sind, welches noch den alten Index verwendet.

Es kann also sein, dass z. B. im Januar einige Server den Januar-Index verwenden und einige noch den Dezember-Index. Der Dezember-Index ist also der alte, in dem die entsprechende Kundenseite noch nicht enthalten ist. Hier hilft einfach nur warten. Irgendwann ist der Februar-Index veröffentlicht und wenn nun ein Rechenzentrum auf den alten Januar- Index zurückgreift, dann sind Ihre Seiten mit der Januar-Platzierung dort drin vorhanden. Den monatlichen Wechsel des Google Index bezeichnet man als Google Dance.

Die Informationen zu meiner Website sind veraltet.

Wenn Sie Informationen auf Ihrer Website aktualisieren, werden diese nicht automatisch sofort in den Index von Google übernommen. Der Index wird erst aktualisiert, nachdem die Roboterprogramme eine Seite durchsucht und den Index aktualisiert haben. Da dieser Vorgang vollautomatisch ist, ist die Meldung von aktualisierten oder veralteten Links nicht erforderlich. Änderungen am Inhalt Ihrer Website werden im nächsten Durchlauf erfasst. Aufgrund des Umfangs der Sites im Google Index ist es nicht möglich, Seiten einzeln manuell zu aktualisieren.

Die Beschreibung meiner Website in den Suchergebnissen ist falsch.

Google erstellt Auszüge vollautomatisch und berücksichtigt dabei sowohl den Inhalt einer Seite als auch die Verweise darauf, die im Internet angezeigt werden. Die Beschreibungen von Websites werden von Google nicht manuell geändert und Google arbeitet stetig daran, diese Auszüge so relevant wie möglich zu gestalten.

Tags: Google, Google Index, SEO, Search Engine Marketing

Keine Kommentare: