In een uitgelekt document van Google wordt inzage geboden in de wijze waarop Google zoekmachine resultaten verder beoordelen buiten de geautomatiseerde ranking om.
Het gewraakte document is van april 2007 en beschrijft de wijze waarop een zoekresultaat gekeurd wordt. Het document is 43 pagina’s in omvang en bevat onderwerpen als ‘The Role of the Quality Rater’, ‘Rating Examples’, ‘Webspam Guidelines’, en meer. Het document is specifiek bedoeld voor de zogenaamde Quality Rater, een rol die, aldus het document het volgende omvat:
As a Quality Rater, you will evaluate query page Tasks. For each query page Task, you will:
• Research and understand the query.
• Evaluate the page based on its relevance to the query and its utility to the user.
• Assign a rating from the Rating Scale.
Het document classificeert vervolgens de verschillende zoekresultaten volgens:
- navigational: de bezoeker verwacht een specifieke pagina, vaak de officiële webpagina van een bedrijf of een subpagina daarvan;
- informational: de bezoeker verwacht een pagina met informatie over het gezochte onderwerp;
- transactional: de bezoeker zoekt met als doel om iets te verwerven (gratis of niet), bijvoorbeeld het downloaden van software of het kopen van een boek;
De zoekmachine resultaten kunnen ook een combinatie zijn van de bovenstaande. Daarnaast kan een Quality Rater een kwaliteitsscore aan een pagina koppelen. Ook hiervan is een lijst:
- vital: met name als het een zoekresultaat is uit de navigational categorie, met andere woorden, de gevonden site is toonaangevend voor de zoekvraag, overigens is de omvang of belangrijkheid niet de basis waarop deze kwaliteitsscore tot stand komt. Met andere woorden, zowel de website van Microsoft is op de zoekvraag Microsoft een vital zoekresultaat, als ook mijn LinkedIn pagina voor de zoekactie “ric van westhreenen’ is;
- useful: deze kwaliteitsscore wordt op een zoekresultaat geplakt als deze in hoge mate voldoening geeft aan de bezoeker voor de zoekvraag. Andere redenen om deze score toe te kennen zijn, de uitgebreidheid van de informatie op een pagina, autoriteit op het gebied van het specifieke onderwerp;
- relevant: pagina’s die deze kwaliteitsscore krijgen scoren in feite minder dan de pagina’s die de score useful krijgen. Specifiek is het zo dat de pagina iets minder uitgebreid is, of slechts een specifiek onderwerp behandeld die in de zoekvraag tot uiting komt;
- not-relevant: dit geldt voor pagina’s die slechts marginaal verbonden zijn aan het onderwerp, of zo specifiek zijn, of slechts van toepassing in een uitzonderingssituatie of locatie;
- off-topic: in feite alle pagina’s die totaal geen verband hebben met het gezochte onderwerp, dat zijn dus ook pagina’s met daarop een zoekbox welke noodzakelijk is om relevante zoekresultaten te vinden.
Overigens hoeven de zoekwoorden niet persé op de pagina zelf te staan om als relevant of useful geclassificeerd te worden. Hieronder zie je een voorbeeld staan voor de zoekterm Chicago.
Vanaf pagina 32 wordt het zeker zo interessant, omdat vanaf die pagina uitgebreid wordt stilgestaan bij het feit wat Google nu precies ziet als zoekmachine spam. Per spam onderdeel wordt precies uit de doeken gedaan wat er nu wel en niet onder zoekmachine spam valt. Zo zijn sites waar content via scraping wordt verzameld gezien als zoekmachine spam. In het document wordt specifiek aangegeven hoe de Quality Rater ook onderzoek kan doen naar zoekmachine spam, en welke handelingen hij hiervoor moet verrichten. Zo wordt onder meer aangegeven dat de manier om scraped content te achter halen is door een stuk tekst te kopieren en dit als zoekactie in de zoekbalk van de zoekmachine te plaatsen. Als er vervolgens naast de scraped content veel PPC advertenties staan, dan is dat een signaal dat het een zoekmachine spam kandidaat betreft.
Het volledige document is in te zien via deze link