zondag, maart 02, 2008

Search engine indexes

We zijn er een weekje tussenuit geweest. Nu ben ik niet iemand die zijn laptop inpakt in de vakantiekoffer maar een stapeltje vakliteratuur mag van mij best mee. Deze keer had ik onder andere Web Dragons van Witten, Gori en Numerico bij me. Edwin heeft er zo enthousiast over geschreven dat ik hier wel de tijd voor moest nemen. Het is inderdaad een fascinerende inkijk in de wereld van de zoekmachines die we goed zouden kunnen gaan gebruiken in de hoofdfase van de IDM-opleiding in Den Haag.
Maar ook voor de eerstejaars en minor studenten deed ik een aardig idee op. In hoofdstuk 4 wordt door middel van een heel simpel voorbeeld inzichtelijk gemaakt hoe de index van een zoekmachine werkt. Voortbouwend op hun voorbeeld van de frase "to be or not to be that is the question" heb ik onderstaand voorbeeld uitgewerkt van een corpus "English literature". Die bestaat in dit geval behalve uit het beroemde Shakespeare-citaat uit een quote van Bob Dylans Like a Rolling Stone en een frase uit het werk van Wordsworth.



Op basis van deze drie citaten kun je de volgende index samenstellen waarbij de letter D, W of S steeds staat voor de betrefende auteur:























Het is aan de hand van de index niet moeilijk te zien dat bij het zoeken naar de frase "to be" het citaat van Wordsworth als eerste afvalt en dat zowel het citaat van Shakespeare als dat van Dylan
- ieder beide zoektermen bevatten
- én de zoektermen in de juiste volgorde geven.
Dat laatste is eenvoudig af te leiden uit de positie van de termen zoals die in de index wordt gegeven.

Hoe simpel het voorbeeld ook is, het maakt denk ik voor de meeste van onze studenten duidelijk wat er achter de search box van Google gebeurt.
Technorati tag: