Over zoekmachines
Posted by webmaster on 11 Jul 2007 at 03:07 am | Tagged as: Wat is zoekmachine?
We mogen ervan uitgaan dat iedereen die aan deze post begint, wel eens informatie ‘van het internet’ haalt, al dan niet met behulp van zoekmachine. En hoewel een zeer naïeve gebruiker zou kunnen denken dat al die informatie zich al bevindt in de computer waar die voor zit, nemen we ook aan dat u weet dat het niet zo is: de pagina’s die u te zien krijgt, komen van buiten, ‘van het net’. Maar wat betekent dit nu eigenlijk? Dat is mogelijk minder bekend.
Op dit moment is het voldoende om te weten dat het internet een netwerk is dat alle aangesloten computers met elkaar verbindt. Zodra u zich begeeft op het internet, maakt uw computer daar deel van uit.
De verbindingen tussen de computers worden voor verschillende toepassingen gebruikt. De bekendste zijn e-mail, het world wide web en chatten. Met behulp van e-mail sturen internetgebruikers berichten naar elkaar die later gelezen worden; het world wide web wordt gebruikt om informatie op te zoeken, spelletjes te spelen, inkopen te doen, chaten. Het internet is dus niet hetzelfde als het web: het web is een van de gebruiksmogelijkheden van het internet.
De basis van het gebruik van het web is: pagina’s opvragen en bekijken. Die pagina’s moeten wel eerst gemaakt zijn. Er zijn dus twee duidelijk verschillende rollen op het web: die van maker (producent) en die van gebruiker (consument) van pagina’s.
Makers plaatsen hun pagina’s onder een unieke naam op een computer waar ze opgehaald kunnen worden. Zulke computers worden webservers of kortweg servers genoemd. Als u in uw browser de naam van een dergelijke pagina intypt of op een link naar die pagina klikt, dan wordt via allerlei tussenstappen de server gevonden waar die pagina op staat. Die verstuurt vervolgens via het internet die pagina naar uw computer, of beter gezegd naar uw browser, en die vertoont hem op uw scherm. Om computers te vinden, wordt gebruikgemaakt van numerieke adressen; zowel de servers als uw eigen computer hebben een dergelijk adres (ook als u inbelt; uw computer krijgt dan een tijdelijk adres toegewezen).
De zoekmachine is juist hetzelfde computer die webserver draait. We gaan nu google bekijken als voorbeeld.
We typen in de zojuist opgevraagde pagina van google een zoekvraag in (’Guido van Rossum’), klikken op de knop “Zoeken” en krijgen de pagina met resultaten terug. Deze is niet, zoals de hoofdpagina, al bij voorbaat opgeslagen in één van de webservers van Google. Waar komt die dan wel vandaan? En eerste aanwijzing wordt geleverd door het adresveld, dat laat zien welk verzoek Google heeft ontvangen. Daar staat:
http://www.google.be/search?
hl=nl&q=guide+van+rossum&btnG=Google+zoeken
&meta=
Het eerste stuk http:// verwijst naar protocol dat zijn regels om gegevens te verwerken. De tweede stuk, www.google.com, verwijst naar de webserver van Google; het is dit stuk dat vertaald wordt in het numerieke adres 216.239.39.99. Na de schuine streep staat eerst het woord search. De server weet daardoor dat het om een standaard zoekopdracht gaat. Na het vraagteken komen de details van de zoekopdracht: de vraag is afkomstig van een Nederlandstalige site (hl = nl), de zoekvraag is Guido van Rossum (q=guide+van+rossum ), en de aangeklikte knop is Google search (btnG=Google+Search) Parameter (meta=) is leeg overige informatie zou moeten bevatten.
De computer van Google beantwoordt de zoekvraag niet zelf, maar geeft deze door aan een achterliggend systeem. Dat gaat aan de slag (we gaan straks bekijken hoe) en levert het resultaat aan in de vorm van een nieuwe webpagina, die vervolgens als antwoord over het internet naar uw computer wordt gestuurd.
De hier geschetste gang van zaken is niet uniek voor Google. Als u heelom.com raadpleegt, gaat het in grote lijnen net zo: het verzoek wordt opgevangen door een webserver, die een achterliggend systeem aan het werk zet dat een antwoord produceert in de vorm van een webpagina. Een wat ander soort voorbeeld wordt gegeven door het 24multimedia, dat duizenden objecten uit zijn producten via zijn website toegankelijk heeft gemaakt. Ook deze pagina wordt pas aangemaakt op het moment dat een bezoeker aangeeft de informatie over dit voorwerp te willen raadplegen. Tekst en afbeeldingen komen uit een achterliggend systeem.
In de rest van posts kijken we specifiek naar Google. In hele grote lijnen: Google verzanamelt voortdurend informatie en slaat de resultaten daarvan op in een database. Het meeste werk is dus al gedaan voor u uw zoekvraag stelde. In de volgende post kijken we iets gedetailleerder naar hoe zoekmachine pagina’s verzamelt en de index maakt.
WEBCRAWLERS
We maken daarbij een belangrijk voorbehoud. Google is ontworpen door een groepje onderzoekers van de Universiteit van Stanford.
Een eerste stap om dit doel te bereiken werd gezet door de oprichters van Google, Larry Page en Sergey Brin, die een nieuwe technologie ontwikkelden voor zoeken op het Internet. Het idee voor deze technologie ontstond in een studentenflat op de campus van Stanford University ( http://infolab.stanford.edu/~backrub/google.html ) en de uitwerking ervan vond al snel een weg naar gebruikers over de hele wereld. Google wordt inmiddels erkend als ’s werelds grootste zoekmachine, die een gebruiksvriendelijke service biedt waarmee gebruikers in een fractie van een seconde de gewenste resultaten te zien krijgen. http://www.google.be/intl/nl/corporate/
Het aantal pagina’s in Google’s index is inmiddels gegroeid van 26 miljoen in de oorspronkelijke versie uit 1998, tot over de 4 miljard in 2004 in 2007 wordt het niet meer getoond. En Google’s werkwijze is, sinds het een bedrijf is geworden, niet langer openbaar. ( http://www.stanford.edu/services/websearch/Google/ ) Een deel van de informatie in de volgende post is dus schematisch . We denken overigens dat het wel meevalt, omdat de technische details, die vrijwel zeker veranderd zijn, in deze post toch niet aan bod komen.
Laten we eerst eens kijken hoe Google webpagina’s verzamelt. Het woord web in ‘world wide web’ verwijst niet naar het netwerk van computers die tot het internet behoren, maar naar het netwerk van pagina’s. De meeste webpagina’s bevatten links (koppelingen) naar andere pagina’s. Die op hun beurt weer naar andere pagina’s verwijzen, enzovoort. Alle pagina’s op alle webservers vormen dus een gigantisch web, waarvan de draden gevormd worden door de links tussen de pagina’s.
Webcrawlers (webkruipers, ook wel spiders, robots of spinnen genoemd), volgen die draden om zoveel mogelijk webpagina’s te bezoeken. De naam webcrawier lijkt te verwijzen naar iets dat daadwerkelijk van de ene computer naar de andere over het internet zwerft, zoals de virussen die zich via internet verspreiden. Dat is echter niet zo. Een webcrawier draait op één computer en lijkt op een browser. Anders dan in een browser gebeurt het ophalen van pagina’s echter niet op verzoek van een menselijke gebruiker, maar automatisch. Een webcrawler vindt steeds nieuwe pagina’s door de links te volgen op pagina’s die al gevonden waren. Op den duur komt de crawler daardoor op grote die al gevonden waren. Op den duur komt de crawler daardoor op grote delen van het world wide web.
We noemen enkele voor de hand liggende problemen.
Iedere webstite doorloopt volgende procedures voordat hij in de zoekresultaten van de zoekmachine verschijnt:
-
worden urls van de site verzameld
-
wordt inhoud opgehaald van de urls
-
inhoud wordt gescand om veel voorkomende woorden te accepteren
-
inhoud wordt gecontroleerd om de inhoud die heel sterk lijkt op de reeds gevonden te filteren
-
worden koppelingen geteld die verwijzen naar een bepaalde url
-
wordt beoordeeld welke koppelingen verwijzen naar deze url (waarde van de koppelingen)
Vandaag, wat wij noemen een zoekmachine gewoonlijk een veel complexer zoekportaal. De portalen worden ontworpen zoals uitgangspunten voor gebruikers die informatie moeten vinden. De zoekportaal, biedt op één enkele plaats vele verschillende zoekopties en diensten aan:
AOL’s – het gebruikersinterface geeft gebruikerstoegang tot een grote verscheidenheid van de diensten, met inbegrip van e-mail, online winkelen, chats, en meer. Het zoeken is enkel één van vele beschikbare keuzen.
MSN – heeft kenmerkt van de zoekmachine, maar ook toont nieuws, weer, verbindingen aan dozens plaatsen op het netwerk MSN, en biedt van aangesloten plaatsen als Expedia, ESPN, en anderen aan.
Yahoo! - opvallend zoekmachine, maar ook biedt een serie van andere diensten, nieuws, persoonlijke e-mail, interactieve spelen aan.
Google - het meestgeconcentreerde portaal, nieuws, Usenet, Froogle (winkels), een systeem om afbeeldingen te zoeken, en veel andere opties.
Een typische zoekresultaat pagina heeft twee belangrijke componenten: crawler-gebaseerde lijsten, gesponsorde lijsten. Er zijn uitgebreide zoekresultaten met koppelingen naar webgidsen.

Leave a reply
You must be logged in to post a comment.