| Eigenaardigheden | Home | Onderwerpen | Samenleven | Zoek | Over ons | Contact |
|---|
| De kunst van het zoeken |
|---|
| Sommige zoekmachines offerden redactionele integriteit op voor hogere winsten, en begonnen advertenties prominent in de resultaten te plaatsen, zonder duidelijke aankondiging van deze praktijk. Adverteerders betalen zoekbedrijven om hun producten en diensten 'hoog' in of naast de zoekresultaten te zien verschijnen. De lijsten lijken dus op informatie die uit een objectieve databank zijn geselecteerd door een objectief algoritme. Maar in werkelijkheid zijn het betaalde advertenties in vermomming [Commercial Alert]. |
Internetgebruikers maken bijna allemaal regelmatig gebruik van zoekmachines en de daarom behoren zij tot de allerbest bezochte sites. Zoekmachines worden meestal gebruikt in de verwachting dat je slechts de juiste woorden in een zoekmachine moet invoeren om precies de informatie te krijgen die je nodig hebt. Dat is helaas lang niet altijd en zelfs steeds minder het geval. Dat heeft verschillende oorzaken. De kunst van het zoeken wordt op de proef gesteld door een viertal factoren:
Hoe groot is het web? |
|---|
Oppervlakte en diepteweb Internet is aanzienlijk diverser en is zeker veel groter dan meestal wordt verondersteld. Ten eerste is het World Wide Web dat opereert middels het HTTP-protocol slechts een onderdeel van het internet. Daarnaast bestaan er diverse andere internet-protocollen zoals FTP (file transfer protocol), email, news, en telnet. Ten tweede wordt het WWW vaak ten onrechte gereduceerd tot het oppervlakteweb en wordt het diepteweb vergeten.
Het oppervlakteweb bestaat uit statische, publiek toegankelijke webpaginas. Het diepteweb bestaat uit gespecialiseerde databases en dynamische websites. De informatie in het diepteweb is 400 à 500 maal groter dan die van het oppervlakteweb. Het diepteweb bevat 91.850 terabytes informatie, terwijl het oppervlakteweb slechts 167 terabytes informatie bevat. Het diepteweb bevat bijna 550 miljard afzonderlijke documenten, terwijl het oppervlakteweb zon 2,5 miljard documenten omvat [How Much Information? 2000/2003; CompletePlanet].
Het diepteweb verschilt kwalitatief van oppervlakteweb. Bronnen van het diepteweb worden opgeslagen in zoekbare databanken die alleen dynamisch resultaten produceren in reactie op een direct verzoek. Zonder zo'n zoekopdracht publiceren databanken geen resultaten. Er zijn zon 200.000 diepte websites. Zij vormen de snelst groeiende categorie nieuwe informatie op het internet. Zij krijgen per maand 50% meer verkeer dan sites van het oppervlakteweb. Zo’n 95% van diepteweb biedt voor publiek toegankelijke informatie (zonder kosten of abonnement). Meer dan de helft van het diepteweb bestaat uit onderwerpspecifieke databanken, die juist ook voor wetenschappers van groot belang zijn.
| Oppervlakteweb | Diepteweb | Toelichting | |
|---|---|---|---|
|
Documenten (in miljarden) |
2,5 | 550 | Het overgrote deel van de informatie ligt opgeslagen in het diepteweb 95% daarvan is publiek toegankelijk. |
|
Groeitempo (miljoen pagina's per dag) |
7,3 | Elke dag wordt 0,1 terabyte nieuwe informatie op het web gezet (inclusief html-codering) | |
|
Gem. omvang Document (in kilobytes per pagina) |
10-20 | 14 | |
|
Totale informatie (in terabytes) |
25-50 | 7.500 | Totale informatie in tekst, html codes en plaatjes |
|
Tekstuele informatie (in terabytes) |
10-20 | 4.200 | Van alle informatie in oppervlakteweb is 56% actuele inhoud (exclusief html). |
In de eerste jaren van het Web waren er relatief weinig documenten en sites. De meeste mensen publiceerden hun documenten als statische webpagina's. Omdat deze pagina's duurzaam en constant beschikbaar zijn, konden zij relatief makkelijk worden opgespoord en geïndexeerd door conventionele zoekmachines. Tegenwoordig wordt veel informatie op een andere manier beschikbaar gesteld. Vooral grotere sites zijn ertoe overgegaan om hun informatie te beheren vanuit een databank, waarvan de inhoud voor conventionele zoekmachines onzichtbaar is. Het diepteweb is dus in zekere zin daadwerkelijk nog steeds een 'onzichtbaar web' [Jill Ellsworth, 1994]. Databanken zijn echter alleen onzichtbaar omdat zij door conventionele zoekmachines niet geïndexeerd en ontsloten kunnen worden. Zoeken op het internet is daarom vaak vergeleken met het slepen van een net over de oppervlakte van de informatie-oceaan.
Om een indruk te geven hoeveel 'veel informatie' is, volgt hieronder een kleine statistische vingeroefening.
| Eenheid | Definitie | Toelichting |
|---|---|---|
| Byte | 8 bits | 1 byte = 1 letter; 10 bytes = een woord |
| Kilobyte | 103 bytes | 1 KB = erg kort verhaal; 2 KB = een getypte pagina |
| Megabyte | 106 bytes | 1 MB = kleine roman of 3.5 inch floppy drive; 5 MB= volledige werken van Shakespeare |
|
Gigabyte |
109 bytes | 1 GB = bestelbus met papier; 2 GB = 20 meter boeken |
| Terabyte | 1012 bytes |
2 TB = academische onderzoeksbibliotheek; 10 TB = Amerikaanse Library of Congress |
| Petabyte | 1015 bytes |
2 PB = alle academische onderzoeksbibliotheken in de USA; 8 PB = alle informatie op het web |
| Exabyte | 1018 bytes | 5 EB = alle woorden die alle mensen op aarde ooit gesproken hebben |
| Zettabyte | 1021 bytes | |
| Iotabyte | 1024 bytes | |
| De hier gegeven waarden zijn afgeronde getallen. In werkelijkheid bevat één KB exact 1.024 bytes. Dat is een afwijking van 2,4 procent van de afronding. Bij doorrekenen wordt de fout nog groter: een megabyte is niet 1000 kilobyte maar 1024 kilobyte, dus 1.048.576 byte, een afwijking van bijna 5 procent. Het probleem is ontstaan omdat elektronische informatie is geschreven in de binaire code waarin alleen enen en nullen voorkomen, terwijl het metrische systeem gebaseerd is op tien cijfers. Een kilobyte is dus niet 1000 byte, maar 2x2x2x2x2x2x2x2x2x2 ofwel 210 byte. Om de grote binaire getallen toch gemakkelijk aan te duiden, hebben programmeurs gekozen voor het dichtsbijzijnde metrische voorvoegsel. | ||
Typen zoekinstrumenten |
|---|
Op het web zijn in principe twee typen zoekinstrumenten beschikbaar: onderwerpgidsen en zoekmachines. Elk van deze instrumenten heeft zijn waarde, maar zij moeten niet met elkaar worden verward en afhankelijk van het specifieke doel afwisselend worden gebruikt.
Gidsen: bladeren op onderwerp
Een gids is een gestructureerde hiërarchie van categorieën waarin gebladerd kan worden voor informatie naar onderwerp. Gidsen zijn hiërarchische menu's met brede categorieën aan de top en knoppen die de gebruiker dieper in de informatiestructuur brengen tot de specifieke informatie-link bereikt is. De meest bekende van de gidsen is Yahoo!
Op de openingspagina van een gids worden brede categorieën van informatie gepresenteerd waardoor de gebruiker zich heenklikt om precies de gewenste informatie te vinden. Een onderwerpgids bevat een groot aantal verwijzingen naar internetbronnen via telkens gedifferentieerder categoriën. Die categorieën zijn ingedeeld door mensen die zowel bekend zijn met het onderwerp als met de manier waarop mensen daarbinnen naar informatie zoeken. Een onderwerpgids is dus een meer of minder intelligent ontworpen bibliotheek van verbindingen die samengesteld is door mensen die op dit onderwerp deskundig zijn.
De meeste ondewerpgidsen zijn hiërarchisch opgebouwd zodat het makkelijker is om van het algemene naar het specifieke onderwerp van belangstelling te navigeren. Via een fijn vertakte onderverdeling kunnen gebruikers van hoofdcategorie naar subcategorie afdalen, en uiteraard ook weer terug. In goed geconstrueerde gidsen worden bovendien dwarsverbindingen gelegd tussen verwante thema's onder verschillende (sub)categorieën.
Op het internet staat vele gidsen in allerlei soorten en maten. Sommige gidsen presenteren hun bronverwijzingen kaal (alleen met naam en internetadres) of met een korte beschrijving, andere bieden een toegevoegde waarde door elke verwijzing van commentaar te voorzien en te waarderen ('rating'). Sommige gidsen zijn erg omvangrijk en hanteren minimale opnamecriteria. Kleinere, meestal meer gespecialiseerde gidsen gaan vaak selectiever te werk en stellen hoge kwaliteitseisen stellen aan de sites die zij in hun gids opnemen. Uiteraard loopt ook de reikwijdte van de onderwerpen die in een gids worden opgenomen sterk uiteen. Sommige gidsen (zoals Yahoo!, About en de Nederlandse Startpagina) proberen de hele internetwereld in kaart te brengen. Naast deze algemene virtuele bibliotheken zijn er ongemeen veel gidsen die zich concentreren op meer specifieke onderwerpen of disciplines. Daarnaast zijn er diverse geografische gidsen waarin gezocht kan worden naar informatie over bepaalde werelddelen, landen, regio's, steden of buurten.
Om een goede gids te ontwerpen en onderhouden is vaak een groot aantal competente websurfers en -zoekers nodig dat dagelijks websites inventariseert en categoriseert. De kracht van onderwerpgidsen is dat een meer of minder deskundige persoon de sites heeft bekeken en deze vervolgens zodanig categoriseert dat de gebruiker er iets aan heeft.
De beperking van deze benadering is dat er miljoenen sites op het web bestaan en dat zelfs een groot leger websurfers niet in staat is om het aantal websites bij te houden. Bovendien is de kwaliteit van de gids afhankelijk van de deskundigheid van de mensen die de selectie en indeling verzorgen. De nauwkeurigheid van zoekacties in gidsen is afhankelijk van wat anderen voor jou hebben gedacht en gecategoriseerd. Er zijn immers geen algemeen geaccepteerde standaarden voor het categoriseren. Gidsen zijn dus in zekere zin altijd ad hoc indelingen die gekleurd zijn door de opvattingen en doeleinden van de gidsmakers.
ZoekMachines: zoeken op trefwoord
Een zoekmachine is een index van gevonden woorden die automatisch wordt samengesteld door slimme computerprogramma's zoals robots of spiders die systematisch het web afstruinen om informatiebronnen te vinden en te indexeren. Wanneer er een site gevonden wordt, leest de zoekrobot de woorden op de webpagina's en voegt ze toe aan haar databank zodat ze later gevonden kunnen worden wanneer gebruikers de juiste zoektermen invoeren. De zoekmachine controleert of die zoektermen in haar databank voorkomen en geeft de gebruiker de URL's waarin die woorden voorkomen. (Sommige zoekmachines werken meestal aanvullend met een trefwoordenregister, dat zijn termen die bewust later zijn toegevoegd. Daarbij worden gevonden woorden gerelateerd aan de trefwoorden in het register).
Niet alle zoekmachines werden gelijk geschapen. Zoekmachines variëren niet alleen in omvang van de index en de frequentie waarmee die index wordt geactualiseerd. Zij verschillen ook in zoekopties, de snelheid waarmee resultaten worden gegenereerd, de presentatie van de resultaten, de relevantie van de documenten die in de resultaten zijn opgenomen en het algemene gebruiksgemak. Sommige algemene zoekmachines zoeken in alle onderdelen van het internet, terwijl anderen zich specialiseren op het WWW of op Nieuwsgroepen van Usenet. Bovendien zijn er speciale zoekmachines die zich concentreren op bepaalde onderwerpen of geografische eenheden (landen of steden).
Om de kracht van meerdere zoekmachines te combineren zijn er diverse metazoekmachines ontworpen. Een metazoekmachine stelt gebruikers in staat om met één zoekopdracht in meerdere zoekmachines tegelijk te zoeken. De zoekopdracht wordt automatisch en parallel uitgevoerd in diverse grote zoekmachines. Vaak worden daarbij de dubbel gevonden documenten geëlimineerd en worden ze in bepaalde rubrieken gegroepeerd. Naast deze 'uniforme' metazoekmachines zijn er ook nog 'multiforme' metazoekmachines. In multiforme metazoekmachines wordt de zoekopdracht niet parallel (gelijktijdig) maar serieel (een voor een) uitgevoerd in de aangesproken zoekmachines.
Zoals we gezien hebben is het probleem met zoekmachines dat zij slechts een klein gedeelte van het oppervlakteweb in kaart brengen. Bovendien krijgen gebruikers van zoekmachines vaak duizenden 'hits' op hun scherm waarin zich - hopelijk - ergens de gewenste informatie bevindt.
Portalen: bladeren en zoeken
In de loop der jaren is het strakke onderscheid tussen zoekmachines en gidsen gaan vervagen. De grote gidsen hebben zoekmachines aan hun dienstverlening toegevoegd en makers van zoekmachines zijn op basis van hun databestanden gidsen gaan samenstellen. Zo onstonden er geïntegreerde zoekdiensten waar gebruikers zowel op trefwoord kunnen zoeken als op onderwerp kunnen bladeren. Veel van deze geïntegreerde zoekdiensten hebben hun sites uitgebouwd tot commerciële 'webportals' waarin uiteenlopende andere diensten worden aangeboden zoals gratis e-mail, telewinkels, nieuws, beursberichten en online veilingen.
Steeds meer gebruikers van portalen, die in Nederland ook wel startpagina's worden genoemd, maken zich zorgen over de vergaande commercialisering van de zoekdiensten. Zij zijn vooral bevreesd dat de redactionele integriteit van de zoekdiensten wordt opgeofferd aan winstbejag. Door een vergaande penetratie van commerciële belangen in de zoeksystemen wordt het onderscheid van redactionele inhoud en commerciële advertenties zodanig vervaagd dat de gepresenteerde resultaten misleidend en dus onbetrouwbaar worden. Dat is slechts een nieuw voorbeeld van de manier waarop reclame doordringt in elke porie en uithoek van ons dagelijks leven.
| ZoekMachines | OnderwerpGidsen | |
|---|---|---|
| Principe | Zoeken op trefwoorden | Bladeren op onderwerp |
| Voorbeelden | Google, AltaVista | Yahoo! SocioSite |
| Samenstelling | Automatisch indexering via robots, crawlers, worms, wanderers, spiders. | Menselijke indeling van webdocumenten in hiërarchische ontologie van onderwerpen. |
| Typen |
Algemene zoekmachines Uniforme & Multiforme meta ZM's Geografische ZM's; Speciale ZM's |
Virtuele bibliotheken Onderwerpgidsen Geografische gidsen |
| Portalen | ||
|
||
Dekkingspercentages |
|---|
Geen enkele zoekmachine indexeert individueel meer dan 16% van het totale indexeerbare oppervlakteweb (in 1998 was dit nog 32%). Door het combineren van de resultaten van meerdere zoekmachines neemt de dekking toe tot 42%. Maar zoekmachines gaan grotendeels voorbij aan het diepteweb! Internetzoekers hebben dus in feite toegang tot slechts 0,03% van de beschikbare inhoud: dat is één op de 3.000.
Internet is zo omvangrijk en complex dat zoekmachines slechts gedeeltelijk tegemoet komen aan de wanhopige behoefte om zo snel mogelijk relevante informatie te vinden. Producenten van zoeksystemen concentreren zich op het half-volle glas. Gebruikers van zoeksystemen moeten het doen met het half-lege glas en voelen zich overladen met een overdosis aan niet-relevante informatie. Zelfs de meest intensieve gebruikers van zoekmachines hebben tegenstrijdige gevoelens: hoeveel nut zij ook vinden in het gebruik van die zoeksystemen, zij missen de intelligentie die nodig is om de overdadige ruis te reduceren, en om slim gebruik te maken van de voorkeuren en interessevelden van de gebruiker.
Bijna alle internetter maken gebruikt van zoekmachines of gidsen om informatie te vinden. De meest gehoorde klacht is men niet de gewenste informatie vindt. Er zijn diverse studies gedaan naar de mate van tevredenheid met zoekmachines. Daaruit blijkt onder andere dat de "search failure rates" sinds 1997 alleen maar is toegenomen [Tenth edition of GVU’s WWW User Survey, May 14, 1999].
Een omvattende ontsluiting van internet-informatie vereist dat gebruikers simultaan kunnen zoeken in meerdere oppervlakte- en dieptewebbronnen. Meer informatie over de toegang tot het diepteweb is te vinden op CompletePlanet
Moeizaam zoeken met betekenisloze trefwoorden |
|---|
HTML is waarschijnlijk de meest succesvolle elektronische publiceertaal die ooit werd uitgevonden. Toch is het een nogal oppervlakkige taal. HTML beschrijft slechts hoe een webbrowser de tekst, plaatjes en knoppen op een pagina moet ordenen. Met HTML kan men dus wel documenten aan elkaar koppelen, maar kan men geen betekenisvolle informatie aan elkaar verbinden. Omdat we op internet te maken hebben met zeer grote hoeveelheden on- en semi-gestructureerde informatie levert dit grote problemen op voor het zoeken.
Zoekmachines die alleen op trefwoord zoeken bieden tegelijkertijd teveel en te weinig informatie. Zij ontsluiten te veel irrelevante informatie over woorden die in een andere betekenis of context worden gebruikt. En zij missen informatie waar andere woorden voor dezelfde of vergelijkbare inhoud worden gebruikt. Iedereen die wel eens een zoekmachine zoals Google heeft gebruikt, weet dat het invoeren van een paar zoektermen en het ontvangen van duizenden 'hits' niet altijd even nuttig is. Er is daarna nog veel behendigde en handmatige 'uitwieding' van informatie nodig. Er is behoefte aan zoekmachines die door gebruik van ontologieën pagina's kunnen vinden die syntactisch verschillende, maar semantisch gelijksoortige woorden weten te vinden (Semantisch Web).
Er zijn twee strategieën mogelijk om de problemen van het online zoeken op te lossen. In een declaratieve strategie worden informatiebronnen verrijkt met annotaties (speciale tags) die hun betekenis zodanig definieert dat deze door machines en door intelligente software verwerkt kunnen worden. In een procedurele strategie worden er programma's (filters, wrappers, extractieprogramma's) geschreven die de betekenis van online informatie kan ontfutselen. De procedurele en declaratieve benadering staan niet tegenover elkaar, maar vullen elkaar aan. De procedurele benadering kan worden gebruikt om automatisch annotaties voor webbronnen te genereren; XML-annotaties maken procedurele toegang tot informatie veel makkelijker. Strikt genomen is de procdurele weg alleen begaanbaar als er een onderliggende declaratieve structuur bestaat.
Belangrijke wetenschappelijke bronnen zijn soms moeilijk te vinden. Soms worden ze door zoekmachines gemist, of men moet tientallen pagina's met hits doorworstelen in de hoop dat daartussen nog een relevante bron te vinden is. De beperkingen van de huidige generatie zoekmachines heeft voor wetenschappers veel grotere gevolgen dan voor reguliere gebruikers. De meeste zoekmachines werken met 'crawler' of 'spider' programma's die webpagina's indexeren, vervolgens naar andere pagina's springen waarnaar verwezen wordt, deze indexeren, enzovoort. Door de enorme groei van het web lijken deze zoekmachines op hun grenzen te stuiten. Zelfs de meest uitgebreide zoekmachines dekken nauwelijks de helft van het totale aantal webpagina's. Slechts de helft van de statische pagina's van het oppervlakte web wordt gedekt, en niet de informatie die in het diepteweb van de dynamische (databankgestuurde) pagina's ligt opgeslagen (zie hiervoor de Open Archives). Traditionele zoekmachines kunnen de inhoud van het diepteweb niet identificeren of ontsluiten.
Nieuwe zoektechnologieën moeten de preciesie van zoektochten op het web aanzienlijk verbeteren. Sinds de introductie van XML is bijvoorbeeld mogelijk om een zoekopdracht te beperken tot wetenschappelijke documenten, of tot documenten die tot een zeer gespecialiseerd wetenschapsgebied behoren. De verwachting is dat binnen een aantal jaren voor de meeste onderzoekers het zoeken met trefwoorden op het gehele web tot het verleden zal behoren. Persoonlijke zoektochten zullen steeds meer vanuit gespecialiseerde wetenschappelijke zoekportalen vertrekken, rekening houden met de interessegebieden en voorkeuren van de gebruikerd, en met die van hun collega's of vakgenoten.
Een aantal zoekmachines hebbeb hun bakens al verzet. De belangrijkste innovatie in de zoektechnologie is geïnspireerd door de citatie-analyses die op de wetenschappelijke literatuur wordt toegepast. Conventionele zoekmachines gebruiken algoritmes en eenvoudige vuistregels om de pagina's te rangordenen op grond van de frequentie van de zoektermen (of trefwoorden) die in een zoekopdracht worden gespecificeerd. Een nieuw soort zoekmachines maakt gebruik van de wirwar van links tussen webpagina's. Pagina's waarnaar vanuit veel andere sites verwezen wordt, worden beschouwd als 'autoriteiten', en worden in de zoekresultaten het hoogste geplaatst. In minder dan een jaar is Google - opgezet door twee Amerikaanse studenten Sergey Brin en Lawrence Page - hierdoor de meest populaire zoekmachine geworden omdat zij voor de meeste zoekopdrachten meer precieze resultaten oplevert dan de conventionele machines. Bij deze ordening wordt niet alleen gekeken naar het aantal links, maar ook waar zij vandaan komen. Een link vanuit een hoog aangeschreven wetenschappelijk tijdschrift telt zwaarder dan een link vanuit een willekeurige homepage ('Niet alle links zijn gelijk').
Er worden nieuwe algoritmes ontwikkeld die documenten niet alleen analyseren op trefwoorden, maar op begrippen. Daarbij wordt meestal gebruik gemaakt van uitgebreide thesauri, die duizenden begrippen kunnen herkennen. De zoekmachine kijkt dan naar gedefinieerde patronen van termen en analyseert hun contekstuele relatie. Gebruikers kunnen een wetenschappelijk document in de zoekmachine stoppen. Dit document wordt dan automatisch geanalyseerd waarbij de belangrijkste begrippen worden geïdentificeerd en een profiel gemaakt wordt dat gebruikt wordt om naar gelijksoortige teksten te zoeken. Gebruikers kunnen hun zoekopdrachten verfijnen door het aanpassen van het gewicht dat aan elk afzonderlijk begrip wordt toegekend. Een voorbeeld deze nieuwe zoektechnologie is het Nederlandse project van Collexis.
De plaats van zoekmachines zal steeds meer worden overgenomen door 'intelligente' programma's die zoeken met gebruikmaking van hun ervaring met de behoeften en belangen van hun gebruikers. Zij leren van eerdere zoeksessies. Naarmate de zoektechnologieën verbeteren zullen ook uitgevers van tijdschriften en beheerders van elektronische archieven ervoor kunnen zorgen dat het gemakkelijker wordt om naar wetenschappelijke documenten op het web te zoeken. In tijdschriften worden de referenties in de gepubliceerde artikelen steeds meer gelinkt naar de brondocumenten.
Commercialisering van zoekportalen |
|---|
Doel en strategie
Het doel van portalen is het verhogen van de hoeveelheid 'ogen' die naar de startpagina's staren door het effectiever aantrekken en concentreren van internetverkeer. Dat gebeurt, zoals we gezien hebben niet alleen door de zoek- en verwijzingsdiensten alleen, maar ook en vooral door het aanbieden van aanvullende diensten, zoals gratis emailadressen of ruimte voor homepages, voorzieningen voor chatten en discussiegroepen, enzovoort. Portalen en startpagina's proberen klanten aan te trekken, ze zo lang mogelijk vast te houden, en hierdoor zoveel mogelijk bloot te stellen aan betaalde reclame. Daarnaast proberen zij gebruikers te verhuizen naar in toenemende mate anonieme content providers.
Het internetverkeer via zoekdiensten en startpagina's wordt steeds sterker geconglomereerd. De eigenaars van commerciële zoekdiensten volgen hiervoor in principe twee strategieën. Ten eerste kunnen zij hun marktpositie versterken door zelf nieuwe diensten te ontwikkelen en aan te bieden, of partners te zoeken die dergelijke diensten ontwikkeld hebben. Ten tweede kunnen zij de strategie volgen van het "opkopen van ogen", door het verwerven van meerderheidsaandelen in concurrerende zoekdiensten. Voor sommige ondernemingen is het inmiddels een miljardenspel om in nieuwe diensten te investeren en bestaande diensten op te kopen. Hierdoor is een enorme markkapitalisatie in portaal-aandelen onstaan.
Portalen of startpagina's beginnen meestal met verschillende modellen. Maar in de loop der tijd nemen zij de meest succesvolle en populaire functionaliteiten van elkaar over: databanken, klantendiensten, zoekfaciliteiten, discussiemogelijkheden etc. Hierdoor gaan alle portals steeds meer op elkaar lijken. Het is een demonstratie van de "Law of Merging Models" [O'Leary 1998].
De essentie van een portaal of startpagina is niet de produktie van informatie, maar hoofdzakelijk haar distributie. "Distributie is een grote kracht in de media-gerelateerde industrie. Soms is het moeilijk te zeggen wat meer waard is, de inhoud of de pijpen waarin deze stroomt" [Gurley 1998]. Portalen aggregeren de inhoud van andere bronnen en verspreiden deze in een meer direct beschikbaar en overzichtelijk formaat. Door deze aggregatie voegen zij waarde toe aan hun eigen sites: "Het bestaan van portalen schept een waarde die meer is dan de soms van haar delen" [Miller 2000:118]. De toegevoegde waarde die door portals wordt gecreëerd is het resultaat van merkvorming ("branding"). De transformatie van zoekmachines in portalen heeft een nieuw tijdperk ingeluid het tijdperk van de "internet branding".
Vroeger was een van de belangrijkste taken van het Commissariaat voor de Media om toezicht te houden op de scheiding tussen redactionele informatie en commercie, zoals deze is vastgelegd in de wet. De voorzitter van het CvdM, L. van der Meulen, vindt echter dat het internet zichzelf maar moet reguleren. Voor het CvdM hoeft het internet niet wettelijk geregeld te worden. De populairste internetpagina van Nederland is de Startpagina. Deze commerciële site haalt zijn inkomsten uit het compleet wegwerken van de scheiding tussen informatie en reclame. Een deel van de links in deze site wordt alleen maar aangeprezen omdat ervoor betaald wordt. 'Buying prominence', noemen de Amerikanen dat, en het principe daarvan is afgekeken van Go.com, Yahoo!, Altavista, DubbleClick en anderen. Aan de bezoeker wordt op geen enkele manier duidelijk gemaakt dat sommige sites alleen maar prominent worden gepresenteerd omdat men daarvoor betaald wordt (en niet omdat het een goede, betrouwbare of nuttige site is waarnaar de gebruiker op zoek is). Het is triest maar waar: deze pagina's werden aanvankelijk onder gebruikers populair omdat zij 'reclame-vrij' zouden zijn. Het CvdM is van mening dat internetbedrijven zelf maar moeten zorgen voor een redactiestatuut. Maar de eigenaars van gecommercialiseerde startpagina's of portalen staan echt niet te trappelen om de inkomstenbron van sluikreclame te elimineren door middel van zelfregulering.
Internet begon als gedecentraliseerd netwerk dat bestaande hiërarchieën doorbrak. Als we kijken naar de geschiedenis van het internet en met name naar het investeringspatroon in digitale portalen en startpagina's, dan moeten we constateren dat het WWW niet alleen centraliseert, maar ook steeds meer oligopolistische structuren aanneemt die in sterke mate worden beïnvloed door multimediale 'oude media' concerns, alsmede door toekomstige 'nieuwe media' giganten. De strijd om de webportalen concentreert zich steeds meer op de grote drie: AOL Time Warner, MSN en Yahoo! De drie giganten samen trekken nu al meer dan de helft van al het online verkeer.
|
|
De vraag is waarom deze internetbedrijven zoveel waard zijn. De meeste zoekdiensten beschikken immers over relatief weinig tastbare bronnen ('tangible assets') en hebben meestal negatieve inkomsten. De eerste verklaring hiervoor is dat portaal-ondernemingen worden gewaardeerd op basis van geloof. Dat is het geloof dat internet 'de toekomst' heeft en dat met name portalen of startpagina's in staat zullen zijn om op den duur het aantal starende ogen te monetariseren, dat wil zeggen om te zetten in keiharde gigawinsten. De lang verwachte 'shake out' van commerciële zoekdiensten heeft weliswaar veel optimistische korte-termijn verwachtingen de grond in geboord, maar veel financiers koesteren toch de hoop op een uiterst rendabele internet-toekomst. De tweede verklaring is minder esoterisch en meer traditioneel calculerend. Veel investeerders verwachten dat de meerderheid van deze portaalbedrijven zullen worden uitgekocht door grote concerns van de 'oude media' die steeds meer op het internet beginnen te gokken (Disney, NBC, CBS, AT&T, Time Warner, Bertellsman enzovoort). De transferwaarde op de portalenmarkt is zo extreem hoog geworden dat veel grote ondernemingen te duur zijn geworden voor de traditionele media giganten.
Vincent Miller [2000:120] heeft terecht de aandacht gevestigd op de vertekening van de markt. De investeerders geven de voorkeur aan oligopolies, omdat dit een teken van stabiliteit duurzame hoge rendementen is. Het gevolg hiervan is echter dat een potentieel gedecentraliseerde vorm van communicatie sterk gecentraliseerd zal worden. Door de commerciële portalen is het idee van een internet als een democratische, gedecentraliseerd medium verdrongen en is een vergaande commercialisering in beweging gezet door een klein aantal oude en nieuwe media concerns.
Commercialisering
De commerciële strategieën van zoekdiensten en startpagina's zijn in het ideële geval een samenstel van de volgende elementen.
|
|
|
Advertentie inkomsten
Portalen en startpagina's verwerven hun inkomsten door adverteerders die zich willen inkopen in de zoekdiensten. Dit gebeurt op de volgende manieren:
Zoekmachines brengen soms geld in rekening om een verzoek voor opname door te geven. Programma's voor betaalde aanmelding zorgen ervoor dat er een recensie van de site wordt opgenomen in de hoofdgids en dat ook de meest recente pagina's van de site sneller worden gepresenteerd dan normaal. Tegen betaling zorgen de zoekdiensten ervoor dat de site zeer regelmatig gecontroleerd wordt zodat de zoekresultaten voor die site actueel blijven. Overigens garandeert dit op zich nog niet dat deze betaalde sites ook hoger in de resultaatpagina's van zoekopdrachten zullen verschijnen. Alle commerciële bedrijven die opgenomen willen worden in een van de secties van de webgids Yahoo! moeten hiervoor gebruik maken van de betaalde dienst "Yahoo! Express" ($199 voor gewone commerciële sites en $600 voor pornografische sites). In de secties "Shopping and Services" en "Business to Business" worden überhaupt geen vrije aanmeldingen meer geaccepteerd. LookSmart vereiste als eerste dat álle commerciële sites een aanmeldingspremie betaalden. Het is geen 'pay-for-placement' (zoals bij GoTo.com) en ook geen 'pay-for-inclusion', maar veeleer een 'pay for consideration'. De premie die commerciële bedrijven betalen garandeert dat snel in overweging wordt genomen hun sites in de index te plaatsen, maar zij worden alleen opgenomen wanneer zij voldoen aan redactionele criteria. Deze criteria worden echter zo ruim gehanteerd dat bijna niemand het risico loopt te worden afgewezen en geen waar voor zijn geld krijgt.
De 'marketing' van zoekmachines heeft in de ogen van sommige financiële specialisten eindelijk respect verworven. Sterker nog, het is een 'booming business' geworden. Dat komt omdat zoekmachines en portalen ertoe over zijn gegaan om adverteerders diverse mogelijkheden te bieden om zich in te kopen op de pagina's met zoekresultaten: 'pay for submission', 'pay for display', 'pay for clickthrough' etcetera [SearchEngineWatch: Buying Your Way In]. De meeste eigenaars van zoekmachines weigeren om duidelijk aan te geven welk deel van de zoekresultaten gesponsord zijn, uit angst dat gebruikers deze sites gaan vermijden.
Zoekdiensten als publieke goederen
Het commerciële ontwikkelingstraject van zoekmachines ondergraaft de democratische normatieve visie op het internet in de samenleving. "Search engines are a special political good" [Introna/Nissenbaum 2000:39]. In deze visie is het Web geen gewone dienst waarvoor men een prijs mag vragen, maar een 'publieke dienst' waartoe alle burgers gelijke toegangsrechten hebben.
De kernvraag is en blijft: in welke maatschappij wij morgen willen leven en werken? Het grote gevaar van een 'universalisering van het kapitalisme' is een vergaande penetratie van de commercie in elk aspect van ons dagelijks leven [Meiksins Wood], ofwel een 'kolonisering van de leefwereld' [Jürgen Habermas]. Men mag slechts hopen dat zo'n totalisering van het informationele kapitalisme leidt tot toenemende kwetsbaarheid door interne tegenspraken en oppositionele politiek.
|
|
Voor gebruikers van zoekdiensten is het steeds moeilijker geworden om uit te maken welke resultaten worden gepresenteerd omdat iemand daarvoor heeft betaald en welke resultaten relevant zijn voor de zoekopdracht. Zolang dat het geval is zullen gebruikers van zoekdiensten op hun hoede moeten blijven. Gelukkig hebben zij daarbij altijd nog de mogelijkheid om hun zoekactiviteiten te verleggen naar niet-commerciële zoekdiensten en gidsen, of naar commerciële zoekdiensten die hun redactionele integriteit niet verkwanselen door een onontwarbare vermenging van relevante resultaten met betaalde advertenties.
Big Brother Might be Watching You |
|---|
De zoekportalen verzamelen zoveel mogelijk gegevens over hun gebruikers. Zij proberen een zo volledig mogelijk beeld te krijgen van het profiel van feitelijke en potentiële klanten. Een van de middelen die zij hiervoor inzetten zijn cookies. Via kleine informatiebestanden die ongevraagd op de computer van gebruikers worden geplaatst, wordt informatie vastgelegd over de internetactiviteiten van die gebruikers. De gecommercialiseerde zoekdiensten gebruiken de verzamelde informatie om te beoordelen in welke reclames een consument geïnteresseerd kan zijn of waarvoor deze gevoelig is. Met deze informatie verwerven zoekdiensten een sterkere positie om zichzelf in de markt te zetten bij potentiële adverteerders.
| Cookie Monster? |
|---|
|
Een cookie is een uniek identificatienummer dat door een webserver op de computer van de gebruiker wordt geplaatst. Het is een persoonlijk serienummer dat gebruikt kan worden om de gegevens van een gebruiker uit hun databank te lichten.
Cookies kunnen veel nuttige functies verrichten en legitieme doelen dienen. Op commerciële sites waar goederen of diensten besteld kunnen worden, wordt het boodschappenlijstje van de gebruiker in een cookie opgeslagen terwijl de gebruiker zijn keuzes maakt. Wanneer de bestelling om een of andere reden wordt onderbroken, kan de gebruiker later terugkomen en doorgaan met waar hij mee bezig was. Bij sommige sites worden cookies gebruikt om de gebruiker in staat te stellen het aanbod te personaliseren. De voorkeuren van de gebruiker worden dan, net als bij het boodschappenlijstje, opgeslagen in een cookie. Eigenaren van websites die de identiteit van hun gebruikers kennen en daarvoor cookies hebben geplaatst, kunnen deze gegevens uitwisselen met ondernemingen die advertentieruimte van hen kopen. Er zijn procedures uitgewerkt waarbij de cookies die zij beide op de computer van een gebruiker hebben staan worden gesynchroniseerd. Wanneer jouw identiteit eenmaal bekend is bij één bedrijf dat in je cookiebestand voorkomt, zou elk van de anderen iedere keer dat je hun site bezoekt precies weten wie je bent. Een website waaraan je ooit je naam hebt doorgegeven zou dus jouw naam kunnen verkopen aan mail-order bedrijven; bovendien kan op dezelfde manier informatie worden doorgespeeld over wánneer jij wát, hóelang op wélke site hebt bekeken. Naarmate wij voor de overdracht van informatie en communicatie met andere mensen meer gebruik maken van computernetwerken, zullen we steeds sterker geconfronteerd worden met ernstige privacy-problemen. 'Big brother might be watching you'. De wet van Murphy leert dat daar waar mogelijkheden zijn om grootschalig misbruik te maken van persoonsgegevens dit ook daadwerkelijk zal gebeuren. De verstandige internetgebruiker gaat daarom zeer behoedzaam om met het verstrekken van persoonlijke gegevens en beheert argwanend alle cookies op de eigen computer. |
Een andere techniek van informatieverzameling is personalisering. Gebruikers wordt de mogelijkheid geboden om de zoekdienst aan te passen aan de eigen smaak: een eigen vormgeving en een afbakening van eigen interesses. Hierdoor krijgen zoekdiensten nog meer informatie over de gebruikers en vormen zij voor adverteerders een nog duidelijker individueel doel.
Er bestaat al met al een merkwaardige paradox in de webruimte: de gebruiker krijgt meer macht om zijn zoekomgeving naar eigen hand te zetten en toch leidt dit tot een geraffineerd soort overheersing door zoekconcerns [Miller 2000:116]. Enerzijds wordt de consument sterker omdat deze zijn of haar eigen ruimte kan inrichten binnen een interactieve omgeving. Anderzijds gebeurt dit om de gebruiker een duidelijker doelwit te maken voor adverteerders. Personalisering betekent dus vooral ook dat er meer informatie wordt geven aan adverteerders zodat zij de gebruiker beter kunnen begrijpen en manipuleren. Bij veel zoekdiensten betekent het controleren van je eigen omgeving ook dat je omgeving een sterkere commerciële invloed heeft op jou.
De commerciële kolonisering van de persoonlijke leefruimte op internet zet zich met grote kracht voort. De aversie die dit bij bijna alle gewone gebruikers oproept, heeft er wel toe geleid dat individuele gebruikers zich veel bewuster zijn geworden van de gevaren die de grenzen en integriteit van hun privéleven bedreigen. Zij gaan zorgvuldiger om met hun cookies (bij Security Settings staan de cookies prompt) en controleren hun eigen systeem regelmatig met speciale software op ongenode gasten. Zij worden daarbij ondersteund door websites waar goed informatie te vinden is over ongewenste en verhulde commercialisering van het internet en over de manier waarop men zelf de grenzen van de persoonlijke virtuele leefwereld kan bewaken. Dit moleculaire verzet tegen de commercialisering van de persoonlijke leefwereld is weliswaar massaal, maar te elementair georganiseerd om echt effectief te zijn. De agressiviteit van veel internetadverteerders is ongemeen sterk en zij zijn uiterst creatief in het doorbreken of ontwijken van verdedigingsmuren die gebruikers tegen hen opwerpen. Het wordt tijd dat internetgebruikers zichzelf sterker gaan organiseren als burgers die op internet gevrijwaard willen blijven van ongewenste commerciële uitingen. Langzamerhand ontstaan er nieuwe organisaties die met voorlichting en acties verzet aantekenen tegen de commerciële penetratie van de online privacy. Daarbij worden telkens een of meerdere zoekmachines aangepakt die hun redactionele verplichtingen verkwanselen voor commercieel gewin. In het verlengde hiervan liggen acties voor zelfregulatie en waar nodig juridische regulatie met handhaafbare regels voor de redactionele integriteit van zoekmachines.
Referenties |
|---|
| Eigenaardigheden | Home | Onderwerpen | Samenleven | Zoek | Over ons | Contact |
|---|
![]()
dr. Albert Benschop |