NORMERING VAN (NIEUWE) INTELLIGENTIETESTS

Twee nieuwe iq-tests - één voor kinderen, de ander voor volwassenen - worden inmiddels veel gebruikt, maar critici zeggen dat ze niet deugen. ``Tot de testnormen zijn verbeterd mogen psychologen alleen onder voorbehoud iemand zijn iq geven.''

Testuitgevers en -auteurs staan niet of nauwelijks voorbeelden van hun tests ter publicatie af. Deze voorbeelden van onderdelen uit een intelligentietest lijken op items uit een echte test, maar zijn licht gewijzigd. Ze zijn afkomstig uit de SON-R, een niet-verbale intelligentietest voor kinderen. - Het rood-witte patroon moet worden gelegd met negen blokken met verschillend gekleurde rood-witte vlakken. Mensen die de test maken krijgen het voorbeeld zonder de stippellijnen. - Zoek uit de zes onderste plaatjes twee afbeeldingen die op de plaats van de vraagtekens horen. - Trek de twee lijnen links door, zodat ze logisch aansluiten op de lijnen rechts. - Kies uit de vijf rechterplaatjes er twee die goed passen bij de drie linker plaatjes. - Kies uit de vier onderste figuren er één die op het vraagteken past, zodat er een analogie ontstaat met de twee figuren in het bovenste voorbeeld. - ILLUSTRATIES SON RESEARCH

De twee meestgebruikte Nederlandse intelligentietests zijn het afgelopen jaar eindelijk gemoderniseerd. Dat werd hoog tijd, want de WAIS-III, voor volwassenen van 16 tot 85 jaar, vervangt een voorganger van 30 jaar geleden. De WISC-III die het IQ van 6- tot 17-jarigen meet komt in de plaats van een test die 16 jaar geleden uit kwam.

Met een zucht van verlichting namen de testpsychologen het nieuwe testmateriaal in gebruik. Van iedere test zijn inmiddels meer dan 1.000 exemplaren verkocht, voor rond de 1.000 euro per stuk. Het oude beduimelde testmateriaal verdween. Er zaten sterk verouderde test-items in, bijvoorbeeld over mensen die bijna niemand meer kent, zoals de dichter Guido Gezelle.

De WAIS-III kwam begin vorig jaar op de markt en afgelopen zomer verscheen de WISC-III. De W in beide afkortingen staat voor David Wechsler, de Amerikaanse testontwikkelaar die in 1939 zijn eerste intelligentietest publiceerde. De Wechslertesten groeiden uit tot een internationaal instituut.

De WAIS (Wechsler Adult Intelligence Scale) voert al 30 jaar de lijst aan van in Nederland favoriete psychologische tests. Bijna 40% van alle testpsychologen gebruikt hem regelmatig voor een intelligentiemeting. Prof.dr. Jan Derksen, psychodiagnosticus aan de Universiteiten van Nijmegen en Brussel: ``De WAIS is voor de psycholoog wat de stethoscoop is voor de dokter, een breed bruikbaar meetinstrument.'' De WISC (Wechsler Intelligence Scale for Children) staat ook al 30 jaar in de top-tien van vaakgebruikte tests. De nieuwe WISC-III vervangt de WISC-R die in Nederland sinds 1986 in gebruik is. Dat lijkt niet stokoud, maar sommige test-items zorgen inmiddels voor verwarring. In die oude WISC krijgen kinderen bijvoorbeeld een plaatje met een telefoon te zien. Ze moeten zeggen wat er aan mist. Het juiste antwoord is: het snoer. Maar veel negenjarigen vinden een snoer geen noodzakelijk onderdeel van een telefoon.

De ervaring met de nieuwe WISC is nog beperkt, maar bij de WAIS-III was de vreugde van de testpsychologen van korte duur. En ook de getesten werden vaak teleurgesteld door de uitslag. IQ's die met de nieuwe WAIS werden gemeten vielen vaak erg laag uit. Het vakblad De Psycholoog plaatste vorig jaar december bijvoorbeeld een artikel van twee psychologen van het psychiatrisch ziekenhuis Zwolse Poort. Zij beschreven enkele patiënten die eerder met de 30 jaar oude WAIS waren getest. Toen een hertest nodig was kregen ze de nieuwe WAIS-III voor hun neus. Een 41-jarige Turkse vrouw zakte in IQ van 114 naar 84. Een 19-jarige Nederlandse vrouw daalde van 86 naar 63 IQ-punten.

Flynn-effect

Voor de lagere IQ's die de WAIS-III zou geven had testontwikkelaar drs. Josien Uterwijk van uitgeverij Swets Test Publishers al gewaarschuwd. We zullen daar aan moeten wennen, schreef ze in een artikel waarin ze de WAIS introduceerde (De Psycholoog, juni 2001). Het verschil ontstaat volgens Swets' testontwikkelaars door het Flynn-effect. Flynn stelde dat het IQ van een bevolking iedere tien jaar met ongeveer 3 punten toeneemt (zie kader meetfouten). In een land dat 30 jaar lang de meestgebruikte IQ-test voor volwassenen niet vernieuwt ligt het gemiddelde IQ inmiddels rond de 110. Dat was goed voor ons zelfgevoel, tenminste als testpsychologen niet zelf punten aftrekken voor de veroudering, wat sommigen in de praktijk doen en anderen niet.

De ontwikkeling van nieuwe tests verloopt moeizaam in Nederland. Vanouds gebeurde het aan de universiteiten, maar die zeggen er geen geld meer voor te hebben. Subsidiënten van wetenschappelijk onderzoek vinden testontwikkeling geen uitdagende wetenschap en uitgevers (met Swets als jarenlange monopolist in Nederland) investeerden vrijwel niet.

De vorige Nederlandse WAIS was 30 jaar eerder genormeerd. Uterwijk nam in de ontwikkelingsfase van de WAIS-III bij 77 proefpersonen de nieuwe WAIS af en een paar weken later de oude. Op de oude WAIS scoorden zij gemiddeld maar liefst 20 IQ-punten hoger.

Theoretisch gezien is zo'n IQ-sprong geen ramp. Een IQ geeft de relatieve score van een geteste persoon ten opzichte van een normgroep van dezelfde leeftijd. Het probleem is echter dat overheid, verzekeraars en onderwijsorganisaties steeds vaker absolute IQ's als grens hanteren bij soms zeer ingrijpende beslissingen.

De Nederlandse Gezondheidsraad opperde vorige maand bijvoorbeeld om vrouwen met een IQ beneden de 60 verplicht anticonceptie te laten gebruiken om ervoor te zorgen dat ze niet zwanger worden. Vrouwen met een IQ onder de 60 zouden niet goed voor hun kinderen kunnen zorgen. Maar met welke test dat IQ moet worden gemeten, zei de Gezondheidsraad er niet bij.

De aan de afdeling persoonlijkheidspsychologie van de Rijksuniversiteit Groningen verbonden testtheoreticus en testontwikkelaar dr. Peter Tellegen schudt meer voorbeelden van het absoluteren van IQ-scores uit zijn mouw. Mensen met lage IQ's komen voor speciaal onderwijs of vergoedingen in aanmerking als hun IQ tussen vaste waarden ligt. Tellegen: ``Het Landelijk Centrum Indicatiestelling Gehandicaptenzorg adviseert over subsidies voor zwakbegaafden met het IQ als één van de belangrijkste criteria.'' Psychologen mogen ertegen zijn dat een IQ als absolute getal wordt gehanteerd, het gebeurt toch.

In de loop van 2002 verscheen er, behalve verbazing over de lage scores, ook fundamenteler kritiek in De Psycholoog. Over de WAIS-III schrijven de psychologen Jan Derksen en Michael Katzko van de Universiteit van Nijmegen dat het protocol voor de vertaling van een Amerikaanse test niet is gevolgd. En dat de steekproef van 16- tot 85-jarigen waar de test op is genormeerd met 745 personen, verdeeld over zeven leeftijdsgroepen en acht opleidingsniveaus, veel te klein is. Zo zaten er maar 9 vrouwen met een wetenschappelijke opleiding in de steekproef. Een daarop gebaseerde norm, vinden Derksen en Katzko, kan niet nauwkeurig zijn.

In een ander artikel (De Psycholoog, sept 2002) analyseerde Peter Tellegen vervolgens dat het opleidingsniveau in de steekproef van de WAIS-III veel te hoog was. En dat daardoor de normering niet goed is. Tellegen: ``Er zaten te veel mensen met een havo- en vwo-opleiding in de steekproef. Die mensen scoorden relatief hoog en daardoor ligt nu de norm ook te hoog. Iemand met een wat lagere intelligentie zal dus opeens erg laag op de WAIS-III scoren. Bovendien waren de ouderen in de steekproef ook veel te hoog opgeleid, vergeleken met de opleidingsniveaus in de bevolking.''

De lage intelligentiescore die uit de WAIS-III rolt komt dus zeker niet alleen door het Flynn-effect, concludeerden de critici, maar waarschijnlijk ook door verkeerde normering als gevolg van een onjuiste steekproef. Tellegen houdt het er op dat voor de meeste subgroepen het IQ 5 punten te laag uit valt en dat het verschil bij de ouderen nog wel eens groter kan zijn. Hoe groot het verschil werkelijk is, kan niemand met zekerheid zeggen, totdat de normering goed is.

Mea culpa

Na eerst de kritiek te hebben gesust gaf WAIS-uitgever Swets dit najaar toe dat er ``wel degelijk sprake was van een ongewenst verschil''. Maar testontwikkelaar dr. Marc Span van Swets schat dat het netto-effect na correctie rond de 2 IQ-punten ligt (De Psycholoog, nov 2002). Het Flynn-effect blijft wat Swets betreft de belangrijkste verklaring voor het grote IQ-scoreverschil tussen de oude en de nieuwe WAIS. ``Wij zijn het met de critici eens dat de steekproef beter van een grotere omvang had kunnen zijn,'' schrijft Span in zijn stuk dat het midden houdt tussen een mea culpa en een verdediging: ``De normgroep van de WAIS-III is een veel betere afspiegeling van de huidige populatie dan de normgroep van iedere andere in Nederland verkrijgbare intelligentietest. Op dit moment is in Nederland geen beter instrument op de markt om intelligentie te meten bij volwassenen dan de WAIS-III.'' Swets gaat ``de normgegevens snel verbeteren'', maar vindt toch dat ``we hebben gepoogd aan te geven dat de normen valide zijn, ook in situaties waarin belangrijke persoonlijke beslissingen voor cliënten kunnen volgen''.

Marc Span, gevraagd naar de aanpak van de normeringsverbetering: ``Swets voegt 200 mensen aan de normeringsgroep toe. Die mensen worden nu gezocht en er worden op het ogenblik testassistenten aangetrokken. Het opleidingsniveau binnen de normeringsgroep wordt helemaal in overeenstemming gebracht met de CBS-populatiegegevens van 1999, het jaar waarin de test oorspronkelijk is genormeerd. In de loop van het voorjaar leidt dat tot nieuwe normen, waarin ook de leeftijdsovergangen vloeiender worden zodat daar niet zulke grote verschillen in kunnen ontstaan. Tellegen heeft daar terecht op gewezen.''

``Als je nu een dag voor je 51-ste verjaardag de WAIS-III doet,'' zegt Tellegen over die leeftijdsgrenzen, ``en je scoort een resultaat waardoor je een IQ van 102 hebt, dan krijg je met hetzelfde testresultaat een IQ van 109 als je de test een dag ná je 51-ste verjaardag zou hebben gemaakt. Er zijn absurde sprongen in IQ-score bij de overgang van de ene genormeerde leeftijdsgroep naar de andere.'' Rond de 66-ste verjaardag klimt iemand van een IQ-score van 109 naar 118.

Swets belooft verbeteringen en Tellegen en Derksen zeggen beide dat Swets wetenschappelijk gezien nu goed reageert. Maar de nieuwe normering komt pas volgend voorjaar. Tot de nieuwe normen er zijn, vindt Derksen ``moet de uitgever het gebruik van de test ontraden. Ik vind de nieuwe WAIS een blamage voor de beroepsgroep. Er zijn grote fouten gemaakt. Een terugroepactie is op zijn plaats.'' Tellegen vindt dat psychologen de IQ-scores voorlopig alleen onder voorbehoud kunnen afgeven. Een psycholoog, vindt Tellegen, is ethisch verplicht aan de cliënt en de opdrachtgever bekend te maken dat de nu behaalde score kan afwijken van de juiste IQ-score die pas bekend wordt als de nieuwe normen er zijn. Tellegen, in het decembernummer van De Psycholoog: ``Het hoeft daarbij niet om grote verschillen te gaan. Een paar IQ-punten kan al het verschil maken of ouders te horen krijgen dat hun kind `licht zwakzinnig' is dan wel `laag begaafd'. In psychologisch en sociaal opzicht is dat een ingrijpend onderscheid.'' Een psycholoog die niet waarschuwt kan later daarvoor aansprakelijk worden gesteld, waarschuwt Tellegen zijn vakgenoten.

Aanpassen

Wat Tellegen betreft moeten ook de auteurs van de WISC-III, de kinder-intelligentietest die korter op de markt is, de normering aanpassen. Tellegen heeft aannemelijk gemaakt dat de IQ-scores van 13- tot 17-jarigen ongeveer 3 punten te laag uit vallen doordat er te veel havo/vwo-ers in de normeringsgroep zaten (De Psycholoog, nov 2002). Tellegen: ``Er moeten meer kinderen uit de lagere vormen van voortgezet onderwijs, zoals het voortgezet speciaal onderwijs, het praktijkonderwijs en het vmbo in de normeringsgroep komen. Ik kon niet precies aangeven hoe verkeerd de normering is, want de auteurs zijn niet bereid gegevens te verstrekken.''

De WISC-III wordt uitgegeven door het NIP-Dienstencentrum, de commerciële poot van het Nederlands Instituut van Psychologen (NIP), de beroepsorganisatie van Nederlandse psychologen. Projectleider drs. Willem Kort: ``We hebben de kritiek van Tellegen serieus genomen en met modelberekeningen gekeken wat de fout kan zijn. We vonden een kleine vertekening in de oudste groep, van 15- en 16-jarigen, maar het verschil is veel kleiner dan de 3 IQ-punten die Tellegen berekende. Wij komen op maximaal 1,5 punt.''

Tellegen wil die berekeningen graag zien. Kort: ``We willen graag transparant en wetenschappelijk zijn, maar aan de andere kant zijn we ook commercieel. De normeringsgegevens zijn alleen beschikbaar tegen betaling. Dat klinkt misschien gek van een bedrijf dat in bezit is van een beroepsorganisatie, maar we hebben moeten investeren en willen graag het geld dat we verdienen gebruiken voor testontwikkeling. De bewerking van een Amerikaanse test voor het Nederlandse taalgebied vergt toch een bedrag in de orde van 450.000 euro. Vroeger werden tests door mensen aan de universiteiten genormeerd, maar die hebben daar geen geld meer voor. De beroepsgroep heeft nu besloten dat zelf goed te gaan doen. Tellegen is IQ-onderzoeker en wij schatten hem hoog, maar hij is ook auteur van de SON, een IQ-test die non-verbaal is, en kan daarmee tot op zekere hoogte ook als concurrent worden gezien.''

Kort en de andere auteurs van de Nederlandse WISC-III wachten op het wetenschappelijk oordeel van de COTAN. Dat is de commissie van het NIP (``een onafhankelijk werkende commissie,'' benadrukt Kort) die alle psychologische tests in Nederland op kwaliteit beoordeelt. De WAIS-III kreeg onlangs voor de normering een onvoldoende van de COTAN.

IQ van allochtonen

Tien procent van de groep kinderen waarop de WISC-III is genormeerd bestond uit allochtonen. Als aparte groep scoren ze tien punten lager op de test, vergeleken met autochtone kinderen.

``Toch wil dat niet zeggen dat allochtonen minder begaafd zijn,'' zegt Peter Tellegen. Tellegen is auteur van de SON-R niet-verbale intelligentietests. ``Op de in 1993 herziene SON-test was het verschil 4,5 punt. Volgens mij moet je allochtone kinderen niet met de nieuwe WISC testen.''

``Dat kun je doen, maar het heeft weinig zin om iemands functioneren in de Nederlandse samenleving te meten, zonder op het verbale aspect te letten, want iemand die niet weet te verbaliseren functioneert ook minder,'' reageert Willem Kort, de projectleider van de WISC-III. De WISC-III bestaat uit een serie non-verbale en een serie verbale subtests. Die zijn zo gescheiden dat er een aparte verbale intelligentie en een non-verbale (performale) intelligentie kan worden uitgerekend.

``Trouwens,''zegt Kort, ``als je corrigeert voor de sociaal-economische status van de kinderen dan scoren de allochtonen net zo hoog als de autochtone kinderen.''

``Jammer dat hier niets over in de handleiding staat,'' zegt Tellegen. ``Ik heb daar naar gevraagd. De auteurs zeggen dat die informatie in de technische handleiding komt. Die moet nog verschijnen. Men was bang voor Vlaams-Blok-achtige reacties. En als het in een technische handleiding staat leest toch bijna niemand het. Daarom is het raar dat het NIP de uitkomsten bij allochtonen wel vermeldde in een persbericht bij de presentatie van de test.''

Kort: ``Daarin gaven we duidelijk aan dat het verschil kleiner is geworden in vergelijking met een paar jaar geleden. Kijk je naar hoger opgeleide allochtonen in de normeringsgroep, dan zie je dat ze bovengemiddeld scoren. Verbaal gemiddeld, maar performaal vaak duidelijk beter.''

``Reuze interessant,'' bromt Tellegen, ``toch jammer dat de gebruikers van de test dit alleen in de krant hebben kunnen lezen.''

Meetfouten in het IQ

Intelligentietests leveren een uitslag mét onvoorspelbare meetfout. Iemands `echte' IQ is daarom onzeker en kan niet met één getal worden aangeduid. Een IQ van kortweg 115 ligt in werkelijkheid waarschijnlijk tussen de 107 en 123. De breedte van het interval hangt af van de betrouwbaarheid van de test, en van de gewenste zekerheid dat het echte IQ zich binnen het interval bevindt. Een interval met 95% zekerheid is bij de meeste IQ-tests 10 tot 20 punten breed.

Naast de onvoorspelbare, toevallige meetfouten beïnvloeden twee belangrijke systematische meetfouten de IQ-score. De eerste is het Flynn-effect. De Amerikaanse psycholoog James Flynn beschreef in 1984 de toename van het IQ van de Amerikaanse bevolking tussen 1932 en 1978. Flynn concludeerde dat de IQ's iedere tien jaar met ongeveer 3 punten toenemen. Op een test waarbij, zoals gebruikelijk, de gemiddelde score een IQ van 100 oplevert, zal dus na 30 jaar gebruik het gemiddelde op 109 liggen. De meeste IQ-tests in Nederland zijn al enige jaren tot decennia oud en hebben een Flynn-effect van 0 tot 10 IQ-punten.

Een andere systematische meetfout komt voort uit het stijgende IQ bij kinderen en de daling van het IQ bij 50-plussers. Bij een normering per leeftijdsgroep springt iemand van de ene op de andere dag in een volgende leeftijdsgroep, met een andere normering. Kinderen zakken bij zo'n overgang opeens een paar punten in IQ, omdat bij dezelfde ruwe testscore de normering opeens strenger is en dus een lager IQ oplevert. Bij 50-plussers stijgt het IQ plotseling als ze in de volgende groep komen, want de gemiddelde testprestatie bij ouderen daalt langzaam maar zeker.

De sprongen zouden, stelt Tellegen, niet groter mogen zijn dan 2 of 3 IQ-punten. En met een computerprogramma dat een vloeiende normeringscurve trekt en dat rekening houdt met de exacte leeftijd (in jaren, maanden en dagen) op de testdag zijn die plotselinge overgangen helemaal verdwenen. Zowel de nieuwe WAIS-III als de WISC-III werken nog met normen voor aparte leeftijdsgroepen. Tellegen wees er op dat bij de WISC-III zesjarigen een leeftijdssprong van 6 punten kunnen maken. De uitgevers van de WAIS en WISC hebben inmiddels toegegeven dat de gehanteerde leeftijdsgroepen te grof zijn en zullen verbeteringen aanbrengen.

IQ en intelligentie

Wat heeft iemands woordenschat, gemeten bij het afleggen van een intelligentietest, eigenlijk met intelligentie te maken? Wat zegt de snelheid waarmee je tijdens zo'n test blokjes in een patroon legt over je intelligentie?

Een intelligentietest bestaat meestal uit een aantal subtests. De nieuwe WAIS-III heeft er bijvoorbeeld 14, variërend van onvolledige tekeningen aanvullen tot cijferreeksen onthouden en nazeggen. Bij iedere subtest van een intelligentietest ligt de vraag voor de hand hoe die nu eigenlijk intelligentie meet. Dr. Peter Tellegen: ``Met iedere subtest meet je misschien maar voor een kwart intelligentie. Voor de rest meet je de vaardigheden die voor die subtest nodig zijn. Met één subtest meet je maar heel beperkt intelligentie. Maar door de resultaten van de subtests op te tellen verdwijnt het specifieke van iedere subtest naar de achtergrond. De algemene intelligentie komt dan sterk naar voren en domineert de totaalscore, het IQ.''

Algemene intelligentie speelt een rol in allerlei prestaties en gedragingen. Voor schoolsucces is intelligentie bijvoorbeeld belangrijk. Bij het validiteitsonderzoek van intelligentietests wordt gekeken of iemand die goed scoort op een IQ-test ook goede schoolresultaten behaalt en makkelijk carrière maakt. Valideren is iets anders dan normeren. De normering van een intelligentietest gebeurt door voldoende mensen (een representatieve steekproef uit de bevolking) van dezelfde leeftijd, gespreid over alle opleidingsniveaus, de test af te laten leggen. De verdeling van hun `ruwe' scores wordt omgezet naar een normaalverdeling. Mensen die het gemiddelde scoren, in de piek van de verdeling, krijgen de IQ-score 100 toegekend voor hun testresultaat. De curve van de normaalverdeling verloopt zo dat ongeveer 70 procent van alle mensen een score van 85 tot 115 krijgen (één standaardafwijking). En 95 procent van alle mensen valt tussen de 70 en 130 (twee standaardafwijkingen).

Wanneer de normeringsgroep te hoog is opgeleid en dus te intelligent is, ligt het gemiddelde te hoog en krijgen mensen met een bovengemiddelde intelligentie de score 100. Komt een test met zo'n normeringsfout algemeen in gebruik, dan krijgt vervolgens iedereen een te lage score.

IQ was vroeger de afkorting van intelligentiequotiënt, maar een quotiënt is het IQ al lang niet meer. Begin vorige eeuw bepaalde de Frans arts Alfred Binet het IQ van kinderen door te meten op welk leeftijdsniveau ze functioneerden. Had een achtjarige een woordenschat en geheugen volgens de norm van een tienjarige dan had het kind een intelligentiequotiënt van (10/8)x100=125.

Het idee dat intelligentie één eigenschap is, of op één plaats in de hersenen zetelt, is inmiddels verlaten. Intelligentie is een resultaat van het samenspel van actieve hersencellen. Zelfs de motoriek en het hersendeel dat spieren aanstuurt leveren een bijdrage, bijvoorbeeld op de non-verbale testitems waarbij blokken in patronen moeten worden gelegd of plaatjes geordend.

Bron:  Wim Köhler NRC 14-12-2002