Abonneebundel met online chaptersamenvattingen van Psychological testing; History, principles and applications - Gregory

  Bundel

De items van deze bundel
Keuzewijzer voor samenvattingen van Psychological testing; History, principles and applications - Gregory - 7e druk

Keuzewijzer voor samenvattingen van Psychological testing; History, principles and applications - Gregory - 7e druk

Samenvattingen van Psychological testing; History, principles and applications - Gregory

 

Boeksamenvatting bij de 7e druk van Psychological testing

 Online: samenvatting in chapters

Inhoud van samenvattingen van Psychological testing

 Boeksamenvattingen: inhoudsopgave van de online samenvattingen

 • De online boeksamenvatting bevat de volgende hoofdstukken:
  • Welke grondbeginselen en toepassingen horen bij psychologisch testen? - Chapter 1
  • Hoe hebben psychologische testen er door de eeuwen heen uit gezien? - Chapter 2
  • Wat is het belang van normen en betrouwbaarheid bij het doen van assessments? - Chapter 3
  • Wat is het belang van validiteit en testontwikkeling bij het doen van assessments? - Chapter 4
  • Welke theorieën over individuele intelligentie- en prestatietests zijn er? - Chapter 5
  • Hoe worden 'speciale populaties' getest? - Chapter 7
  • Waar vinden persoonlijkheidstesten hun oorsprong? - Chapter 8
  • Hoe gaat de assessment van normaliteit en menselijke kwaliteiten in zijn werk? - Chapter 9
  • Hoe werkt neuropsychologische assessment en screening? - Chapter 10
  • Wanneer en hoe worden industriële, beroeps- en carrière assessments gedaan? - Chapter 11
  • Waar ligt de toekomst van psychologische testen? - Chapter 12

Gerelateerde samenvattingen & studiehulp bij Psychological testing

 Alternatieven: boeksamenvattingen & gerelateerde samenvattingen

 Kennis- en studiegebieden: samenvattingen per studiegebied

Welke grondbeginselen en toepassingen horen bij psychologisch testen? - Chapter 1

Welke grondbeginselen en toepassingen horen bij psychologisch testen? - Chapter 1

Onderwerp 1A: Wat is de aard en toepassing van testen?

Consequenties van testen

Gedurende de hele levensduur worden er testen afgenomen bij mensen, zoals de Apgar-test voor het meten van de gezondheid van zuigelingen, rij- en schoolexamens bij pubers, ontwikkelingstesten, etc. De uitkomst van alle psychologische testen kan een grote invloed hebben op de levensloop. Een gedegen kennis van testen is dus noodzakelijk voor iedereen in het werkveld van de psychologie. Iemand die binnen de psychologie of het onderwijs testen ontwikkelt en evalueert noemen we een psychometrist. Persoonlijkheids- en intelligentietesten zijn op dit moment de meest essentiële testen binnen de psychologie.

Definitie van een test

Testen kunnen heel verschillend zijn in hun doeleinden en format, maar over het algemeen delen ze de volgende kenmerken.

Een test is een gestandaardiseerde procedure voor het inventariseren van gedrag en het beschrijven hiervan door middel van categorieën of scores. Er zijn een aantal definiërende kenmerken van testen. Een test is ten eerste gestandaardiseerd, wat wil zeggen dat de procedures voor het afnemen ervan gelijk zijn binnen verschillende settings. Ten tweede is een test gebaseerd op een steekproef van het gedrag dat je wilt meten. De items binnen de test hoeven niet gelijk te zijn aan het gedrag dat je bekijkt, zo lang ze maar relevant zijn. Belangrijk is dat de gedragingen in de steekproef het gedrag, dat voorspeld wordt met de test, goed representeert. Ten derde moet het mogelijk zijn om uit de test categorieën of scores af te leiden. Hierbij moet altijd rekening gehouden worden met een bepaalde mate aan meetfout: X=T+e, waarbij X de geobserveerde score is, T de ware score is en e de error is. Een testontwikkelaar moet proberen de error zo klein mogelijk te maken.

Ook moet men niet vergeten dat het abstracte kenmerk dat gemeten wordt door een test niet een fysiek ‘iets’ in de wereld representeert. Ten vierde is het noodzakelijk een norm te vestigen waarmee scores van deelnemers vergeleken kunnen worden. Dit gebeurt door middel van een gestandaardiseerde steekproef, deze steekproef moet representatief zijn voor de populatie waar de test voor bedoeld is. De norm geeft aan wanneer mensen afwijken. Ten slotte zijn testen bedoeld om andere gedragingen te voorspellen. Een test kan dus meer dan één doel hebben. Om te weten of het gedrag ook echt voorspeld wordt door de test wordt er gebruik gemaakt van validatieonderzoek, maar dat kan pas worden gedaan nadat de test is uitgebracht.

Ander onderscheid bij testen

De meerderheid van de testen zijn norm-referenced, waarbij de score van elke deelnemer geïnterpreteerd wordt in vergelijking met een relevante gestandaardiseerde steekproef. Andere testen zijn criterion-referenced, waarbij het doel is om vast te stellen waar een deelnemer staat met betrekking tot duidelijk gedefinieerde criteria. Schoolexamens vallen bijvoorbeeld onder deze categorie. Hierbij vergelijk je dus niet met een referentiegroep.

Een ander belangrijk onderscheid dat gemaakt wordt, is tussen assessment en testen. Assessment is een term die gebruikt wordt voor meer omvattend onderzoek en verwijst naar het gehele proces van het verzamelen van informatie over een persoon, op basis waarvan iets gezegd kan worden over eigenschappen en gedrag. Tests zijn dus slechts één bron van informatie voor een geheel assessment proces.

Verschillende soorten testen

Testen kunnen grofweg verdeeld worden in groepstesten, die grotendeels met pen en papier en bij meerdere deelnemers tegelijk kunnen worden afgenomen, en individuele testen, die één-op-één worden afgenomen. Hieronder worden de verschillende categorieën testen besproken, die in verschillende vormen voorkomen (norm-referenced, criterion-referenced, individuele en groepstesten).

 • Intelligentietesten: hierbij wordt het algemene intellectuele niveau van een individu gemeten, gebaseerd op de in een bepaalde cultuur belangrijke vaardigheden. Er zijn subscores, maar er wordt meestal naar de algemene score gekeken. De test bestaat over het algemeen uit een heterogene combinatie van items die verschillende aspecten van de intelligentie meten.

 • Bekwaamheidstesten: hierbij worden één of meer specifiekere aspecten van vaardigheid gemeten. Dit soort testen wordt vaak gebruikt om succes op een bepaalde baan of studie te voorspellen.

 • Prestatietesten: hierbij wordt de mate van leren, succes of prestatie van een individu met betrekking tot een bepaald onderwerp gemeten. Het verschil met de bekwaamheidstest is het doel en de inhoud van de test. Prestatietesten meten het verloop van de prestaties van individuen, bekwaamheidstesten meten het niveau van iemand op het testmoment.

 • Creativiteitstesten: hierbij wordt de vaardigheid om nieuwe ideeën, inzichten of creaties te ontwikkelen gemeten. Voor deze testen moet je divergent kunnen denken: verschillende oplossingen zoeken voor een complex probleem. Er wordt nog wel eens getwijfeld of creativiteit niet een vorm is van toegepaste intelligentie.

 • Persoonlijkheidstesten: hierbij worden kenmerken of gedragingen gemeten die de individualiteit van een persoon vaststellen.

 • Interesse-inventarissen: hierbij wordt de voorkeur van een individu voor bepaalde activiteiten of onderwerpen gemeten.

 • Gedragsmatige procedures: hierbij worden de antecedenten en consequenties van gedrag gemeten.

 • Neuropsychologische testen: deze worden gebruikt voor het onderzoeken van personen met mogelijke hersenschade. Het zijn lange en intensieve één-op-één testen.

Verschillende soorten gebruik van testen

Er zijn 5 manieren op psychologische testen te gebruiken:

 • Classificatie: het toewijzen van personen aan bepaalde categorieën. Dit kan onderverdeeld worden in plaatsing (het toewijzen aan verschillende programma’s op basis van vaardigheden), screening (korte testen om personen met speciale behoeften of kenmerken te identificeren), certificatie (waarbij het halen van een test bepaalde privileges oplevert) en selectie (waarbij certificatie toegang verleent tot ‘besloten’ kringen zoals de universiteit of een vereniging).

 • Diagnose: het vaststellen van de aard en oorzaak van abnormaal gedrag en het classificeren van het gedrag binnen een geaccepteerd diagnostisch systeem. Diagnose moet meer zijn dan een label, maar er moet met achterliggende informatie ook rekening worden gehouden. De diagnose wordt ook gebruikt bij de planning van het eventuele behandelplan.

 • Zelfkennis: het verkrijgen van meer inzicht in jezelf door middel van een test.

 • Evaluatie van educatieve of sociale programma’s: het evalueren van het succes van bepaalde programma’s.

 • Onderzoek: het testen van hypothesen door middel van tests.

De doelen van testen overlappen vaak, wat het moeilijk maakt om onderscheid te maken. Veel testen kunnen ook voor meerdere doeleinden gebruikt worden binnen één afname.

Er zijn verschillende factoren die invloed kunnen hebben op de betrouwbaarheid van een test. Deze factoren worden hieronder besproken.

Gestandaardiseerde procedures bij testafname

Niet-gestandaardiseerde testen kunnen de resultaten significant beïnvloeden, waardoor deze onbruikbaar worden. Daarnaast kunnen ze niet valide zijn. In sommige gevallen is het echter wel gewenst, soms zelfs noodzakelijk, om flexibel te zijn met de procedure. Dit is bijvoorbeeld het geval bij deelnemers met een handicap. Afwijkingen van de standaard moeten echter altijd opzettelijk en goed doordacht zijn.

Gewenste afnameprocedures

Voor individueel testen is het belangrijk dat de proefleider goed bekend is met het materiaal, de instructies die hij/zij moet geven en de manier waarop details en scores genoteerd worden. Daarnaast is het zeer belangrijk dat alle deelnemers de geschreven en gesproken instructies kunnen begrijpen. Ook moet rekening gehouden worden met eventuele beperkingen van de deelnemer in bijvoorbeeld gehoor, zicht, spraak of motorische controle.

Voor mensen met verminderd gehoor is het in eerste instantie belangrijk dat de proefleider hiervan op de hoogte is en hier goed op inspeelt, zodat de testresultaten niet beïnvloed worden. Net als bij zichtbeperking geven de meeste volwassenen dit uit zichzelf aan, maar bij kinderen komt het vaak voor dat ze eventuele beperkingen niet noemen. Ten slotte moet rekening gehouden worden met mogelijke beperkingen in motorische controle of spraak. Dit is belangrijk bij tests waarbij gebruik wordt gemaakt van tijd-reacties. Testen kunnen een klein beetje worden aangepast voor mensen met een beperking zonder dat de validiteit of betrouwbaarheid van de test achteruit gaat. Soms zijn er ook speciale vormen van een test die inspelen op een bepaalde beperking.

Ook voor groepstesten zijn er een aantal belangrijke punten die in acht genomen moeten worden door de proefleider. Zo is het bij testen met een tijdslimiet belangrijk dat er genoeg tijd beschikbaar is en dat deze goed bijgehouden wordt. Daarnaast moeten instructies duidelijk en niet te snel worden voorgelezen en niet worden geparafraseerd. Ook achtergrondgeluiden moeten zoveel mogelijk beperkt worden. Bovendien is het belangrijk om duidelijk aan te geven of gokken, als de deelnemer het antwoord niet weet, consequenties heeft. Veel testen hebben een ingebouwde gok-correctie.

Invloeden van de proefleider

Het is belangrijk dat de proefleider voor ‘rapport’ zorgt: een goede verstandhouding met de deelnemers creëert en voor een comfortabele en motiverende sfeer zorgt. Dit verhoogt de coöperatie van de deelnemer. Uit onderzoek blijken tegenstrijdige resultaten over de invloed van ras, ervaring en geslacht van de proefleider op de resultaten. In sommige unieke gevallen blijkt dit wel degelijk van invloed te zijn.

Achtergrond en motivatie van de deelnemer

Verschillende aspecten van de deelnemer kunnen de testresultaten beïnvloeden. Testangst verwijst naar alle gedragsmatige reacties die meekomen met zorgen over mogelijk falen van een test. Uit onderzoek blijkt dat testangst zowel een oorzaak als consequentie is van slechte prestatie op testen. Vooral bij testen met tijdsdruk kunnen de resultaten van deelnemers met testangst sterk beïnvloed worden.

Daarnaast komt het soms voor dat deelnemers valse resultaten forceren om een bepaalde testuitslag te krijgen. Ook moet er rekening worden gehouden met de motivatie van de deelnemer. Een ongemotiveerde deelnemer kan zorgen voor onbetrouwbare resultaten.

Onderwerp 1B: Wat omvat de ethiek van testen en wat zijn de sociale aspecten van testen?

Professionele standaarden voor testen

Meestal worden testen op verantwoordelijke wijze uitgevoerd, maar er zijn natuurlijk ook uitzonderingen waarbij het onverantwoordelijk toepassen of uitwerken van een test soms desastreuze gevolgen kan hebben. Daarom zijn er richtlijnen voor verantwoordelijk testgebruik ontwikkeld door professionele organisaties zoals de American Psychological Association (APA). Hieronder worden achtereenvolgens de verantwoordelijkheden van testontwikkelaars en testgebruikers beschreven.

Verantwoordelijkheden van testontwikkelaars

Uitgevers van testen moeten met verschillende factoren rekening houden. Ten eerste moeten testen aan alle richtlijnen voldoen voor ze worden uitgegeven. Zo is het bijvoorbeeld verplicht om technische en gebruikershandleidingen mee te leveren met de test. Ten tweede moet eventuele marketing en adverteren van de test op accurate en oprechte wijze plaatsvinden. Een test mag pas gepubliceerd worden wanneer de betrouwbaarheid en validiteit onderzocht is. Bij de test moet vermeld zijn op wat voor manier de betrouwbaarheid en validiteit onderzocht is en wat daarvan de uitkomsten waren. Ook moet duidelijk zijn wie de test mag gebruiken en welke kwalificaties iemand hiervoor moet bezitten. Vaak zijn voor gebruik bepaalde certificaties benodigd.

Verantwoordelijkheden van testgebruikers

Onder andere de APA heeft ethische richtlijnen en professionele standaarden gepubliceerd voor testgebruik om het welzijn van de deelnemers en het netwerk om hem/haar heen te garanderen. Hieronder valt bijvoorbeeld de richtlijn dat testen altijd in het voordeel moet zijn van de cliënt. Vertrouwelijkheid is daarnaast een plicht van de proefleider, hoewel deze ook verplicht is ernstige bedreigingen voor het slachtoffer of andere te rapporteren.

Daarnaast is het noodzakelijk dat de proefleider de benodigde expertise heeft om een test af te nemen. Informed consent is een andere belangrijke voorwaarde. Dit houdt in dat alle deelnemers van te voren ingelicht worden over het onderzoek en daarvoor hun toestemming verlenen. Verder moet rekening gehouden worden met wat de zorgstandaard is voor een bepaald geval, oftewel welke methode of test op dat moment het meest gebruikt wordt en het meest geaccepteerd is.

Zo moet men bijvoorbeeld oppassen met het gebruik van gedateerd materiaal. Daarnaast moeten testresultaten op correcte wijze medegedeeld worden met de deelnemer, waarbij effectieve en constructieve feedback gegeven wordt. Hierbij mag niet buiten de grenzen van de expertise van de tester worden getreden. Het psychologisch rapport dat over het onderzoek wordt geschreven moet direct en concreet zijn.

Dit is van belang omdat de inhoud van het rapport impact kan hebben op het leven van de deelnemer, bijvoorbeeld wanneer het rapport wordt opgevraagd door een werkgever. Ten slotte is respect en erkenning van individuele verschillen erg belangrijk bij testgebruik.

Het testen van culturele en linguïstische minderheden

Psychologische testen zijn voornamelijk gericht op westerse bevolkingsgroepen. Het kan niet zonder meer aangenomen worden dat bestaande testen ook geschikt zijn voor alle bevolkingsgroepen. Vanaf de jaren 30 is er een opkomst in cultuur-sensitief testen, maar het werk is nog lang niet compleet. Andere culturen kunnen ander normen, waarden of overtuigingen hebben. Dit kan ervoor zorgen dat zij anders tegen een test aankijken of anders reageren op de resultaten.

De invloed van culturele achtergrond op testresultaten

Uit onderzoek blijkt dat mensen van verschillende culturele achtergrond testen op verschillende manieren interpreteren en invullen. Zo blijkt bijvoorbeeld dat inheemse volken in de VS een andere conceptie van tijd laten zien dan de blanke middenklasse in Amerika.

Daarnaast blijkt dat bijvoorbeeld Afro-Amerikanen kwalitatief anders reageren op testen dan Anglo-Amerikanen; kinderen van Afro-Amerikaanse afkomst bleken minder spontaan uit te weiden met betrekking tot hun antwoorden. Soortgelijke verschillen zijn ook zichtbaar bij volwassenen. Daarnaast kan bij testen het gevaar van stereotypering bestaan, waarbij de deelnemers onbewust het negatieve stereotype bevestigen dat over hun eigen groep bestaat. Dit wordt ook wel stereotype threat genoemd. Testscores zijn niet altijd hetzelfde bij individuen, maar komen tot stand binnen een sociaalpsychologisch veld dat beïnvloed wordt door verschillende culturele factoren.

Onbedoelde effecten bij belangrijke testen

Een ander effect dat een rol kan spelen bij testen is fraude. Dit speelt met name bij testen waarvan de resultaten veel invloed hebben, bijvoorbeeld bij een selectie voor een baan of studie. Massale fraude komt sporadisch voor. Echter, ook fraude met behulp van ouders of leraren komt voor.

Een ander aspect van fraude wordt beschreven door het Lake Wobegon Effect, wat verwijst naar het feit dat op veel scholen meer dan 50% van de leerlingen bovengemiddelde cijfers hebben. Dit komt voornamelijk doordat onze maatschappij veel nadruk legt op prestatie en het uitblinken van scholen. Leraren helpen de leerlingen te frauderen door hen onder andere te coachen op toetsantwoorden, antwoordformulieren te veranderen of meer tijd te geven voor toetsen.

Het lijkt dus dat de nationale drang naar prestatietests voor selectie en evaluatie ongewenst gedrag in de hand helpt, maar het is niet duidelijk hoe groot en verspreid het probleem is.

Hoe hebben psychologische testen er door de eeuwen heen uit gezien? - Chapter 2
Wat is het belang van normen en betrouwbaarheid bij het doen van assessments? - Chapter 3

Wat is het belang van normen en betrouwbaarheid bij het doen van assessments? - Chapter 3

Onderwerp 3A: Normen en teststandaardisatie

Normen voor testen worden vastgesteld door middel referentie naar scores van normgroepen. Dit heet standaardisatie en zorgt ervoor dat we individuele testscores op betekenisvolle wijze kunnen interpreteren. Daarnaast wordt het nut van een testscore bepaald door de consistentie (betrouwbaarheid) van de test. Een normgroep bestaat uit een steekproef van deelnemers die representatief zijn voor de populatie waarvoor de test bedoeld is.

Ruwe scores

De ruwe score is het meest elementaire niveau van informatie die geleverd wordt door een psychologische test (bijvoorbeeld het aantal juist ingevulde antwoorden). Ruwe scores op zich zijn betekenisloos; pas in referentie met normen krijgen de scores betekenis. Bijna alle psychologische testen worden geïnterpreteerd door middel van normen, hoewel er ook andersoortige testen bestaan (zoals criterion-referenced testen).

Essentiële statistische concepten

Frequentieverdelingen

De enorme hoeveelheid data die voortkomt uit het afnemen van testen moet als eerste worden samengevat. Een simpele manier om dit te doen is het opstellen van een frequentieverdeling. Hierbij worden klasse-intervallen (bijvoorbeeld 1-3) opgesteld, waarna voor elk interval de frequentie van de scores die binnen dat interval vallen worden aangegeven. Een histogram is een grafiek waarin de informatie van de frequentieverdeling kan worden weergegeven door middel van kolommen. Een soortgelijke grafiek is een frequentiepolygoon (lijndiagram), alleen worden hierbij de frequenties met een enkele lijn aangegeven in plaats van met kolommen.

Maat van centrale tendens

Om een enkele, representatieve score te verkrijgen hebben we een maat van de centrale tendens nodig. Mogelijke maten zijn het gemiddelde (optellen van de scores gedeeld door N), de mediaan (de middelste score als alle scores gerangschikt zijn) en de modus (de score die het vaakst voorkomt).

Maten van variabiliteit

Om de mate en wijze van spreiding van de scores te kunnen omschrijven, wordt meestal de standaarddeviatie (s) gebruikt. Als de waarde van de standaarddeviatie laag is, zijn de scores dicht opeengepakt rond een centrale waarde. Als de scores zich meer uitspreiden wordt de waarde van de standaarddeviatie groter. De standaarddeviatie is de wortel van de variantie (s2). De formule voor de variantie is: .

De normale verdeling

Als er getest wordt met een grotere steekproef vormen de scores vaak een normale verdeling, waarbij de grafiek een klokvormig, symmetrisch uiterlijk heeft. In de psychologie wordt de voorkeur gegeven aan normale verdelingen boven andere typen verdelingen om verschillende redenen. Ten eerste hebben normaalverdelingen bruikbare wiskundige kenmerken die de basis vormen voor verschillende soorten statistisch onderzoek. Daarnaast zijn normaalverdelingen precies gedefinieerd, waardoor het mogelijk het percentage scores dat binnen een bepaald bereik valt nauwkeurig te weten. Ten slotte vormt de normale verdeling zich in veel gevallen op natuurlijke wijze, bijvoorbeeld in het geval van veel menselijke fysieke en mentale kenmerken.

Scheefheid (skewness)

Scheefheid duidt op de mate van symmetrie of asymmetrie van een frequentieverdeling. Als veel scores aan het lage einde van de schaal vallen, is de verdeling rechts-scheef (positively skewed) en als er veel scores aan het hoge einde van de schaal vallen, is de verdeling links-scheef (negatively skewed). Een scheve verdeling betekent vaak dat er te weinig makkelijke of te weinig moeilijke items in de test zitten.

Transformatie van ruwe scores

Percentielen

Een percentiel drukt het percentage personen in de standaardisatiesteekproef uit die onder een bepaalde ruwe score hebben gescoord. Dit wordt genoteerd als P94 (bij bijvoorbeeld een ruwe score van 25 die overeenkomt met het percentiel van 94). Percentielen kunnen ook worden gezien als rangordes in een groep van 100 representatieve deelnemers, met PR1 aan de onderkant van de steekproef en PR99 aan de bovenkant van de steekproef. Een percentiel van 50 (P50) komt overeen met de mediaan, P25 met het eerste kwartiel (Q1) en P75 met het derde kwartiel (Q3).

Standaardscores

De standaardscore (ook wel z-score genoemd) drukt de afstand van het gemiddelde uit in eenheden van standaarddeviatie. Een ruwe score die precies één standaarddeviatie van het gemiddelde ligt heeft de standaardscore +1.00. Standaardscores hebben, in tegenstelling tot percentielen, de gewenste psychometrische eigenschap dat ze de relatieve grootheden van afstanden tussen opeenvolgende waarden van de ruwe scores behouden. Een ander voordeel van de standaardscore is dat het mogelijk is resultaten op verschillende testen met elkaar te vergelijken door middel van een gemeenschappelijke schaal. Hierbij geldt echter wel dat de verdelingen van de te vergelijken testen dezelfde vorm moeten hebben.

T-scores

Gestandaardiseerde scores zijn conceptueel gezien identiek aan standaardscores, met als verschil dat gestandaardiseerde scores altijd uitgedrukt worden in hele positieve getallen. Een populair type gestandaardiseerde score is de T-score. Deze heeft een gemiddelde van 50 en een standaarddeviatie van 10. De T-score is in feite een transformatie van de z-score, en kan dus als volgt berekend worden: .

Normaliseren van standaardscores

Zoals eerder gezegd geven testontwikkelaars de voorkeur aan normale verdelingen. In het geval van een asymmetrische verdeling kan deze genormaliseerd worden. Hierbij wordt het percentiel voor elke ruwe score gebruikt om de overeenkomende standaardscore vast te stellen. Als dit voor elk geval gedaan wordt, zal de uiteindelijke verdeling normaal verdeeld zijn. Er zit een groot nadeel vast aan het normaliseren van niet-normale verdelingen, namelijk dat wiskundige relaties bij de ruwe scores mogelijk niet geldig zijn voor de genormaliseerde standaardscores. In de praktijk worden genormaliseerde standaardscores zelden gebruikt.

Stanines, Stens, en C-schaal

De stanineschaal werd ontwikkeld gedurende WOII. Hierbij worden alle ruwe scores omgezet naar een single-digit systeem van scores met een bereik van 1-9. Het gemiddelde van staninescores is altijd 5 en de standaarddeviatie ongeveer 2. Variaties op de stanineschaal zijn de sten schaal (10 eenheden) en de C –schaal (11 eenheden).

Het selecteren van een normgroep

Bij het uitkiezen van een normgroep probeert men een representatieve doorsnede te verkrijgen uit de populatie waar de test voor is bedoeld. De eenvoudigste manier om dit te doen is simple random sampling, waarbij elk lid van de populatie evenveel kans heeft om gekozen te worden. Dit werkt echter vaak niet in de praktijk omdat niet elk lid van de populatie bereikbaar of beschikbaar is voor deelname aan de test. Een andere manier is stratified random sampling. Hierbij wordt de populatie geclassificeerd aan de hand van belangrijke achtergrondvariabelen (e.g. leeftijd of geslacht), waarna er random een bepaald percentage uit elke klasse wordt getrokken.

Leeftijds- en graadsnormen

Een leeftijdsnorm geeft het niveau van testprestatie weer voor elke aparte leeftijdscategorie in de normatieve steekproef. Deelnemers worden dan vergeleken met hun eigen leeftijdsgenoten. Een graadsnorm geeft het niveau van testprestatie weer voor elk apart schooljaar (bijvoorbeeld, groep 5 van de basisschool) in de normatieve steekproef.

Lokale en groepsnormen

Lokale normen worden afgeleid van representatieve lokale deelnemers, in tegenstelling tot een nationale steekproef. Subgroepnormen bestaan uit de scores verkregen uit een bepaalde subgroep (bijvoorbeeld vrouwen of Turkse immigranten).

Verwachtingstabel

Een verwachtingstabel laat de gevestigde relatie zien tussen testscores en verwachte uitkomst op een bepaalde taak. Bijvoorbeeld, een verwachtingstabel zou de relatie tussen scores op het eindexamen (voorspeller) en latere universiteitscijfer (criterium) kunnen laten zien. Bij het gebruik van een verwachtingstabel moet altijd goed in de gaten worden gehouden of voorwaarden of regels omtrent de voorspeller of het criterium gelijk zijn gebleven.

Criterion-referenced testen

Waar norm-referenced testen bedoeld zijn om deelnemers te classificeren op een continuüm van vaardigheid of prestatie, zijn criterion-referenced testen bedoeld om de resultaten van deelnemers te vergelijken met een vooraf vastgelegde prestatiestandaard. Dit soort testen worden vaak in het onderwijs gebruikt. De inhoud van criterion-referenced testen wordt bepaald aan de hand van de relevantie voor het curriculum. Dit in tegenstelling tot norm-referenced testen, waarbij de inhoud op zodanige wijze wordt vastgesteld dat er zo goed mogelijk onderscheid kan worden gemaakt tussen de deelnemers.

Onderwerp 3B: Concepten van betrouwbaarheid

Betrouwbaarheid verwijst naar de mate van consistentie in meting op een continuüm van minimale consistentie (bijv. reactietijd) tot bijna perfecte herhaalbaarheid van resultaten (bijv. een weegschaal).

Klassieke testtheorie

De klassieke testtheorie vormde de basis voor testontwikkeling gedurende de twintigste eeuw. Het alternatief, de item-responstheorie, wordt aan het eind van dit hoofdstuk besproken. De klassieke testtheorie gaat er vanuit dat test scores voortkomen uit twee factoren: factoren die bijdragen aan consistentie (de stabiele trekken van het individu) en factoren die bijdragen aan inconsistentie (karakteristieken of omstandigheden die niks te maken hebben met de trek die gemeten wordt). In een formule ziet dat er zo uit: , waarbij T staat voor de ware score en e voor de meetfout. De meetfout is datgene wat bij testen zoveel mogelijk geminimaliseerd moet worden.

Bronnen van meetfout

Meetfout kan voortkomen uit heel veel verschillende bronnen; hier worden alleen de belangrijkste besproken. Itemselectie kan zorgen voor meetfout; omdat de selectie altijd slechts een steekproef is van alle mogelijke items. Testafname kan een bron voor meetfout vormen omdat het nooit helemaal mogelijk is om identieke testsituaties te creëren bij verschillende deelnemers; denk bijvoorbeeld aan achtergrondgeluid, temperatuur, licht, fluctuaties in de stemming van de deelnemer, etc. Testscoring kan soms een bron voor meetfout zijn als er subjectieve scoringssystemen worden gehanteerd, zoals bij projectieve testen of essayvragen. Bovenstaande bronnen worden samen beschreven als niet-systematische meetfout, wat betekent dat de effecten ervan onvoorspelbaar en inconsistent zijn. Systematische meetfout daarentegen ontstaat als de test per ongeluk iets anders meet dan het kenmerk waar de test voor bedoeld was.

Meetfout en betrouwbaarheid

Een hogere mate aan meetfout vermindert de betrouwbaarheid van psychologische testresultaten. Betrouwbaarheid en meetfout zijn in feite verschillende manieren om uit te drukken hoe consistent een test is. Een cruciale aanname van de klassieke testtheorie is dat niet-systematische meetfouten optreden als random invloeden (onbedoelde achtergrondgeluiden, per ongeluk zien van een antwoord, etc.). Omdat dit random gebeurtenissen zijn, zullen onsystematische meetfouten ongeveer in dezelfde mate positief en negatief zijn en over een grote groep deelnemers dus ongeveer middelen naar nul. Dat onsystematische meetfouten random zijn betekent daarnaast ook dat ze geen correlatie hebben met zowel de ware score en meetfouten op andere testen. Uit de klassieke testtheorie kan daarom worden afgeleid dat de variantie van de verkregen scores simpelweg de variantie van de ware scores plus de variantie van meetfouten is. In formulevorm wordt dat: .

De betrouwbaarheidscoëfficiënt

De betrouwbaarheidscoëfficiënt (rxx) is de ratio van de variantie van de ware score tot de totale variantie van de testscores, oftewel: . De betrouwbaarheidscoëfficiënt kan een waarde aannemen tussen 0 (compleet onbetrouwbaar) en 1 (compleet betrouwbaar). Hieronder wordt op meer praktische wijze uitgelegd hoe deze coëfficiënt wordt berekend.

De correlatiecoëfficiënt

De correlatiecoëfficiënt (r) drukt in zijn meest gebruikte toepassing de mate van lineaire relatie uit tussen twee scoresets verkregen door dezelfde persoon. De coëfficiënt kan hierbij een waarde aannemen van -1.00 (perfecte negatieve correlatie), via 0.00 (geen correlatie) tot +1.00 (perfecte positieve correlatie). Negatieve of positieve correlatie met dezelfde waarde drukken dezelfde mate van correlatie uit; of dit negatief of positief is hangt af van de manier waarop één van de twee variabelen gescoord is.

De correlatiecoëfficiënt als betrouwbaarheidscoëfficiënt

Als testresultaten in hoge mate consistent zijn, zouden de scores van personen die dezelfde test op twee gelegenheden maken sterk gecorreleerd zijn. In deze zin is de correlatiecoëfficiënt ook een betrouwbaarheidscoëfficiënt. Dit hertesten van dezelfde (groepen) personen als methode voor het vaststellen van betrouwbaarheid is één van de vele beschikbare methodes, waarvan er hieronder een aantal zullen worden uitgelegd.

Betrouwbaarheid als temporele stabiliteit

Test-hertestbetrouwbaarheid

Zoals net gezegd is de meest simpele methode voor het schatten van de betrouwbaarheid het hertesten van personen. Hoe hoger de correlatie is tussen de eerste en tweede score van dezelfde persoon op dezelfde test, hoe hoger de betrouwbaarheid. Acceptabele betrouwbaarheidscoëfficiënten vallen meestal tussen de 0.80 en de 0.90.

Alternatieve versies-betrouwbaarheid

Soms produceren testontwikkelaars twee verschillende versies van een test, die dan allebei bij dezelfde groep worden afgenomen. De betrouwbaarheid is dan hoger naarmate de correlatie tussen scores op dezelfde test hoger is. Dit lijkt op test-hertestbetrouwbaarheid, met het belangrijke verschil dat er nu ook sprake is van item-sampling verschillen als bron voor foutvariantie. Bovendien is het erg kostbaar om alternatieve versies te ontwikkelen.

Betrouwbaarheid als interne consistentie

Split-halfbetrouwbaarheid

Hierbij worden scores van dezelfde persoon op equivalente helften van een test met elkaar gecorreleerd. Dit werkt volgens hetzelfde principe als de test-hertestbetrouwbaarheid, hoewel er vaak hogere schattingen van betrouwbaarheid uit voortkomen. Het is echter wel goedkoper dan test-hertestbetrouwbaarheid en er is geen sprake van oefeneffecten. Aan de andere kant is het vaak moeilijk om de test in equivalente helften te verdelen. Om split-halfbetrouwbaarheid te verkrijgen moet niet alleen de Pearson r berekend worden; deze moet ook aangepast worden door middel van de Spearman-Brown formule.

De Spearman-Brown formule

Bovenstaande methode levert een schatting van betrouwbaarheid voor een half zo korte test als de originele test. Omdat kortere testen in het algemeen minder betrouwbaar zijn als langere testen, moet de coëfficiënt aangepast worden. Voor de formule van de Spearman-Brown, zie p. 95 van het boek. Ondanks het wijdverspreide gebruik van de split-halfmethode, wordt deze vaak bekritiseerd om het gebrek aan precisie.

Coëfficiënt alpa

De coëfficiënt alpha (ook wel Crohnbach’s alpha) kan gezien worden als het gemiddelde van alle mogelijke split-halfcoëfficiënten, gecorrigeerd door de Spearman-Brownformule. De coëfficiënt alpha is een index voor de interne consistentie van de items. Hoewel dit een waardevolle benadering is voor betrouwbaarheid, is het geen vervanging voor de test-hertestbenadering.

De Kuder-Richardson schatting van betrouwbaarheid

Crohnbach’s alpha is een algemenere toepassing van de eerder ontwikkelde Kuder-Richardson formule 20 (KR-20). Deze is van toepassing in gevallen waar elk testitem als 0 of 1 gescoord wordt (oftewel; correct of incorrect).

Interbeoordelaarsbetrouwbaarheid

Bij testen waarbij het oordeel van degene die de test beoordeelt een grote factor is bij de betrouwbaarheid van de test is het belangrijk om de interbeoordelaarsbetrouwbaarheid te berekenen. Bij deze methode worden scores die verschillende beoordelaars aan dezelfde test (afgenomen bij dezelfde persoon) met elkaar gecorreleerd.

Welk type betrouwbaarheid is toepasselijk?

Om te bepalen welk type betrouwbaarheidsschatting het meest toepasselijk is, is het belangrijk het karakter en doel van de test vast te stellen. Zo is bij testen die temporele betrouwbaarheid zouden moeten laten zien de test-hertestbetrouwbaarheid het meest voor de hand liggend, en bij testen die streven naar factoriale betrouwbaarheid de coëfficiënt alpha. Split-halfmethoden werken goed bij testen die items nauwkeurig hebben gerangschikt op basis van moeilijkheid. Veel testhandleidingen rapporteren meerdere bronnen van informatie over betrouwbaarheid.

Itemresponstheorie

Vanaf de jaren zestig werd er naast de klassieke testtheorie steeds meer een alternatief model in gebruik genomen: de itemresponstheorie (IRT; ook wel latente trektheorie).

Itemresponsfuncties

Een itemresponsfunctie (IRF) is een wiskundige vergelijking die de relatie beschrijft tussen de hoeveelheid latente trek die een individu bezit en de kans dat diegene een bepaald antwoord geeft op een testitem die dat construct meet. Elk individu wordt geacht een bepaalde hoeveelheid latente trek te hebben, wat direct invloed heeft op de antwoorden die diegene geeft op een test. De IRF’s voor alle items samen kan onder andere gebruikt worden om de betrouwbaarheid van de test uit te rekenen. Daarnaast kan de moeilijkheid van een item ermee uitgerekend worden; als alleen individuen met een grote hoeveelheid van de trek het item goed hebben, heeft het item een grote moeilijkheidsgraad. Daarnaast kan de mate van discriminatie van het item worden aangegeven; als mensen met verschillende hoeveelheden van de trek hetzelfde antwoord geven op het item, is er een lage mate van discriminatie.

Informatiefuncties

In de context van psychologisch meten representeert informatie het vermogen van een testitem om te differentiëren tussen mensen. Sommige items zijn bedoeld om te differentiëren tussen mensen met een laag niveau van de trek, andere om te differentiëren tussen mensen met een hoog niveau van de trek. Testitems leveren dus verschillende niveaus van informatie voor elk niveau van de gemeten trek. Een item-informatiefunctie laat op grafische wijze de relatie tussen het trekniveau van de deelnemers en de informatie die door elk testitem geleverd wordt zien.

Invariantie bij IRT

Invariantie heeft twee gerelateerde maar aparte betekenissen binnen IRT. Ten eerste duidt het op de aanname dat de positie van een deelnemer op een continuüm van latente trek geschat kan worden op basis van de antwoorden op elke set van testitems, zoals de IRF van deze testitems bekend is. Ten tweede duidt het op de aanname dat IRF’s niet afhankelijk zijn van de kenmerken van een bepaalde populatie. De IRF voor elk item wordt dus geacht te bestaan op een abstracte, onafhankelijke en tijdloze manier. Hoewel IRT analyses meestal enorme steekproeven vereisen, is de noodzakelijke software relatief simpel en alom beschikbaar.

De nieuwe regels van meten

Een aantal conclusies van de klassieke testtheorie houden geen stand binnen het raamwerk van de IRT. Binnen de klassieke testtheorie is de mate van standaardfout bijvoorbeeld gelijk voor individuen van verschillende niveaus, terwijl binnen de IRT de mate van standaard meetfout groter is aan beide extremen van een niveau. Ook het axioma binnen klassieke testtheorie dat kortere testen altijd onbetrouwbaarder zijn dan langere testen gaat niet op binnen de IRT. Daarnaast zijn testen binnen het IRT-model beter aangepast aan computerized-adaptive testing, waarbij de items die een individu krijgt afhankelijk zijn van de antwoorden die diegene heeft ingevuld bij eerder items.

Speciale omstandigheden bij het schatten van betrouwbaarheid

Traditionele benaderingen van het schatten van betrouwbaarheid zijn misleidend of niet toepasselijk voor sommige toepassingen.

Onstabiele kenmerken

Sommige karakteristieken, zoals de galvanische huidrespons, fluctueren zo snel dat de test en hertest ervan bijna op hetzelfde moment zouden moeten plaatsvinden om iets nuttigs te kunnen zeggen over de betrouwbaarheid.

Snelheids- en krachttesten

Bij snelheidstesten kunnen de meeste items goed ingevuld worden door alle deelnemers; de score hangt dan af van de hoeveelheid items die ze afkrijgen. Bij krachttesten hebben de deelnemers genoeg tijd, maar kunnen ze niet alle items even goed beantwoorden. Een traditionele split-halfbenadering zou hierbij dus extreem hoge betrouwbaarheidscoëfficiënten opleveren.

Beperking van het bereik

Test-hertestbetrouwbaarheid zal extreem laag uitkomen als het gebaseerd is op een steekproef van homogene deelnemers waarbij er een beperking van het bereik voor het gemeten kenmerk geldt (bijvoorbeeld een intelligentietest bij universitaire studenten).

Betrouwbaarheid van criterion-referenced testen

De structuur van criterion-referenced tests (zoals eerder uitgelegd) zorgt ervoor dat de variabiliteit in scores van deelnemers minimaal is. Hierbij zijn traditionele benaderingen van betrouwbaarheid dus niet toepasselijk.

De interpretatie van betrouwbaarheidscoëfficiënten

Er is geen standaardantwoord op de vraag wat een acceptabel niveau van betrouwbaarheid is. Er is enige consensus dat een erg accurate meting van individuele verschillen een betrouwbaarheid boven de 0.90 moet hebben. Testen met een betrouwbaarheid van 0.70 blijken echter vaak toch ook nuttig te zijn.

Betrouwbaarheid en de standaard meetfout

Stel dat een persoon dezelfde IQ-test oneindig vaak zou doen. De verdeling van al deze scores zou dan een normale verdeling zijn, met het gemiddelde als de ware score voor deze persoon. De standaarddeviatie van deze verdeling zou dan de standaard meetfout zijn.

Wat is het belang van validiteit en testontwikkeling bij het doen van assessments? - Chapter 4

Wat is het belang van validiteit en testontwikkeling bij het doen van assessments? - Chapter 4

Onderwerp 4A: Basisconcepten van validiteit

De meerwaarde van een test wordt naast door de betrouwbaarheid bepaald door de validiteit. De validiteit van een test is de mate waarin het meet wat het beweert te meten. Betrouwbaarheid is noodzakelijk voor validiteit, maar geen garantie ervoor.

Validiteit: een definitie

De definitie van validiteit volgens de Standards for Educational and Psychological Testing luidt als volgt: een test is valide in overeenstemming met de mate waarin er inferenties uiit kunnen worden gemaakt die toepasselijk, betekenisvol en bruikbaar zijn. Het is niet mogelijk om de validiteit van een test samen te vatten in een enkele statistische eenheid; hiervoor zijn verschillende onderzoeken nodig. Bovendien wordt validiteit uitgedrukt op een continuüm dat reikt van zwak naar acceptabel tot sterk. Hieronder worden drie verschillende types validiteit besproken.

Inhoudsvaliditeit

Inhoudsvaliditeit duidt op de mate waarin de testitems representatief zijn voor het universum aan gedragingen waarvoor de test geacht werd een steekproef te zijn. Dit heeft niet alleen betrekking op de testitems zelf, maar ook op de steekproef van alle mogelijke antwoord(vorm)en die in de test wordt gebruikt. In veel gevallen is het niet mogelijk alle mogelijke items en antwoorden ook daadwerkelijk op te stellen. In plaats daarvan wordt er vaak een panel van experts samengesteld die de inhoudsvaliditeit beoordelen.

Kwantificatie van inhoudsvaliditeit

Voor het kwantificeren van overeenstemming tussen experts over de inhoudsvaliditeit wordt vaak een variatie op het volgende model gebruikt. De oordelen van de beoordelaars voor een bepaald item worden geclassificeerd als ‘sterke relevantie’ of ‘zwakke relevantie’. Daarna wordt gekeken of de verschillende beoordelaars dezelfde classificatie hebben voor hetzelfde item. Stel dat dit voor 80 van de 100 items het geval is, heeft de test een coëfficiënt en inhoudsvaliditeit van 0.80.

Oppervlaktevaliditeit (face validity)

Dit is eigenlijk geen vorm van validiteit, maar toch komt men dit concept tegen bij testen. Oppervlaktevaliditeit duidt op de mate waarin het er valide uitziet voor testgebruikers, testafnemers en deelnemers. Dit is belangrijk voor de mate van motivatie voor bijvoorbeeld de deelnemers, maar is dus geen officiële vorm van validiteit.

Criterium-gerelateerde validiteit

Er is sprake van criterium-gerelateerde validiteit als een test effectief blijkt te zijn in het schatten van de prestatie van een deelnemer op een bepaalde uitkomstmaat (een criterium). Bij concurrente validiteit wordt de criteriummaat op ongeveer hetzelfde moment verkregen als de test zelf. Bij voorspellende validiteit wordt de criteriummaat op een moment in de toekomst verkregen.

Karakteristieken van een goed criterium

Een criterium kan in feite van alles zijn, van ‘aantal auto-ongelukken per jaar’ tot ‘salaris op 30-jarige leeftijd’. Het criterium zelf moet echter ook betrouwbaar zijn om als bruikbare index te gelden voor wat te test meet. De correlatie tussen de test en het criterium heet een validiteitscoëfficiënt. Een ander belangrijk punt is dat het criterium vrij moet zijn van vervuiling door de test zelf; hiervan is bijvoorbeeld sprake als dezelfde items voorkomen op zowel de test als het criterium. Er is ook sprake van vervuiling als het criterium bestaat uit beoordelingen van experts die op de hoogte zijn van de testscore van de deelnemer die ze beoordelen.

Concurrente validiteit

Bij concurrente validiteit worden de testscores en criteriuminformatie tegelijkertijd verkregen. Een persoonlijkheidstest zou bijvoorbeeld concurrente validiteit bezitten als de diagnostische kwalificaties die eruit worden afgeleid overeenkomen met de meningen van psychologen of psychiaters. Correlaties tussen een nieuwe test en bestaande testen worden ook vaak gezien als bewijs voor concurrente validiteit, mits de bestaande testen op grond van real-life gedrag op validiteit zijn getest. Bovendien moet de nieuwe test hetzelfde construct meten als de bestaande tests.

Voorspellende validiteit

Bij voorspellende validiteit worden testscores gebruikt om latere uitkomstmaten te voorspellen (bijvoorbeeld een entreetoets voor een universiteit). Hiervoor is het noodzakelijk om een regressiefunctie op te stellen; deze beschrijft de best passende rechte lijn voor het voorspellen van het criterium uit de test.

Validiteitscoëfficiënt en de standaardfout van schattingen

De meest populaire benadering om de relatie tussen testscores en het criterium uit te drukken is door middel van de validiteitscoëfficiënt (de correlatie tussen test en criterium). De standaardfout van de schatting (SEest) is de foutmarge die verwacht wordt bij de voorspelde criteriumscore. Met behulp van deze foutmarge kan de mate van voorspellende accuraatheid bepaald worden.

Beslissingstheorie toegepast op psychologische testen

De beslissingstheorie stelt dat het doel van psychologisch testen niet het meten per se is maar meten in dienst van besluitvorming. Dit geldt vooral in de context van voorspellende validiteitsstudies; bijvoorbeeld bij entreetoetsen voor een opleiding of baan of een psychologische test aan de hand waarvan iemand aan een behandeling wordt toegewezen.

Bij het hanteren van een selectietest zijn er verschillende uitkomsten. Diegenen die door de test voorspeld worden om te falen of slagen (in bijvoorbeeld een studie) en dat ook daadwerkelijk doen worden beschreven als hits. Diegenen die voorspeld werden te slagen maar uiteindelijk falen worden false positives genoemd, en mensen die voorspeld werden te falen maar uiteindelijk slagen worden false negatives genoemd. Uit deze ratio’s kan dan de hit rate berekend worden. Voorstanders van de beslissingstheorie gaan er vanuit dat de waarde van diverse uitkomsten van een selectietest kan worden uitgedrukt op een (bijvoorbeeld financiële) schaal. De meest succesvolle strategie bij institutionele selectiebeslissingen is dan ook maximalisatie; het toepassen van de strategie die de gemiddelde winst op de schaal over een groot aantal soortgelijke beslissingen maximaliseert.

Constructvaliditeit

Het laatste type validiteit wordt constructvaliditeit genoemd. Een construct is een theoretische kwaliteit of trek waar mensen in verschillen. Testen die een construct meten moeten een schatting maken van het bestaan van dat onderliggende kenmerk, gebaseerd op een beperkte steekproef van gedrag. Voor psychologische constructen is het niet mogelijk een enkele externe referentie vast te stellen om het bestaan van het construct te valideren. Op basis van onze theorie over een bepaald construct is het echter mogelijk om bepaalde voorspellingen te doen met betrekking tot het construct. Veel psychometristen zien constructvaliditeit als het verenigende concept voor alle andere typen van validiteitsbewijs.

Benaderingen van constructvaliditeit

Hieronder worden een aantal bronnen van bewijs voor constructvaliditeit besproken.

Testhomogeniteit

Als een test een enkel construct meet, zouden de items ervan homogeen, oftewel intern consistent, moeten zijn. Een veelgebruikte methode om homogeniteit te meten is om elk testitem te correleren met de totale score. Items met hoge correlatie worden dan geselecteerd voor de uiteindelijke test.

Toepasselijke ontwikkelingen

Van veel constructen kan worden aangenomen dat ze bepaalde leeftijd gerelateerde veranderingen laten zien gedurende de levensloop. Een test voor vocabulaire met constructvaliditeit zou dus verbetering in testscores laten zien gedurende de (vroege) ontwikkeling.

Theorie-consistente groepsverschillen

Een andere manier om de validiteit van een instrument te bepalen is te laten zien dat mensen met verschillende achtergronden verschillend scoren op een test. Bij een test voor altruïsme zouden mensen die geacht worden een hoge mate van altruïsme te bezitten (bijvoorbeeld nonnen), ook daadwerkelijk hoger moeten scoren dan mensen die geacht worden een lagere mate van altruïsme te bezitten (bijvoorbeeld criminelen).

Theorie-consistente interventie-effecten

Een andere benadering van constructvaliditeit is om te laten zien dat testscores veranderen in de gepaste richting en hoeveelheid als reactie op geplande of ongeplande interventies.

Convergente en discriminante validiteit

Er is sprake van convergente validiteit als een test hoge correlatie vertoont met andere variabelen of testen die overlappen qua constructen. Er is sprake van discriminante validiteit als een test niet correleert met variabelen of testen waar deze van zou moeten verschillen. Campbell en Fiske (1959) stelden de multitrait-multimethod matrix voor, een systematisch experimenteel design waarmee tegelijkertijd de convergente en discriminantie validiteit van een psychologische test bevestigd kon worden (zie pag. 122 van het boek voor een voorbeeld).

Factoranalyse

Factoranalyse is een methode om het minimum aantal bepalers (factoren) te identificeren die benodigd zijn om de onderlinge correlaties tussen een set van testen te kunnen uitleggen. Vaak wordt een factoranalyse uitgevoerd door een set van testen bij honderden deelnemers afte nemen en daarna een correlatiematrix te construeren van de scores van alle mogelijke testparen. Een factorlading beschrijft de correlatie tussen een individuele test en een enkele factor. Zie voor een voorbeeld van een tabel met factorladingen p. 124 van het boek.

Classificatie-accuraatheid

Voor testen die bedoeld zijn om deelnemers te screenen die aan bepaalde diagnostische criteria voldoen is accuraatheid van classificatie een noodzakelijke index van validiteit. Hierbij zijn twee psychometrische kenmerken van belang: gevoeligheid en specificiteit. Gevoeligheid heeft betrekking op het accuraat identificeren van patiënten die een bepaald syndroom hebben. Specificiteit heeft betrekking op de accurate identificatie van gezonde patiënten. Deze concepten zijn vooral relevant bij dichotome diagnostische situaties waarbij individuen verondersteld worden of wél het syndroom te hebben of niet. Dit soort screeningtesten leveren vaak een cutoff score om mogelijke gevallen van het syndroom te identificeren. De specificiteit en sensitiviteit wordt vaak bepaald door de testresultaten te vergelijken met onafhankelijke, uitgebreide evaluaties (bijvoorbeeld door psychologen). Het is vaak moeilijk om een goede balans tussen sensitiviteit en specificiteit te creëren omdat het kiezen van een cutoff score die de sensitiviteit verhoogt de specificiteit verlaagt en vice versa.

Extravaliditeit en het vergrote bereik van testvaliditeit

Kwesties rondom extravaliditeit hebben te maken met bijeffecten en onbedoelde consequenties van testen.

Onbedoelde bijeffecten van testen

De testafnemer moet altijd vaststellen of de voordelen van het afnemen van een test opwegen tegen de kosten van mogelijke bijeffecten. Deze bijeffecten kunnen bijvoorbeeld draaien om de oordelen die anderen hebben over het individu die een bepaalde testscore heeft behaald of een bepaalde diagnose heeft gekregen. Ook kunnen de individuen zelf zich anders gaan gedragen. Ook kunnen uitkomsten van diagnostische test door onwetende leidinggevenden op een verkeerde manier worden geïnterpreteerd, waardoor (toekomstige) werknemers verkeerd gelabeld worden. Dit geldt bijvoorbeeld ook in het rechtssysteem.

Het vergrote bereik van testvaliditeit

Om bovenstaande redenen zijn er tegenwoordig voorstanders om de definitie van testvaliditeit uit te breiden voorbij ‘dat het meet wat het hoort te meten’. Sommige psychometristen stellen voor om de definitie te hanteren dat een test valide is als deze het doel dient waarvoor het gebruikt wordt. Het functionalistische perspectief ziet testvaliditeit als een algehele evaluatieve beoordeling van de geschiktheid en gepastheid van de inferenties en de handelingen die uit testscores voortkomen.

Utiliteit

Ten slotte is het concept van testutiliteit belangrijk, oftewel of een test in betere uitkomsten resulteert voor patiënten of efficiëntere levering van diensten. Helaas is er weinig onderzoek beschikbaar wat betreft de utiliteit van psychologische testen.

Onderwerp 4B: Testconstructie

Testconstructie bestaat uit zes onderling verweven fases: het definiëren van de test, het selecteren van een schalingsmethode, het construeren van de items, het testen van de items, het herzien van de test en het publiceren van de test. Hieronder worden deze fases besproken.

Het definiëren van de test

Om een nieuwe test te ontwikkelen moet de ontwikkelaar een duidelijk idee hebben van wat de test zou moeten meten en hoe deze verschilt van bestaande instrumenten. Met de enorme hoeveelheden psychologische en andersoortige testen die beschikbaar zijn, is het de plicht van de testontwikkelaar om het doel en de noodzaak voor een test duidelijk te beschrijven.

Het selecteren van een schalingsmethode

De methode die gekozen wordt voor schaling van de test bepaalt de regels aan de hand waarvan nummers worden toegekend aan bepaalde testantwoorden. Verschillende schalingsmethoden zijn geschikt voor verschillende trekken. Hieronder worden achtereenvolgens meetniveaus en schalingsmethoden besproken.

Meetniveaus

Bij een nominale schaal dienen nummers alleen als namen voor categorieën (bijvoorbeeld 1=man, 2= vrouw). Bij een ordinale schaal is er sprake van een vorm van ordening of rangschikking zonder informatie over de relatieve sterkte van de rangordes of de afstanden daartussen. Een intervalschaal levert informatie over rangschikking en een manier om de verschillen tussen rangordes te bepalen. Hierbij kan men de assumptie maken dat de intervallen tussen de punten op de schaal ongeveer gelijk zijn (het verschil tussen punt 1 en 2 is even groot als dat tussen 5 en 6). Een ratioschaal heeft alle kenmerken van een intervalschaal, maar heeft daarnaast ook een conceptueel betekenisvol nulpunt, waar er een complete afwezigheid is van het kenmerk dat wordt gemeten. In de psychologie zijn ratioschalen zeldzaam; iemand heeft namelijk bijna nooit nul intelligentie of een ander kenmerk. De meeste psychologische testinstrumenten worden geacht ongeveer aan interval-niveau van meting te voldoen.

Representatieve schalingsmethodes

Expert rangordes

Een mogelijke schalingsmethode is het vragen aan een panel van experts te vragen om een lijst van gedragingen op te stellen die horen bij verschillende niveaus van een bepaald kenmerk of een bepaalde toestand. Dit is een simpele methode waarbij meestal geen intervalniveau kan worden bereikt.

De methode van gelijk lijkende intervallen

Bij deze methode worden eerst een aantal items opgesteld die positieve of negatieve attitudes over een bepaald onderwerp weerspiegelen. Vervolgens beoordelen experts de mate waarin items positief of negatief zijn, waarvan dan per item het gemiddelde genomen wordt. Ambigue items (die een hoge standaarddeviatie hebben), worden verwijderd. De testscore van deelnemers wordt dan bepaald door de schaalwaarde van items waar de deelnemer het mee eens is te middelen.

De methode van absolute schaling

Deze procedure is bedoeld voor het verkrijgen van een maat van absolute itemmoeilijkheid gebaseerd op de resultaten voor verschillende leeftijdsgroepen van deelnemers. De analyse die hieruit voortkomt wordt tegenwoordig gebruikt als basis voor het laten vallen van overbodige testitems (oftewel, van een gelijke moeilijkheidsgraad) en het toevoegen van andere items die het lagere of hogere bereik van moeilijkheid testen.

Likert-schalen

Likert-schalen geven de deelnemers vijf keuzes gerangschikt op een continuüm van mee eens / niet mee eens. De vijf keuzes krijgen een numerieke waarde toegekend, waarna de totale schaalscore wordt berekend door de scores voor individuele items op te tellen.

Gutmann-schalen

Gutmann-schalen gaan er vanuit dat deelnemers die het met een bepaald statement eens zijn het ook eens zijn met mildere statements met betrekking tot hetzelfde onderliggende continuum.

De methode van empirisch labelen

Bij deze methode worden testitems enkel geselecteerd op basis van empirische overwegingen (en niet op theoretische overwegingen of expertise); oftewel op hoe goed ze een criteriumgroep onderscheiden van een normatieve steekproef. Zo worden bijvoorbeeld de items gekozen die een depressieve steekproef het beste onderscheiden van een normatieve steekproef.

Rationele schaalconstructie (interne consistentie)

De benadering van de methode van rationele schaling is dat alle schaalitems positief correleren met elkaar en met de totale score voor de schaal. Items met zwakke of negatieve correlaties worden verwijderd. Deze methode zegt echter nog niets over betrouwbaarheid of validiteit van de schaal.

Het construeren van de items

Bij het construeren van testitems komen een aantal factoren kijken, die hieronder besproken worden.

Initiële vragen bij testconstructie

Het eerste wat bepaald moet worden is of de inhoud van de testitems homogeen of heterogeen moet zijn. Dit hangt af van de manier waarop de testontwikkelaar het nieuwe instrument heeft gedefinieerd. Ten tweede moet het bereik van itemmoeilijkheid voldoende zijn voor betekenisvolle differentiatie van deelnemers aan beide extremen. Hierbij moeten vloereffecten (als teveel deelnemers scoren aan het lage uiteinde van de schaal) en plaffondeffecten (als teveel deelnemers scoren aan het hoge uiteinde van de schaal.

Specificatietabel

Voor de ontwikkeling van een test krijgen itemschrijvers vaak een specificatietabel aangeleverd, die de inhoud en de cognitieve processen beschrijft waarop de deelnemers worden getest. De cognitieve processen kunnen bijvoorbeeld simpele terughaling, inductief redeneren of syllogistisch redeneren zijn.

Itemformat

Bij het selecteren van een itemformat zijn er enorm veel verschillende keuzes mogelijk, zoals multiple-choice antwoorden, matching-vragen, waar-of-onwaar vragen of een gedwongen keuze methode (bijv.: hou je meer van paardrijden of volleybal?).

Testen van de items

Omdat veel items van de originele itempool uiteindelijk verwijderd worden, beginnen veel testontwikkelaars met een overbodig hoog aantal items. Door middel van itemanalyse, een set van statistische procedures, worden de uiteindelijke items geselecteerd.

De itemmoeilijkheidsindex

De itemmoeilijkheidsindex wordt bepaald door de proportie deelnemers in een grote try-out steekproef die dat item goed heeft. Een moeilijkheidsniveau dat tussen de 0.3 en 0.7 ligt maximaliseert de informatie die de test levert over verschillen tussen deelnemers. Dit verschilt echter per test; bij waar-of-onwaar vragen moet een gokcorrectie in acht worden genomen. Bij testen waarbij een extreme groep moet worden geselecteerd ligt het optimale moeilijkheidsniveau hoger.

Itembetrouwbaarheidsindex

De interne consistentie van een test wordt getest door individuele items te correleren met de totale score. Omdat dit verschillende type scores zijn (individuele items zijn goed of fout, de totale score is een continue score), moet er een speciaal type statistiek worden toegepast: de punt-biseriële correlatiecoëfficiënt. Daarnaast moet de variabiliteit berekend worden zoals geïndexeerd door de standaarddeviatie van elk item. De berekening van het product van deze twee indexen heet de item-betrouwbaarheidsindex.

Item-validiteitsindex

De item-validiteitsindex bestaat uit het product van de punt-biseriële correlatiecoëfficiënt tussen de itemscore en de score op de criteriumvariabele en de standaarddeviatie.

Itemkarakteristieke grafiek

De itemkarakteristieke grafiek (item-characteristic curve, ICC) is een grafische weergave van de relatie tussen de kans op correct antwoord en de positie van de deelnemer op het onderliggende kenmerk dat door de test gemeten wordt. Er zijn verschillende ICC-modellen, waarvan de simpelste het Rasch Model is. De gewenste vorm van de ICC hangt af van het doel van de test. Icc’s zijn nuttig voor het identificeren van items die verschillende resultaten opleveren voor subgroepen deelnemers (bijvoorbeeld mannen en vrouwen). De onderliggende theorie van de ICC is de itemresponsstheorie.

Itemdiscriminatie-index

Zoals eerder uitgelegd onderscheidt een effectief testitem de hoge en lage scorers op de gehele test. Als de ICC een positief is en een ogive (normale) vorm heeft, heeft het item vaak veel discriminatoire kracht. Dit is echter geen objectieve maatstaf. Een itemdiscriminatie-index is een statistische index voor hoe efficiënt een item discrimineert tussen hoge en lage scores. De formule voor deze index luidt als volgt: , waarbij U het aantal deelnemers is in het hoogste bereik dat het item correct beantwoordt, L is het aantal deelnemers in het laagste bereik dat het item correct beantwoordt en N is het totale aantal deelnemers in het laagste of hoogste bereik. De index d kan een waarde aannemen van -1.0 tot +1.0, waarbij een negatieve score reden is tot herziening van het item; hierbij hebben immers meer deelnemers in het laagste bereik het item goed dan deelnemers in het hoogste bereik. Een score bij 0 betekent dat een item geen discriminatoire waarde heeft. Hoe positiever d is, hoe beter het item discrimineert.

Het herzien van de test

Na de itemanalyse is het tijd om te test te herzien. Na deze eerste herziening heeft de test vaak meer discriminerede items met hogere betrouwbaarheid en betere voorspellende nauwkeurigheid. Hierna herhaalt het proces zich tot er geen grote veranderingen meer hoeven worden gemaakt. De volgende stap is cross-validation, waarbij de test afgenomen wordt bij een nieuwe steekproef.

Krimpen van de validiteit

Een vaak voorkomend probleem in cross-validation onderzoek is dat de test het relevante criterium minder accuraat voorspelt bij de nieuwe deelnemers dan bij de oorspronkelijke steekproef. Dit heet krimpen van de validiteit en is een onvermijdelijk deel van testontwikkeling.

Feedback van deelnemers

Feedback van deelnemers is een waardevolle bron van informatie bij testherziening, die desondanks vaak over het hoofd gezien wordt. De feedback kan worden verkregen door na de test een evaluatieformulier af te nemen.

Publiceren van de test

De laatste stap van testontwikkeling is het publiceren van de testmaterialen, een technische handleiding en een gebruikershandleiding. Bij het produceren van de testmateriaal moet worden opgelet dat dit gebruiksvriendelijk is en zo handig mogelijk voor de testleider. De technische handleiding bevat informatie over itemanalyses, schaalbetrouwbaarheid, cross-validation studies, etc. De gebruikershandleiding levert instructies voor het afnemen en interpreteren van de test.

Welke theorieën over individuele intelligentie- en prestatietests zijn er? - Chapter 5

Welke theorieën over individuele intelligentie- en prestatietests zijn er? - Chapter 5

Intelligentie is een van de meest onderzochte onderwerpen in de psychologie.

Operationele definities definiëren een concept in termen van de manier waarop de test wordt gebruikt. Deze manier van definiëren is voor intelligentie niet handig. Intelligentietesten zijn ontwikkeld voor het meten van intelligentie en niet voor het definiëren ervan. Daarnaast blokkeren operationele definities het verder ontwikkelen van het begrip van de natuur van intelligentie. Een tweede probleem is dat de operationele definitie geen innovatie toelaat. De oude tests dienen als validiteitscriterium voor nieuwe tests. Er moet een correlatie tussen de oude en nieuwe tests bestaan en bij innovatie kan deze correlatie afzwakken. Daarnaast is hij volgens de operationele definitie dus niet valide.

Hoe worden 'speciale populaties' getest? - Chapter 7

Hoe worden 'speciale populaties' getest? - Chapter 7

De baby en peuter periode (voorschoolse periode) duurt van de geboorte tot ongeveer 6 jaar oud. Hierin ontwikkelen kinderen de basis reflexen en motoriek. Echter, sommige kinderen lopen hiermee achter en willen ouders graag weten hoe ver het kind achterloopt en of ook hun emotionele ontwikkeling goed verloopt. Aan de andere kant zijn er ook kinderen die juist voor lopen. Assessments voor baby’s en peuters helpen dit te onderzoeken.

Waar vinden persoonlijkheidstesten hun oorsprong? - Chapter 8

Waar vinden persoonlijkheidstesten hun oorsprong? - Chapter 8

Persoonlijkheid is een vaag begrip, maar we kunnen twee kenmerken onderscheiden. Ten eerste is elk persoon tot een bepaalde hoogte consistent, we hebben coherentie eigenschappen en actiepatronen die herhaaldelijk voorkomen en ten tweede is elk persoon onderscheidend tot een bepaalde hoogte. Persoonlijkheid beschrijft de verschillen in gedrag tussen personen en de consistentie van gedrag binnen een persoon.

Hoe gaat de assessment van normaliteit en menselijke kwaliteiten in zijn werk? - Chapter 9

Hoe gaat de assessment van normaliteit en menselijke kwaliteiten in zijn werk? - Chapter 9

Wanneer iemand de persoonlijkheid van een normaal persoon wilt onderzoeken, zijn normale persoonlijkheidstestsen geschikter dan tests die ontworpen zijn voor psychopathologie. De normale persoonlijkheidstesten richten zich op normaliteit en de sterke punten van de mens. Ze meten ook alternatieve dingen zoals de locus of control, verantwoordelijkheid, intuïtie of hechtingsstijl.

Hoe werkt neuropsychologische assessment en screening? - Chapter 10

Hoe werkt neuropsychologische assessment en screening? - Chapter 10

Het brein is het best beschermde orgaan in het lichaam. Het wordt als eerst beschermd door de schedel. Vervolgens door hersenvliezen, drie membranen die het brein en het ruggenmerg omvatten. In de hersenen zijn de ventrikels gevuld met cerebrospinaal vloeistof. Dit is een vloeistof dat constant geproduceerd en ververst wordt en dient als bescherming voor de hersenen. Het brein drijft hier letterlijk op en is daarmee beschermd tegen klappen en uitdroging. De ventrikels zijn vier holle, verbonden kamers in het midden van het brein. Het kan zijn dat de vloeistof het 3e en 4e ventrikel niet goed kan verlaten. Dit kan vanaf de geboorte het probleem zijn of zich door ziekte in de volwassenheid ontwikkelen. Dit wordt hydrocephalus of waterhoofd genoemd. De druk wordt dan te groot in het brein. Bij kinderen kan het ervoor zorgen dat de ventrikels groeien en het brein uiteindelijk tegen de schedel wordt gedrukt. Onbehandeld kan dit tot mentale retardatie of vroegtijdig overlijden leiden. Gelukkig is het goed te behandelen door de overtollige vloeistof via een shunt af te laten voeren.

Wanneer en hoe worden industriële, beroeps- en carrière assessments gedaan? - Chapter 11
Waar ligt de toekomst van psychologische testen? - Chapter 12

Waar ligt de toekomst van psychologische testen? - Chapter 12

Computers worden tegenwoordig bij bijna elk aspect van een assessment gebruikt, waaronder ook de administratie, scoring en de interpretatie van vele testen. De psycholoog kan zelfs de cliënt achter een computer zetten met als enige instructie: ‘volg de instructies’. Minuten later rolt er een gedetailleerd rapport uit met een samenvatting van de resultaten en interpretatie.

Psychological testing; History, principles and applications van Gregory - Boek & JoHo's
JoHo: bundel begrijpen

  Hoe werkt een JoHo Bundel (pagina)

 • Bundels zijn verzamelingen (vaak links) van pagina's rond een specifieke vraag of onderwerp
 • Bundels werken als navigatietool

Welke soorten bundels zijn er?

Productbundels

 • Verzekeringsbundels: verzameling van content rond verzekeringsadvies of verzekeringsaanbod
 • Abonnementsbundels: verzameling van content rond advies of services voor JoHo abonnees en donateurs
 • Shopbundels: verzameling van artikelen die besteld kunnen worden

Persoonlijke bundels

 • op vrijwel elke pagina kun je onder de 'Footprints' de 'Add to my pages' optie vinden. Daar kun je pagina's toevoegen aan je eigen verzamelingen en bundels. Deze bundels met jouw bewaarde pagina's kun je vervolgens onderaan vrijwel elke pagina terugvinden als je bent ingelogd als JoHo donateur of abonnee.

Studiehulpbundels

 • Boekbundels: verzameling van chapters die tezamen de samenvatting van een boek vormen
 • Studiebundel: verzameling van content die hoort bij een specifiek vak of een studiefase

Themabundel

 • Verzameling van content die behoort bij een topic en themapagina

Toolbundel

 • Verzameling van content gericht op een specifiek proces of actie (bijvoorbeeld een vacature zoeken of een vak bestuderen)

Toolbundel voor abonnees

 • Verzameling van content met toegang of services voor JoHo abonees
De crossroads van deze bundel
Studiebundel Pedagogiek Bachelor 1 - VU
Advies & Assortimentswijzer Pedagogiek Bachelor 1 - VU
Choice Assistance with summaries of Statistical Methods for the Social Sciences - Agresti - 5th edition
Keuzewijzer voor samenvattingen van Psychological testing; History, principles and applications - Gregory - 7e druk
Keuzewijzer voor samenvattingen van Handboek Jeugdhulpverlening Deel 1: Een orthopedagogisch perspectief op kinderen en jongeren met problemen - Grietens et al. - 1e druk
Keuzewijzer voor samenvattingen van Parenting: A Dynamic Perspective - Holden - 2e druk
Choice Assistance with summaries of Personality Psychology: Domains of Knowledge About Human Nature - Larsen et al. - 3rd edition
Choice Assistance with summaries of Research Methods in Psychology: Evaluating a World of Information - Morling - 3rd edition
Choice assistance with summaries of Writing Psychology Research Reports - Starreveld - 1st edition
Abonneebundel met online chaptersamenvattingen bij Statistical Methods for the Social Sciences - Agresti - 5e druk
Abonneebundel met online chaptersamenvattingen van Psychological testing; History, principles and applications - Gregory
Abonneebundel met online chaptersamenvattingen van Handboek Jeugdhulpverlening Deel 1: Een orthopedagogisch perspectief op kinderen en jongeren met problemen - Grietens et al. - 1e druk
Abonneebundel met online chaptersamenvattingen van Parenting: A Dynamic Perspective - Holden - 2e druk
Abonneebundel met online chaptersamenvattingen van Personality Psychology: Domains of Knowledge About Human Nature - Larsen & Buss - 2e internationale editie
Abonneebundel met online chaptersamenvattingen van Research Methods in Psychology: Evaluating a World of Information - Morling - 3e druk
Abonneebundel met online chaptersamenvattingen van Verslaglegging van Psychologisch Onderzoek - Starreveld - 4e druk
Shopbundel met geprinte samenvattingen voor Pedagogiek Bachelor 1 - VU
Studiebundel Psychologie Bachelor 1 - Semester 2 - VU
Advies & Assortimentswijzer Psychologie Bachelor 1 - Semester 2 - VU
Keuzewijzer voor samenvattingen van Psychological testing; History, principles and applications - Gregory - 7e druk
Keuzewijzer voor samenvattingen van Social Psychology - Myers et al. - 2e druk
Choice Assistance with summaries of Personality Psychology: Domains of Knowledge About Human Nature - Larsen et al. - 3rd edition
Choice Assistance with summaries of Abnormal Psychology - Nolen-Hoeksema - 7th edition
Keuzewijzer voor samenvattingen van Disorders of Childhood: development and psychopathology - Hornik Parritz & Troy - 2e druk
Abonneebundel met online chaptersamenvattingen van Psychological testing; History, principles and applications - Gregory
Abonneebundel met online chaptersamenvattingen van Social Psychology - Myers et al. - 2e druk
Abonneebundel met online chaptersamenvattingen van Personality Psychology: Domains of Knowledge About Human Nature - Larsen & Buss - 2e internationale editie
Subscriber Bundle with online chaptersummaries of Abnormal Psychology by Nolen-Hoeksema - 7th edition
Shopbundel met geprinte samenvattingen voor Psychologie Bachelor 1 - VU
Samenvattingen Shop Psychologie - VU
Toegang: tot deze pagina
 • Iedereen
Crossroad: begrijpen

 Crossroads

 • Crossroads lead you through the JoHo web of knowledge, inspiration & association
 • Use the crossroads to follow a connected direction

 

Footprint: achterlaten
Pagina bewaren in je bundels:

(Service voor ingelogde JoHo donateurs)

Footprint: begrijpen

 Footprints

 • Leave footprints on the site by adding pages to your own bundles or use the comment options
 • Check the JoHo tips and advice chapters