Als de bekende “Appel Test” van Eva in de Tuin van Eden niet meetelt, waren de Chinezen in 2200 voor Christus de eerste die echt gebruik maakten van tests. Zij testten de competentie van toekomstige overheidsfunctionarissen door hun schriftelijk te ondervragen over kennis over de wet, geografie, landbouw, en andere onderwerpen.
In de 18e en vroeg 19e eeuw was Gauss de eerste die officieel het principe van een meetfout constateerde en specifieke verdelingskenmerken rapporteerde (Gauss-curve, ofwel de normaalverdeling). In de 19e eeuw ontwikkelden psychiaters in Engeland en de Verenigde Staten classificatiesystemen om mentale problemen te groeperen. Ook promootte onder andere Kraeplin het gebruik van de vrije associatie test bij psychiatrische patiënten, een test waarbij een persoon aan de hand van een stimulus de eerste respons moet geven die hij of zij met die stimulus associeert. Een aantal psychologen die een belangrijke bijdrage hebben geleverd aan het testen van de cognitieve vaardigheden, waarbij het gebruik van objectieve procedures de belangrijkste ontwikkeling was, zijn Galton, Cattell en Wissler. Galton was de grondlegger van mentale tests: hij was de eerste die op grootschalig niveau systematisch individuele verschillen in fysieke, sensorische en motorische data verzamelde en met elkaar vergeleek. De focus lag op de correlatie van deze data met de intellectuele capaciteiten (“brass instruments era”). Samen met Cattell ontwikkelde Galton de eerste gestandaardiseerde vragenlijsten die werden gebruikt om persoonlijkheid te meten. Cattell was ook de eerste die de term “mentale test” gebruikte in een gepubliceerd artikel. Wissler weerlegde (deels onterecht) de notie dat intellectuele vaardigheden en de sensorisch-motorische data correleren: dit introduceerde een tijdperk waarin intellect gezien ging worden als een geraffineerder mentaal proces van hogere orde (zoals Binet deed).
Ook in de 20e eeuw werden veel tests ontwikkeld. Zo kwamen Binet en Simon aan het begin van de 20e eeuw met de Binet-Simon scale. Deze schaal mat intelligentie onder andere aan de hand van beredenering, begrip en het korte termijn geheugen van een persoon. De Binet-Simon scale was een goede voorspeller voor academisch succes en wordt, na enige herzieningen, nog steeds gebruikt. In de Verenigde Staten kreeg de intelligentietest een boost doordat het leger vlak voor de Eerste Wereldoorlog gebruik ging maken van Alfa (verbale) en Beta (non-verbale) bekwaamheidstaken voor rekruten. Verder ontwikkelde Woodworth in 1918 de Personal Data Sheet: de eerste formele persoonlijkheidstest. In de jaren '20 ontwikkelde Rosarch de Rosarch Inktblok Test, wat tot het begin van de 21e eeuw een van de meest gebruikte tests is. In de jaren ’30 ontwikkelde Wechsler een intelligentietest die zowel verbale als non-verbale intelligentie mat: tegenwoordig zijn de (herziene) Wechsler intelligentietests de populairste intelligentietests. De Minnesota Multiphasic Personality Inventory, oftewel de MMPI (oorspronkelijk geïntroduceerd in de jaren ’40, tegenwoordig is er een MMPI-2) vergemakkelijkt de diagnose van psychiatrische stoornissen en is nu de populairste methode om de persoonlijkheid te beoordelen.
De termen test, measurement en assessment worden vaak door elkaar gebruikt. Toch is er een wezenlijk verschil tussen de drie:
- Een test is een middel of procedure waarmee een deel van het gedrag van een persoon in kaart wordt gebracht, geëvalueerd wordt en gescoord wordt, met behulp van gestandaardiseerde procedures.
- Measurement wordt letterlijk vertaald als 'meting'. In deze samenvatting zal het woord measurement echter gebruikt worden. Bij measurement wordt er aan een aantal regels gehouden om zo kenmerken, gedrag en attributen van personen te becijferen.
- Assessment wordt letterlijk vertaald als 'vaststelling'. Omdat deze vertaling de lading van het woord niet dekt, zal in het vervolg het woord assessment worden gebruikt. Assessment is elke systematische manier waarop informatie wordt verzameld om karakteristieken van mensen of objecten te kunnen begrijpen. Bij assessment worden meerdere scores en tests gebruikt om de informatie te verzamelen.
Assessment is de term die meestal wordt gebruikt om het testen en meten van personen te weergeven: de termen measurement en testing worden minder vaak gebruikt omdat ze een negatieve lading hebben. Twee andere belangrijke termen die veel zullen terugkomen zijn betrouwbaarheid (de stabiliteit of consistentie van testscores) en validiteit (de accuraatheid van de interpretatie van testscores).
Tests
Cronbach deelde in 1990 tests op in maximale prestatie tests en typische respons tests.
Maximale prestatie tests worden gebruikt om het maximale kunnen van een persoon te meten. Een voorbeeld hiervan is een intelligentietest. Er zijn drie voornaamste indelingen:
- Ten eerste wordt er onderscheid gemaakt tussen een prestatietest of een bekwaamheidstest. Een prestatietest meet kennis van een persoon in een specifiek domein. Hierbij wordt gekeken welke kennis een persoon heeft verworven. Een bekwaamheidstest meet kennis met betrekking tot levenservaring. Bekwaamheidstests zijn goede voorspellers voor toekomstig succes.
- Daarnaast spreek je van een objectieve of een subjectieve test. Een objectieve test kan door een computer nagekeken worden omdat een vastgestelde sleutel wordt gebruikt, waardoor de manier van beoordelen altijd gelijk is. Een subjectieve test moet worden nagekeken door een persoon.
- Als laatste moeten maximale prestatie tests worden ingedeeld in speed of power tests. Een speed test bevat relatief makkelijke items en meet de snelheid waarmee een persoon de test doorloopt. Bij een power test gaat het om de moeilijkheidsgraad van de vragen die de persoon juist beantwoordt. De tijd waarin de test doorlopen wordt, is hierbij niet van belang. De meeste tests zijn echter een combinatie van een speed en power test.
Typische respons tests meten het typische gedrag van de onderzochte en worden meestal gebruikt om de persoonlijkheid te meten. Typische respons tests zijn er in verschillende vormen:
- Bij objectieve persoonlijkheidstests worden items op een objectieve manier beoordeeld door middel van een vastgestelde antwoordsleutel. Over de interpretatie van het antwoord kan niet worden gediscussieerd.
- Bij projectieve persoonlijkheidstests krijgt de persoon een onduidelijke stimulus te zien, waarop hij de eerste respons moet geven die in hem naar boven kwam. Onderzoekers denken dat op deze manier onbewuste driften naar boven komen. Projectieve persoonlijkheidstests gebruiken ongestructureerd of ambigu materiaal dat een oneindige mogelijkheid aan reacties teweeg kan brengen (“wat ziet u in deze inktvlek?) . De projectieve hypothese stelt dat het individu reageert op een manier dat haar/zijn onbewuste behoeftes en motieven reflecteert zonder interferentie van de ego of het bewuste denken.
Bij alle soorten tests kan nog onderscheid gemaakt worden tussen gestandaardiseerde en niet-gestandaardiseerde tests. Bij een gestandaardiseerde test zijn de testcondities zoveel mogelijk hetzelfde voor alle personen die de test ondergaan. Een niet-gestandaardiseerde test is minder formeel. Verder kunnen alle tests ook nog onderverdeeld worden in individuele tests of groepstests. Individuele tests zijn ontwikkeld om af te nemen bij 1 persoon per keer. Groepstests kunnen worden afgenomen bij meer dan 1 persoon per keer.
Scoring
Scores op een test kunnen op verschillende manier geïnterpreteerd worden. Normgerichte scores worden relatief geïnterpreteerd. Dit betekent dat de scores worden vergeleken met de scores van andere mensen. Criteriumgerichte scores worden vergeleken met een absolute standaard, waarbij het criterium van te voren is vastgesteld en los staat van prestaties van anderen.
- Psychologische constructen, zoals intelligentie en depressie, bestaan.
- Psychologische constructen kunnen gemeten worden.
- Het meten van constructen gebeurt nooit perfect. Er is altijd een mate van error aanwezig. Dit geldt voor metingen in alle vakgebieden (oftewel: error is inherent aan alle metingen).
- Elk construct kan op verschillende manieren gemeten worden, waarbij elke testmethode zijn voor- en nadelen heeft. Angst kan bijvoorbeeld het best gemeten worden door een combinatie van interviews en observaties.
- Belangrijke beslissingen moeten genomen worden op basis van meerdere testen. Een diagnose moet accuraat vastgesteld worden en dit mag nooit op basis van een enkele meting.
- De prestatie op tests kan gegeneraliseerd worden naar niet-geteste gedragingen.
- Testen, ook al zijn ze niet perfect, geven nuttige informatie waardoor psychologen betere beslissingen kunnen maken.
- Testen kunnen op een eerlijke manier afgenomen worden, maar er is niet één test die geheel eerlijk is voor alle participanten.
- Testen kunnen vooroordelen opleveren voor individuen en de maatschappij.
De voornaamste reden dat mensen tests gebruiken, is omdat mensen niet goed zijn in het objectief beoordelen van anderen, en de meeste metingprocedures die niet gebaseerd zijn op tests bevatten een subjectief oordeel. Testen geven ons het idee dat het ons informatie oplevert over belangrijke psychologische constructen, waardoor psychologen betere beslissingen kunnen maken.
Elk jaar worden er zo’n 20.000 nieuwe psychologische testen ontwikkeld. Hierbij moet rekening gehouden worden met richtlijnen van The Standard for Educational and Psychological Testing. Door middel van deze richtlijnen hebben participanten die deelnemen aan een test rechten met betrekking tot vertrouwelijkheid en de informatie die ze krijgen. Testen kennen verschillende toepassingen, zo kunnen ze onder andere gebruikt worden bij de diagnosestelling, het opstellen van een behandelplan, zelfreflectie, als evaluatie, bij het beslissen van het toekennen van een licentie of voor wetenschappelijke doeleinden.
Assessment ontwikkelt zich steeds verder in de 21e eeuw. Een nieuwe vorm van testen is Computerized Adaptive Testing (CAT). Hierin selecteert de computer items met een bepaalde moeilijkheidsgraad voor de participant. Deze items worden geselecteerd op basis van de prestatie van de participant op eerdere items.