Wetenschap is een benadering die gaat over de begrijpen en voorspellen en controleren van een fenomeen. Elke wetenschap heeft haar eigen interessante fenomenen. Wetenschap gaat gebruikelijk op basis van een theorie een interessant fenomeen onderzoeken. Op basis van een theorie stellen ze hypotheses op die ze gaan testen. Wetenschap probeert deze hypotheses niet te bevestigen, maar te ontkrachten. Het is de bedoeling om alle mogelijke verklaringen te elimineren, behalve de ware verklaring. Wetenschap is afhankelijk van data. Deze data moet worden verzameld in een context die afhangt van het doel van het onderzoek. Daarnaast moet wetenschap communiceerbaar, open en publiek toegankelijk zijn. Ook moeten wetenschappers objectief en onbevooroordeeld zijn.
Het verschil tussen wetenschappers en niet-wetenschappers zit hem in de methoden die ze gebruiken. De kracht van de gebruikte wetenschappelijke methoden bepalen voor een groot deel de kracht van de conclusies die uit het onderzoek getrokken kunnen worden. Een geloofwaardige theorie moet aan verschillende eisen voldoen. Zo moet een theorie onderworpen zijn aan de kritieken van andere onderzoekers in het vakgebied, de resultaten van onderzoek dat de theorie bevestigd moeten gerepliceerd kunnen worden, ook door andere onderzoekers. De theorie moet bovendien erkend worden door het vakgebied als de moeite waard en de nauwkeurigheid van de theorie moet geëvalueerd worden door onderzoeksgegevens.
Er bestaan verschillende onderzoeksdesigns. Met de keuze van een onderzoeksdesign maakt een onderzoeker ook keuzes over de plek waar het onderzoek uitgevoerd gaat worden, de gebruikte populatie en de variabelen die hij gaat meten. Grofweg gesteld kun je onderzoek in drie categorieën indelen: experimenteel onderzoek, quasi-experimenteel onderzoek en niet-experimenteel onderzoek. Een belangrijk kenmerk van experimenteel onderzoek is dat de deelnemers random worden toegewezen aan de verschillende condities. Random toewijzing is nodig om zo veel mogelijk de individuele verschillen tussen individuen te middelen over de condities. Soms is het echter niet mogelijk om de deelnemers random toe te wijzen aan verschillende condities. Als ze wel worden verdeeld over verschillende condities, maar dit niet op random wijze gebeurt, dan spreken we van quasi-experimenteel onderzoek. Bij niet experimenteel worden deelnemers niet verdeeld over verschillende condities. Experimenteel onderzoek klinkt alsof het in een laboratorium wordt uitgevoerd. En hoewel dit zeker soms het geval, is dit lang niet altijd zo. Vooral in organisatiepsychologisch onderzoek worden er ook veel experimenten uitgevoerd in het veld.
De conditie of de behandeling wordt ook wel de onafhankelijke variabele genoemd. Het gedrag dat de deelnemer vertoont naar aanleiding van de conditie of behandeling noemen we ook wel de afhankelijke variabelen. Dit is de variabele die gemeten wordt. Twee veel voorkomende vormen van niet-experimenteel onderzoek zijn observationeel onderzoek en vragenlijst onderzoek.
Bij observationeel onderzoek wordt gedrag systematisch geobserveerd en vastgelegd. Vragenlijst onderzoek kan zowel gaan om pen en papier vragenlijsten als om internetvragenlijsten. Elk onderzoeksdesign heeft zijn voor en nadelen.
Ook bestaan er verschillende methoden voor het verzamelen van data. Het belangrijkste onderscheid dat gemaakt kan worden is dat tussen kwantitatieve en kwalitatieve methoden. Onder kwantitatieve methoden vallen tests, beoordelingsschalen, vragenlijsten en dergelijke. Het komt erop neer dat de uitkomsten als cijfers gescoord kunnen worden. Kwalitatieve methoden zijn bijvoorbeeld interviews, observaties, case studies en analyses van persoonlijke documenten zoals dagboeken. De uitkomsten van kwalitatieve methoden zijn beschrijvend. Vaak gaat de voorkeur uit naar kwantitatieve methoden omdat deze gegevens makkelijker te verwerken zouden zijn. Kwantitatieve en kwalitatieve onderzoeksmethoden sluiten elkaar echter niet uit en kunnen soms goed gecombineerd worden. Vaak wordt als groot nadeel van kwalitatief onderzoek gezien dat het subjectief zou zijn. Dit is echter niet helemaal juist. Want of het nu gaat om kwalitatief of kwantitatief onderzoek gaat, er is altijd een behoorlijke rol weggelegd voor de interpretatie van de onderzoeker. In de vroege jaren van de psychologie werd introspectie gezien als het experimentele methode. De onderzoekers was ook de proefpersoon en hij of zij voerde een experimentele handeling uit en schreef zijn of haar ervaringen op. Tegenwoordig wordt dit niet als een goede methode gezien. Triangulatie wordt gezien als een goede methode voor het verzamelen van onderzoeksgegevens. Bij triangulatie komt het er op neer dat de onderzoeker gegevens uit verschillende bronnen samenbrengt om op die manier een zo compleet mogelijk beeld te krijgen van het onderzochte fenomeen.
Kwalitatief onderzoek heeft ook een belangrijk voordeel, namelijk dat het de onderzoeker helpt om de onderzoeksgegevens te zien in de context waarin het bestudeerde fenomeen plaatsvindt. Bij gedrag is het namelijk erg belangrijk om dit te zien in de context waarin het gedrag voorkomt. Om gedrag als geïsoleerd fenomeen te zien, maakt het onderzoek kunstmatig en daardoor vaak minder relevant. Bovendien kunnen de resultaten van een onderzoek een vertekend beeld geven als de context niet wordt meegenomen in de interpretatie.
Niet alle onderzoeksresultaten zijn generaliseerbaar naar andere settingen. De generaliseerbaarheid van een onderzoek is dan ook een belangrijke graadmeter voor de bruikbaarheid van een onderzoek. Er zijn verschillende factoren die invloed hebben op de generaliseerbaarheid. Een van deze factoren is de onderzoekspopulatie. Hoe representatiever de onderzoeksgroep is voor de algehele populatie die interessant is voor de onderzoekers, hoe meer kun conclusies gegeneraliseerd kunnen worden naar deze populatie. Als de gegevens verzameld worden op meerdere momenten in de tijd, vergroot dit de generaliseerbaarheid. Een andere mogelijkheid om resultaten meer generaliseerbaar te maken is om gegevens te verzamelen in verschillende representatieve settingen. Vaak moeten er echter compromissen gesloten worden als het gaat om generaliseerbaarheid omdat een onderzoek anders te lang duurt en teveel geld kost.
Veel mensen vragen zich ook af of de onderzoeken die studenten als deelnemers gebruikten wel goed generaliseerbaar zijn. Vooral studies die te maken hebben met stereotypering en werk. De sociale psychologie heeft uitgewezen dat vrouwen, ouderen en etnische minderheden strenger worden behandeld als het gaat om promoties. De meeste onderzoeken hiernaar hadden echter studenten als proefpersonen. Deze proefpersonen moesten beslissingen maken over fictieve werknemers. Sommige onderzoekers denken dat er andere uitkomsten uit zouden zijn gekomen als de onderzoekers echte managers en echte situaties bestudeerd hadden. De beslissingen van studenten hebben geen effect op de personen waar het over gaat (het zijn toch allemaal fictieve personen), hun beslissingen worden niet openbaar gemaakt en ze hoeven zich geen zorgen te maken over de consequenties van hun beslissingen. Managers moeten dit wel. Het is makkelijker om onderzoeken uit te voeren met studenten, maar het is maar de vraag of deze onderzoeker te ver van de werkelijkheid staan.
Er zijn vaak veel variabelen die invloed hebben op de afhankelijke variabele. Om deze invloed te verminderen, en dus er meer zeker van te zijn dat de veranderingen in de afhankelijke variabelen veroorzaakt worden door de manipulaties van de onafhankelijke variabele, worden deze variabelen vaak onder experimentele controle geplaatst. Dit geeft een zuiverder beeld van de veranderingen in de afhankelijke variabelen en waar deze door veroorzaakt worden, maar het geeft ook een kunstmatig beeld omdat in de echte wereld deze verstorende variabelen wel aanwezig zijn. Een andere vorm van controle is statistische controle, door het gebruik van bepaalde statistische methoden kun je namelijk ook controleren voor de invloed van bepaalde variabelen, zoals geslacht en leeftijd.
Zoals alle professies heeft ook de organisatiepsychologie haar eigen ethische richtlijnen. Het is moeilijk om richtlijnen op te stellen voor een vak dat zo divers is als organisatiepsychologie. Toch zijn er bepaalde richtlijnen die voor elke organisatiepsycholoog gelden. Hierbij kun je denken aan richtlijnen voor het gebruiken van testen, seksuele intimidatie en vertrouwelijkheid. Bovendien zijn er voor de verschillende beroepen binnen de organisatiepsychologie aparte richtlijnen die op hen van toepassing zijn. Een complicerende factor voor het opstellen van ethische richtlijnen is het feit dat ondernemingen steeds meer multicultureel worden en steeds meer ondernemingen vestigingen open in andere landen. Wat in een bepaalde cultuur een teken is van beleefdheid kan in een andere cultuur een belediging zijn, dit soort problemen maken het moeilijk een eenduidig beleid te maken.
Na het verzamelen van de data is het tijd voor de analyse hiervan. Hiervoor wordt gebruik gemaakt van statistiek. Bij beschrijvende statistiek worden de onderzoeksdata samengevat en georganiseerd. Op deze manier wordt de verdeling van scores beschreven. Scores kunnen normaal verdeeld zijn of scheef verdeeld zijn. Bij een normale verdeling liggen de meeste scores rond de gemiddelde score met een gelijkmatige spreiding van de scores naar de extremen.
Bij een scheve verdeling liggen de scores dan wel meer naar het hoge extreem dan wel naar het lage extreem qua scores. Variatie van de scores gaat over de mate waarin de scores verdeeld zijn over de mogelijke scores. Een aantal andere belangrijke begrippen zijn het gemiddelde (de som van alle scores gedeeld door het aantal scores), de mediaan (de middelste score in de verdeling) en de modus (de meest voorkomende score). De standaard deviatie is een maat die de mate waarin een score afwijkt van het gemiddeld aangeeft.
Statistiek wordt niet allen gebruikt om gegevens te beschrijven, maar ook om conclusies te trekken uit deze gegevens. Deze statistiek noemen we ook wel inferentiële statistiek. Inferentiële statistiek kan gebruikt worden om te onderzoek of groepen deelnemers van elkaar verschillen op de variabele van interesse, in sterkere mate dan op basis van toeval verwacht mag worden. De kans dat een verschil slechts gebaseerd is op toeval wordt van tevoren op een bepaalde waarde gesteld. Als na het onderzoek blijkt dat het verschil groter is dan die waarde, dan noemen we het verschil statistisch significant. Vaak wordt het significantieniveau op .01 of .05 gesteld. Dat betekent dat respectievelijk 1 op de 100 of 5 op de 100 keren het gevonden verschil slechts gebaseerd is op toeval. Hoe lager het significatieniveau, hoe groter de kans dat het gevonden verschil een werkelijk verschil is.
Let wel, ook onderzoeken die geen statistisch significante verschillen vinden kunnen voor de praktijk significant zijn. Statistische kracht, ook wel power genoemd, is de kans dat er statistisch significant verschil gevonden wordt als deze ook werkelijk bestaat. De vuistregel is dat hoe groter de steekproef, hoe sterker de power. Binnen psychologie kan dat een probleem zijn, omdat er vaak met relatief kleine steekproeven gewerkt wordt. Hierdoor wordt een verschil dat wel degelijk bestaat soms niet gevonden. Het is mogelijk om van tevoren een power niveau vast te stellen en vervolgens hierop de steekproefgrootte te baseren.
Tijdens metingen worden volgens van tevoren opgestelde regels getallen toegewezen aan de eigenschappen van individuen of objecten. Deze getallen geven weer in hoeverre de persoon of het object de eigenschap bezit. Denk bijvoorbeeld maar aan IQ-scores of scores op een vragenlijst. Met behulp van deze cijfers kunnen verbanden tussen twee variabelen berekend worden. Deze verbanden kunnen ons helpen de score op de ene variabele te voorspellen aan de hand van de andere variabele. De sterkte van het verband geven we aan met de correlatie coëfficiënt. Dit is een maat om de onderlinge, lineaire samenhang tussen twee variabelen weer te geven. Bovendien geeft de correlatie coëfficiënt informatie over de richting van het verband. De correlatie coëfficiënt heeft altijd een waarde tussen –1 en 1. Bij een coëfficiënt dicht bij de –1 spreken we van een sterk negatief verband, bij een score rond de 0 is er geen verband tussen de variabelen gevonden en een score rond +1 geeft een sterk positief verband weer.
De correlatie wordt vaak het makkelijkst duidelijk als deze grafisch wordt weergeven, dit gebeurt meestal in een scatterplot. In een scatterplot staat een regressielijn, dit is een rechte lijn die het beste past in het scatterplot (dat alle punten in het plot op of zo dicht mogelijk bij de lijn liggen. Een verband tussen twee variabelen hoeft niet perse lineair te zijn. Bij een niet-lineair verband is de correlatie coëfficiënt vaak erg laag, terwijl er zeker een verband is. Dit verband zal dan ook naar voren komen in een scatterplot. Veel variabelen kunnen niet voorspeld worden uit een enkele andere variabelen, maar hebben meerdere voorspellers. Daarvoor kunnen we de multipele correlatie coëfficiënt gebruikt. Deze maat geeft een algeheel lineair verband aan tussen verschillende variabelen en een andere variabele. Correlatie toont een samenhang aan tussen variabelen. Het zegt echter niets over oorzaak en gevolg relaties.
Vaak zijn er over een onderwerp veel verschillende onderzoeken beschikbaar die allemaal (net iets) andere resultaten gevonden hebben. Meta-analyse is een statistische methode om de resultaten van meerdere verschillende onderzoeken te combineren en te analyseren om uit dit (enorme) gegevensbestand conclusies te trekken. Meta-analyse gaat er vanuit dat gevonden scores op een variabele beïnvloed zijn door statistische artefacten. Dit zijn kenmerken van een bepaald onderzoek die de resultaten vertekenen. Omdat een meta-analyse verschillende onderzoeken met elk hun eigen artefacten combineert, kan deze controleren voor deze artefacten. Een duidelijk voorbeeld van een statistisch artefact is de steekproefgrootte. Tegenwoordig worden er steeds vaker meta-analyses uitgevoerd. Micro-onderzoek gaat over individueel gedrag, macro-onderzoek over collectief gedrag. Meso-onderzoek is er op gericht micro en macro onderzoek te combineren. Meso-onderzoek wordt ook wel multi-level of cross-level onderzoek genoemd.
De interpretatie van de onderzoeksresultaten is vaak het belangrijkste gedeelte van het onderzoek. De data vertellen een verhaal en het is de taak van de onderzoeker om dit verhaal te vertalen en te vertellen. Metingen zijn nooit volledig en nooit perfect, het is immers niet mogelijk om perfecte omstandigheden te creëren en werkelijk iedereen te testen. Wel moeten de gegevens compleet en goed genoeg zijn om er waardevolle conclusies uit te trekken.
De betrouwbaarheid is hiervoor een belangrijke maat, de betrouwbaarheid geeft de consistentie van een meting aan. Daar wordt mee bedoeld dat als gegevens betrouwbaar zijn, de gegevens ongeveer hetzelfde zouden zijn als het onderzoek op een ander moment opnieuw zou worden uitgevoerd, net als wanneer het onderzoek door iemand anders zou worden uitgevoerd. Consistentie over tijd (dus over verschillende meetmomenten) wordt weergegeven door de test-hertest betrouwbaarheid. Een andere vorm van betrouwbaarheid is de parallelle test betrouwbaarheid. Deze vorm van betrouwbaarheid kan berekend worden door een de scores van individuen op twee parallelle tests met elkaar te correleren.
De interne consistentie van een test geeft de mate weer waarin alle items van een test hetzelfde construct meten. De interne consistentie wordt weergegeven door de Cronbach’s alfa. Nog een andere vorm van betrouwbaarheid is de interbeoordelaar betrouwbaarheid. Hierbij gaat het om de mate van overeenstemming van verschillende beoordelaars, die allen hetzelfde gedrag beoordelen. Hoe hoger de overeenstemming tussen verschillende beoordelaars, hoe betrouwbaarder. Betrouwbare resultaten zijn generaliseerbaarder dan niet betrouwbare resultaten. Een test is nooit 100% betrouwbaar, dus een score van 1.00 zal eigenlijk nooit voorkomen. Afhankelijk van het onderzoek wordt een score van .70 tot .80 al gezien als betrouwbaar.
Een andere belangrijke term in deze context is validiteit. De validiteit geeft de mate aan waarin het onderzoek daadwerkelijk gemeten heeft wat het beoogd te meten. Als gegevens niet betrouwbaar zijn en/of niet valide, dan zijn er over het algemeen geen zinvolle conclusies uit te trekken. Net als bij de betrouwbaarheid, zijn er ook verschillende vormen van validiteit. Ook validiteit heeft te maken met de waarde die we kunnen hechten aan de conclusies van een onderzoek. De predictor is de test die gekozen wordt als middel om eigenschappen te meten die van belang zijn voor het maken van een beslissing. In de organisatiepsychologie heeft een dergelijke beslissing bijvoorbeeld vaak te maken met het wel of niet aannemen van een sollicitant. Deze predictor wordt gebruikt om een andere variabele te voorspellen, bijvoorbeeld succes op het werk. Het criterium is een uitkomstvariabele die bijvoorbeeld belangrijke kenmerken van een baan beschrijft. Het criterium wordt gebruikt om te bepalen of de predictor al dan niet valide is.
Criterium validiteit wordt bepaald door een testscore te correleren met een prestatiemeting. Het gaat dus om de correlatie tussen een testscore en een prestatiemeting, deze maat wordt ook wel de validiteitscoëfficiënt genoemd. Er zijn twee designs om criterium validiteit te meten. Bij het gelijktijdige validiteit design is er geen tijdsverloop tussen het verzamelen van de testscores en het verzamelen van de prestatiegegevens. Dit design wordt gebruikelijk gebruikt om huidige werknemers van een bedrijf te beoordelen, omdat het bij sollicitanten vaak niet mogelijk is om de testscore en de prestatiemeting snel achter elkaar of gelijktijdig te verzamelen omdat ze nog niet is ingewerkt. Op deze manier kunnen eigenschappen en vaardigheden worden bepaald die nieuwe werknemers moeten bezitten.
Het andere design is het predictieve validiteit design. In dit design is er wel tijdsverloop tussen het verzamelen van de testscore en het verzamelen van prestatiegegevens. In dit design worden alle sollicitanten getest voor ze aangenomen worden. Vervolgens worden sollicitanten aangenomen zonder daarbij te kijken naar hun test scores. Na een bepaalde periode wordt bij deze mensen hun prestatie gemeten. Als dan blijkt dat er een samenhang is tussen de testscores en het prestatieniveau, dan kan bij toekomstige sollicitanten deze test gebruikt worden om te bepalen welke kandidaten wel en niet geschikt zijn.
Een andere vorm van validiteit is de inhoud validiteit. Deze vorm gaat er over of een selectieprocedure een adequate afspiegeling is van de gedragingen en eigenschappen die nodig zijn voor een bepaalde functie (als voorbeeld binnen de organisatiepsychologie). De conclusie over of een selectieprocedure wel of niet adequaat is, gebeurt gebruikelijk door logische redeneren en niet zozeer door het berekenen van correlaties tussen testscores en prestatie. De derde vorm van validiteit is eigenlijk niet echt een vorm van validiteit, maar wordt wel zo genoemd. Het gaat hier om construct validiteit. Hierbij gaat het om het construct, een psychologisch concept of kenmerk. Het concept is een predictor die gemeten moet worden.
Om uitspraken te kunnen doen over de construct validiteit proberen onderzoekers te bewijzen dat hun test de bedoelde eigenschappen meet. Dit kun je bijvoorbeeld doen door aan te tonen dat de test correleert met andere test die hetzelfde construct beoogt te meten. Afhankelijk van hoe belangrijk de beslissing is die gemaakt moet worden op basis van de resultaten, hoe meer bewijs we nodig hebben dat de gegevens betrouwbaar en valide zijn. Lange tijd is criterium validiteitsonderzoek de maatstaf geweest als bewijs van validiteit. Nog steeds wordt het vaak gezien als de gouden standaard, maar tegenwoordig is er ook meer aandacht voor het belang van inhoud en construct validiteit.