Onderzoek doen - Analysefase: Hoe verwerk je kwantitatieve gegevens?

Nadat je gegevens verzameld hebt is het tijd voor de analyse van deze gegevens. Dit hoofdstuk gaat over de analyse van kwantitatieve gegevens. In wetenschappelijk onderzoek worden gegevens geanalyseerd door gebruik te maken van speciale software, zoals Excel (eventueel uitgebreid met XLstat), SPSS, STATA, S-plus, SAS, AMOS en LISREL. In dit hoofdstuk wordt gebruik gemaakt van SPSS (versie 13).

Meetniveau

Variabelen kun je weergeven met verschillende meetniveau’s die aangeven in welke mate je de waarden die aan de categorieën zijn toegekend kunt gebruiken om mee te rekenen. Er bestaan vier meetniveau’s. Van laag naar hoog (van ‘niet mee te rekenen’ tot ‘mee te rekenen’) zijn dat: nominaal, ordinaal, interval en ratio. In de analysefase is het meetniveau van je variabelen een randvoorwaarde bij het kiezen van een geschikte analysetechniek.

Nominaal

Nominale variabelen zijn opgebouwd uit losse categorieën. Tussen twee categorieën komen geen waarden voor, deze variabelen zijn discreet: ze maken geen deel uit van een glijdende schaal. Met de categorieën kan niet worden gerekend; de toegekende cijfers zijn codes. Voorbeelden zijn politieke partijen, geslacht, regio, en burgerlijke staat. Een dichotome variebele is een vorm van een nominale variabele, maar waarbij slechts twee opties bestaan. Een voorbeeld is geslacht. Deze variabelen kent slechts twee waarden: mannelijk en vrouwelijk. Een variant hierop is de dummyvariabele. Deze bestaat ook slechts uit twee categorieën: nee en ja (gecodeerd als 0 en 1). Dummyvariabelen worden gebruikt bij de beantwoording van vragen waarbij meerdere antwoorden kunnen worden gegeven.

Ordinaal

Soms zit er wel een rangorde in de waarden van een variabele, ook al kun je er niet mee rekenen. Een voorbeeld is opleidingsniveau. Deze variabelen zijn discreet (kwalitatief) en bevatten niet veel categorieën, maar vanwege de rangorde worden ze op een ander niveau gemeten: het ordinale meetniveau.

Interval

Met variabelen op intervalniveau kan gerekend worden; ze zijn kwantitatief. De intervallen tussen twee categorieën zijn gelijk, de waarden die aan de categorieën worden toegekend zijn numeriek en de waarden zijn continu; ze maken deel uit van een glijdende schaal. Er zijn twee redenen dat deze variabelen niet op het hoogste meetniveau kunnen worden gemeten: ze hebben geen ‘natuurlijk nulpunt’ en de verhoudingen tussen de waarden zijn niet gelijk. Een voorbeeld is graden Celsius. Nul graden Celsius als nulpunt is een afspraak, geen natuurlijk nulpunt. En we kunnen niet zeggen dat 20˚C twee keer zo warm is als 10˚C. In sommige gevallen kun je variabelen die een ordinaal meetniveau hebben een interval meetniveau toekennen. Een voorbeeld hiervan is het samenstellen van antwoordschalen, bijvoorbeeld van ‘helemaal mee oneens’ tot ‘helemaal mee eens’.

Ratio

Ratiovariabelen zijn numeriek (kwantitatief); er kan mee gerekend worden. Daarnaast beschikken ze over een natuurlijk nulpunt en zijn de verhoudingen tussen de waarden gelijk. Voorbeelden van ratiovariabelen zijn leeftijd in jaren, arbeidsuren, inkomen in euro’s.

Als je deze variabele gaat opdelen, bijvoorbeeld in klassen, dan verandert ook het meetniveau: van ratio naar ordinaal.

In SPSS vind je drie mogelijkheden voor het kiezen van een meetniveau: Nominal voor nominale variabelen, Ordinal voor ordinale variabelen, en Scale voor interval- en ratiovariabelen. De laatste twee niveau’s zijn samengevoegd, omdat vanaf intervalniveau dezelfde analysetechnieken mogelijk zijn.

Univariate analyses

Een beschrijving van één variabele wordt een univariate analyse genoemd. Tijdens je analyse beschrijf je je dataset, die bestaat kenmerken (variabelen) van cases (respondenten of waarnemingen). Er bestaan veel verschillende univariate analyses. Hier worden er drie beschreven.

Frequentieverdelingen

Hierin wordt weergegeven hoe vaak een categorie van een kenmerk voorkomt in relatie tot het totale aantal cases. Variabelen kun je presenteren in een frequentietabel, waarin wordt weergegeven hoe vaak een bepaalde categorie voorkomt. Je kunt dit ook relatief weergeven, door het percentage van het totaal te berekenen. Dat doe je als volgt: percentage = frequentie / totaal x 100%. Als er een waarde ontbreekt, omdat iemand is vergeten een antwoord te geven, dan kan de weergave van het percentage (‘Percent’ in SPSS) verkeerd worden weergegeven. De optie ‘Valid Percent’ in SPSS houdt hier rekening mee en geeft wel de juiste weergave.

Grafieken

Om een duidelijk beeld te geven van een kenmerk kun je gebruik maken van grafieken. De functie van een grafiek is om een kenmerk overzichtelijk weer te geven. Daarom is het niet erg nuttig om dichotome variabelen in een grafiek weer te geven; als je het percentage van de ene waarde weet, dan weet je automatisch ook het percentage van de andere waarde. De keuze voor een grafiek hangt af van wat je wilt laten zien (je doel) en van het meetniveau van de variabele.

Een cirkeldiagram, ook wel taartpuntgrafiek genoemd, laat de verhouding tussen de verschillende categorieën zien. Een cirkeldiagram is enkel geschikt voor nominale of ordinale variabelen, omdat het alleen een duidelijke weergave geeft voor een variabele met een beperkt aantal categorieën. Het is niet geschikt voor variabelen met een hoger meetniveau, vanwege de grote hoeveelheid categorieën. Denk hierbij bijvoorbeeld aan leeftijd in jaren.

Een staafdiagram kun je gebruiken voor dezelfde typen variabelen als het cirkeldiagram: een laag meetniveau, enkele categorieën en voor het weergeven van de verhoudingen. In een staafdiagram kun je makkelijk zien in welke categorie de meeste waarnemingen zijn. Elke waarde wordt weergegeven door een aparte staaf.

Een histogram laat de vorm van een verdeling zien. Het is een staafdiagram voor continue variabelen en is dan ook geschikt voor interval- en ratiovariabelen. De staven in een histogram liggen tegen elkaar aan omdat de categorieën op elkaar aansluiten. Vaak zie je een top in het midden met uitlopers naar de zijkanten. Dit wordt ook wel een ‘klokvorm’ of de ‘Gauss-kromme’ genoemd. Sommige interval- of ratiovariabelen kunnen naast in een histogram ook in een staafdiagram worden weergegeven.

Een voorbeeld is ‘aantal kinderen per gezin’, omdat er een beperkt aantal categorieën is, die wel op elkaar aansluiten. De keuze voor een staafdiagram is dan gemaakt om de aantallen goed zichtbaar met elkaar te kunnen vergelijken.

Als je geïnteresseerd bent in het verloop van een kenmerk, kun je een lijngrafiek maken van een kenmerk. Een lijngrafiek kun je gebruiken als de variabele op z’n minst op intervalniveau ligt. Het aantal categorieën is onbeperkt, en meestal groot, om een ontwikkeling bijvoorbeeld over de tijd weer te kunnen geven. Een ander type lijngrafiek is de cumulatieve lijngrafiek, waarbij de waarden bij elkaar opgeteld worden, van 0 tot 100 procent.

Een boxdiagram is een diagram die gebruik maakt van de mediaan; de middelste waarneming. Vanaf de mediaan wordt aan beide zijden de dichtsbijzijnde 25% berekend en deze vormen samen de box, die dus de 50% middelste waarnemingen bevat. De stelen die aan beide zijden uit de box steken geven de overige 25% aan weerszijden aan. Eventuele uitschieters worden daarbuiten aangegeven met sterretjes. Een boxdiagram is geschikt voor variabelen vanaf ordinaal meetniveau en laat zowel de middelste 50% alsmede de uitschieters zien.

Een spreidingsdiagram is een diagram waarin je de scores ten opzichte van elkaar kunt presenteren. In een univariaat voorbeeld kunnen de verschillende categorieën tegen de waarden voor die categorieën worden afgezet, maar meestal wordt een spreidingsdiagram gebruikt om twee variabelen tegen elkaar af te zetten, een bivariate analyse dus. Een spreidingsdiagram maken kan alleen voor variabelen met een hoog meetniveau.

Een dotplot is een andere manier om de verdeling van scores in één variabele inzichtelijk te maken. Door middel van de dotplot kun je zien of een variabele scheef verdeeld is, alsmede waar de uitschieters zitten. Dotplots kunnen gemaakt worden voor zowel categorale als continue variabelen.

Kengetallen

Met een kengetal geef je een samenvatting van kenmerken op grond van één eigenschap. Je kunt kijken naar het midden van de verdeling (het centrum), maar ook kijken naar de breedte waarover de waarnemingen zich uitstrekken (de spreiding). Er zijn dus twee soorten kengetallen: centrum- en spreidingsmaten.

De modus is de categorie van een kenmerk die het meest voorkomt en kan worden toegepast vanaf nominaal meetniveau. De modus beschrijft dus de waarde met de hoogste frequentie; het getal dat het meest voorkomt. De schrijfwijze is xmod. Soms is er meer dan één modus, er zijn bijvoorbeeld twee getallen die allebei dezelfde hoogste frequentie hebben. Dit wordt ook wel bimodaal genoemd.

De mediaan is de middelste waarneming, of de categorie die in het midden voorkomt en kan worden toegepast vanaf ordinaal meetniveau. De mediaan geeft dus precies het midden van de verdeling aan. De schrijfwijze is xmed of x.50. Je kunt de mediaan vinden door te kijken naar de cumulatieve frequentieverdeling. De waarneming, of de categorie, die in het 50e percentiel ligt is de mediane categorie.

Het gemiddelde is te verkrijgen door alle scores bij elkaar op te tellen en te delen door het aantal waarnemingen en kan worden toegepast vanaf interval niveau.

Omdat het gemiddelde pas informatie geeft als je met de getallen ook daadwerkelijk kunt rekenen wordt het ook wel het rekenkundig gemiddelde genoemd. De schrijfwijze is xgem of .

Soms hebben waarden niet allemaal hetzelfde gewicht. Denk aan de berekening van je eindcijfer voor een vak; niet alle onderdelen tellen even zwaar mee. Je berekent een zogenaamd gewogen gemiddelde door het cijfer te vermenigvuldigen met de weging en daarna te delen door het totaal van de weging.

In SPSS kun je het programma laten uitrekenen wat de centrummaten zijn. De twee meest gebruikte manieren voor univariate analyses zijn:

  • Analyze → Descriptive Statistics → Descriptives

  • Analyze → Descriptive Statistics → Frequencies


De tweede optie maakt het mogelijk de centrummaten te laten uitrekenen bij een frequentietabel.

Soms geeft een centrummaat niet genoeg informatie. Als je wilt weten tussen welke uitersten een variabele gespreid is kun je beter spreidingsmaten gebruiken.

De variatiebreedte laat met één getal het verschil tussen de minimum- en maximumscore zien, en geeft daarmee een beeld van de spreiding. Spreidingsbreedte is vooral toepasbaar bij numerieke variabelen, met interval- of ratio meetniveau.

De variantie is de gemiddelde gekwadrateerde afwijking van het gemiddelde, oftewel hoe de waarnemingen gespreid zijn rondom het gemiddelde.

De standaardafwijking is een afgeleide van de variantie en kan toegepast worden op continue variabelen; variabelen vanaf interval of ratio meetniveau. De standaardafwijking bepaalt aan de hand van de opbouw van de verdeling of dit een normale verdeling is. Een normale verdeling heeft een klokvorm (ook wel de Gauss-kromme genoemd). Om te bepalen of een op het oog lijkende normale verdeling ook echt normaal is, moet aan een aantal voorwaarden worden voldaan. Op de horizontale as zet je alle waarden van de verdeling uit, met het gemiddelde precies in het midden. Als de waarnemingen gelijkmatig verdeeld zijn over de klokvorm, dan:

  • ligt 68% van alle waarnemingen tussen het gemiddelde plus of minus 1x de standaarddeviatie,

  • ligt 95% van alle waarnemingen tussen het gemiddelde plus of minus 2x de standaarddeviatie,

  • ligt 99% van alle waarnemingen tussen het gemiddelde plus of minus 3x de standaarddeviatie.

Deze regels gelden voor elke variabele met een normale verdeling. De drie regels worden ook wel de 1-sigma, 2-sigma en 3-sigma-intervallen genoemd.

Bivariate analyses

Een beschrijving van twee variabelen wordt een bivariate analyse genoemd. Hier worden twee vormen van bivariate analyses besproken.

Kruistabellen

Een kruistabel is een frequentieverdeling van twee kenmerken tegelijkertijd. Een kruistabel bestaat uit kolommen (verticaal) en rijen (horizontaal). Het ene kenmerk wordt in de kolommen weergegeven, het andere in de rijen. Elke cel geeft dus informatie over de twee kenmerken; het aantal waarnemingen van beide kenmerken. Net als in een frequentietabel kun je de frequenties als percentage van het totaal weergeven. Dit kan op drie manieren:

  1. Als rijpercentage, de waarnemingen in relatie tot het rijtotaal.

  2. Als kolompercentage, de waarnemingen in relatie tot het kolomtotaal.

  3. Als celpercentage, de waarnemingen in relatie tot het totaal.

In SPSS kun je een kruistabel maken door te kiezen voor Analyze → Descriptive Statistics → Frequencies → Crosstabs.

Variabelen die vastliggen, zoals achtergrondkenmerken (bv. geslacht), worden onafhankelijke variabelen genoemd. Ze worden ook wel de oorzaakvariabele of predictor genoemd. De onafhankelijke variabele ligt vast, maar veroorzaakt een verandering. Deze plaats je altijd in de kolommen. Variabelen die kunnen veranderen onder invloed van andere kenmerken worden afhankelijke variabelen genoemd. Ze worden ook wel effect- of gevolgvariabele genoemd. Afhankelijke variabelen worden in de rijen geplaatst. Als je kijkt naar het effect van opleidingsniveau op inkomen, dan is opleidingsniveau de onafhankelijke variabele en inkomen de afhankelijke variabele.

Grafieken

Je kunt de gegevens van twee variabelen ook in een grafiek presenteren.

Een staafdiagram is een goede manier om de verschillende uitkomsten van twee variabelen duidelijk met elkaar te vergelijken. Dit kan op twee manieren: door aparte staven voor de twee variabelen naast elkaar te zetten (geclusterd), en door de staven voor de twee variabelen op elkaar te plaatsen (gestapeld).

In SPSS maak je dit type staafdiagrammen door te kiezen voor:

  • Graphs → Bars → Clustered → Summaries for groups of cases

  • Graphs → Bars → Stacked → Summaries for groups of cases

Een spreidingsdiagram is een grafische weergave die toegepast kan worden voor variabelen vanaf intervalniveau. Een spreidingsdiagram is geschikt voor het weergeven van verbanden tussen twee variabelen. Elk punt in het diagram geeft aan waar een waarneming is voor beide kenmerken tegelijk.

In SPSS maak je een spreidingsdiagram door te kiezen voor Graphs → Legacy dialogs → Scatter → Simple → Define. Hierna voer je de variabelen in: de onafhankelijke variabele op de horizontale x-as en de afhankelijke variabele op de verticale y-as.

Een lijngrafiek kun je goed gebruiken om ontwikkelingen in de tijd weer te geven. Tijd is dan de onafhankelijke variabele.

Kwaliteit van de analyses

Om de kwaliteit van je analyses te bepalen kijk je naar twee aspecten: de betrouwbaarheid en de validiteit van je resultaten.

De betrouwbaarheid kan gemeten worden door de betrouwbaarheidsanalyse van SPSS. Met deze test wordt de interne betrouwbaarheid van een schaal bepaald. Je controleert of alle vragen omtrent een begrip ongeveer hetzelfde meten, of de resultaten consistent zijn, en dus of de items een homogeen beeld geven. De betrouwbaarheid wordt uitgedrukt in een getal lopend van min oneindig (onbetrouwbaar) tot 1 (betrouwbaar). Het getal 0,60 (ook wel Cronbach’s alpha genoemd) wordt als grens aangehouden om te bepalen of resultaten betrouwbaar zijn. Voor psychologisch onderzoek wordt echter vaak nog een hogere grens vereist, van 0,80 tot 0,90 Cronbach’s alpha. Andere methoden om de betrouwbaarheid te meten zijn de factoranalyse en de test-hertest. Voor deze laatste methode wordt eenzelfde test twee keer afgenomen bij verschillende groepen, waarna wordt bekeken of de resultaten voldoende samenhangen.

Met validiteit wordt bedoeld of een onderzoek valide is: of de begrippen wel meten wat je wilt weten (constructvaliditeit) en of de resultaten van de analyse mogen worden gegeneraliseerd naar de populatie, dus of er geen systematische fouten zijn gemaakt. De generaliseerbaarheid van je resultaten kun je nagaan door te toetsen in hoeverre de kenmerken van de steekproef ook gelden voor de populatie. Als de kans dat gevonden afwijkingen, verschillen of samenhangen toeval zijn kleiner is dan 5 procent noemen we de gevonden resultaten significant, en mogen de resultaten gegeneraliseerd worden naar de populatie. Bij kleinere steekproeven wordt deze grens soms naar beneden gehaald: dan mag de kans op toeval bijvoorbeeld maar 2,5 of 1 procent zijn.

  Chapters 

Teksten & Informatie

JoHo: paginawijzer

JoHo 'chapter 'pagina

 

Wat vind je op een JoHo 'chapter' pagina?

  •   JoHo chapters zijn tekstblokken en hoofdstukken rond een specifieke vraag of een deelonderwerp

Crossroad: volgen

  • Via een beperkt aantal geselecteerde webpagina's kan je verder reizen op de JoHo website

Crossroad: kiezen

  • Via alle aan het chapter verbonden webpagina's kan je verder lezen in een volgend hoofdstuk of tekstonderdeel.

Footprints: bewaren

  • Je kunt deze pagina bewaren in je persoonlijke lijsten zoals: je eigen paginabundel, je to-do-list, je checklist of bijvoorbeeld je meeneem(pack)lijst. Je vindt jouw persoonlijke  lijsten onderaan vrijwel elke webpagina of op je userpage
  • Dit is een service voor JoHo donateurs en abonnees.

Abonnement: nemen

  • Hier kun je naar de pagina om je aan te sluiten bij JoHo, JoHo te steunen en zelf en volledig gebruik te kunnen maken van alle teksten en tools.

Abonnement: checken

  • Hier vind je wat jouw status is als JoHo donateur of abonnee

Prints: maken

  • Dit is een service voor wie bij JoHo is aangesloten. Wil je een tekst overzichtelijk printen, gebruik dan deze knop.
JoHo: footprint achterlaten