Hoe werkt de multipele regressieanalyse MRA? - Chapter 1

Pearson correlaties geven de relatie tussen twee variabelen weer, in de vorm van een ‘sign’ (positief of negatief) en de sterkte van de relatie. Een positieve correlatie betekent dat wanneer de ene variabele stijgt, de andere dat ook doet. Negatief betekent dat de waarden in tegenovergestelde richting veranderen. Wanneer we echter twee of meer intervalvariabelen hebben en één van deze variabelen (afhankelijke variable Y) willen voorspellen aan de hand van de andere variabelen (onafhankelijke variabelen X1 t/m Xk), kunnen we regressie-analyse gebruiken. In dat geval hebben we een formule nodig voor de meest optimale voorspelling.

Waarom wordt regressie gebruikt?

Het grootste verschil tussen regressie-analyse en Pearson correlaties is de asymmetrie: het voorspellen van Y aan de hand van X levert andere resultaten op dan het voorspellen van X met behulp van Y. Een tweede reden om regressie te gebruiken is het kunnen controleren of de geobserveerde waarden consistent zijn met een causale verklaring door de onderzoeker. Het gebruiken van regressie zegt echter niks over de correctheid van zulke causale modellen.

Waaruit bestaat de simpele regressieanalyse?

De algemene formule voor een simpele regressie is Y = b0 + b1X + e, waarbij Y staat voor de afhankelijke variabele en X voor de onafhankelijke variabele. De parameters die geschat moeten worden heten de intercept (b0) en het regressiegewicht (b1). De error (e) is het verschil tussen de geschatte en daadwerkelijke waarde van Y. De relatie tussen X en Y kan ook grafisch worden weergegeven. De meest gebruikte methode om een optimale voorspelling te kunnen maken is de least squares methode. Bij deze methoden worden de parameters gekozen op zo’n manier dat de som van de gekwadrateerde voorspelde errors zo klein mogelijk is.

Wat wordt bedoeld met regressie naar het gemiddelde?

De ruwe scores van X en Y kunnen worden omgezet naar (gestandaardiseerde) z-scores. Deze scores bevinden zich altijd tussen de -1 en +1, en het gemiddelde is altijd 0. In dat geval kan er sprake zijn van regressie naar het gemiddelde: de voorspelde waarde van Y ligt altijd dichterbij het gemiddelde dan de corresponderende waarde van X. Regressie naar het gemiddelde is een belangrijke eigenschap van numerieke series afkomstig van variabelen die geen perfecte lineaire relatie met elkaar hebben. Substantiële uitspraken over de werkelijkheid die afgeleid zijn vanuit regressie hoeven niet daadwerkelijk te kloppen. In de empirische werkelijkheid kunnen er fenomenen zijn die ervoor zorgen dat de waarden dichter bij of juist verder van het gemiddelde komen te liggen. Met dit soort empirische wetenschap houden statistici zich echter niet bezig.

Wat is een multipele regressieanalyse?

Het voorspellen en verklaren van (causale) relaties kan ook belangrijk zijn als er meer dan twee variabelen zijn. Het gebruik van multipele regressie heeft op dit gebied drie voordelen boven het gebruik van Pearson correlaties.

In de eerste plaats geeft het ons informatie over de optimale voorspelling van Y aan de hand van een combinatie van X-variabelen. Daarnaast kunnen we vaststellen hoe goed onze voorspelling is, door te kijken wat de totale bijdrage is van de set predictors aan de voorspelling. Tenslotte kunnen we vaststellen hoe goed elke individuele predictor is, dus wat de bijdrage is van elke predictor aan de voorspelling. Het is belangrijk om op te merken dat de meest optimale predictie niet per definitie een correcte voorspelling hoeft te zijn. Het laatste voordeel kan gebruikt worden om duidelijker een causale relatie vast te stellen of te kijken of het toevoegen van een predictor toegevoegde waarde heeft.

Wat wordt verstaan onder multipele correlaties?

De multipele correlatie (R) heeft altijd een waarde tussen 0 en 1, en kan dus niet negatief zijn. R2 verwijst naar de proportie verklaarde variantie van Y, waarbij een hogere R2 wijst op een betere voorspelling. Om te corrigeren voor een overschatting van de gedeelde variantie kan gebruik gemaakt worden van de adjusted R2. De voorspellers kunnen dus gedeelde en unieke variantie hebben. Deze unieke variantie kan worden weergegeven met gekwadrateerde semi-partiële correlaties. Soms is er sprake van suppressie, waarbij de unieke bijdrage van een variabele na correctie voor een andere variabele groter is dan de bijdrage zonder correctie. In andere woorden, het echte effect van X1 op Y werd onderdrukt door de relaties van X1 en Y met X2,

Wat zijn constante en regressiegewichten?

De constante heeft over het algemeen geen intrinsieke waarde voor psychologen en is daarom moeilijk te interpreteren. Ook de interpretatie van de regressiegewichten kan problematisch zijn, omdat de meet-eenheden vaak arbitrair zijn. Dit maakt het ook lastig om te bepalen welke voorspeller het meest belangrijk is. Dit laatste probleem kan worden opgelost door het gebruiken van gestandaardiseerde regressiegewichten. Op deze manier ben je onafhankelijk van meet-eenheden en kun je verschillende voorspellers goed vergelijken. Dit heeft echter als negatieve consequentie dat je afhankelijk wordt van de standaardafwijking binnen samples, wat met name problematisch is als je verschillende studies met elkaar wilt vergelijken. Regressiegewichten zijn altijd partieel, wat betekent dat ze alleen geldig zijn zolang alle variabelen zijn meegenomen in de vergelijking, dus als er voor de effecten van alle andere variabelen gecorrigeerd wordt.

Hoe kunnen uitspraken over de populatie gedaan worden?

Tot dusver hebben we alleen gekeken naar beschrijvende statistiek. We kunnen echter ook gebruik maken van inferentiële statistiek om uitspraken te doen over de populatie waaruit de sample afkomstig is. Om te bepalen of de totale bijdrage van alle variabelen verschilt van nul kan een F-test gebruikt worden. Om vast te stellen wat de unieke bijdrage van elke predictor is kan er voor iedere voorspeller een t-test uitgevoerd worden. Hoe meer voorspellers, hoe groter de kans op type 1 fouten.

Daarom wordt de algemene F-test als een soort ‘gatekeeper’ gebruikt om te bepalen of de t-tests overwogen moeten worden.

Welke assumpties bestaan er?

Er zijn verschillende assumpties waaraan voldaan moet worden:

  1. De afhankelijke variabele moet van intervalniveau zijn; voorspellers kunnen binair of op intervalniveau zijn.

    • Het voldoen aan deze assumptie is vrijwel onmogelijk, maar belangrijk voor correcte interpretatie. Gelukkig is multipele regressie over het algemeen vrij robuust voor kleine afwijkingen van het intervalniveau.

  2. Er bestaat een lineaire relatie tussen de voorspellers (Xis) en de afhankelijke variabele.

    • Met standaard multipele regressie kunnen alleen lineaire relaties worden gevonden (en bijvoorbeeld geen curvi-lineaire relaties). Afwijkingen kunnen worden vastgesteld met een residual plot.

  3. De residuen hebben (a) een normale distributie, (b) dezelfde variantie voor alle waarden van de lineaire combinaties van voorspellers en (c) zijn onafhankelijk van elkaar.

De assumptie van normaal verdeelde residuen is niet erg belangrijk om na te gaan, omdat regressietesten robuust zijn tegen schending ervan als de sample groot genoeg is (N>100). Meestal wordt deze assumptie gecontroleerd met een histogram. De assumptie van heteroscedasticiteit (3b) moet wel gecontroleerd worden, omdat regressie niet robuust is tegen schending hiervan. Hiervoor kan gebruik gemaakt worden van een residuenplot. De laatste assumptie (onafhankelijkheid van fouten, 3c) is erg belangrijk, maar lastig te controleren. Gelukkig wordt aan deze assumptie bij de meeste onderzoeksdesigns voldaan. Het controleren van assumpties is altijd afhankelijk van het oordeel van onderzoekers en kan dus door iedereen verschillend geïnterpreteerd worden.

Wat wordt bedoeld met multicollineariteit en uitschieters?

Uitschieters zijn scores van drie of meer standaardafwijkingen boven of onder het gemiddelde. Het is belangrijk om na te gaan waarom de score van een individu een uitschieter is in de analyse. Daarnaast kunnen uitschieters een disproportionele invloed hebben op de regressiegewichten. Als je besluit om uitschieters te verwijderen uit de analyse, is het goed om hier in de rapportage duidelijk over te zijn en expliciet aan te geven waarom je hiervoor gekozen hebt.

Multicollineariteit

Er kunnen zich verschillende problemen voordoen als correlaties tussen voorspellende variabelen te sterk zijn. Soms geeft de regressie helemaal geen resultaten. In andere gevallen zijn de schattingen onbetrouwbaar of is het moeilijk om de resultaten te interpreteren. Om op multicollineariteit te controleren kun je kijken naar de tolerantie van elke voorspeller (<.10). Er zijn twee strategieën om multicollineariteit tegen te gaan. Overlap tussen variabelen kan worden toegeschreven aan een onderliggend construct of latente variabele. In dat geval kunnen de variabelen worden samengevoegd tot een enkele variabele. Een andere strategie is gebaseerd op het idee dat er sprake kan zijn van hiërarchie, wat betekent dat een aantal van de voorspellende variabelen de oorzaak vormen voor één van de andere voorspellende variabelen. Er kan dan vastgesteld worden welke voorspellers empirisch, theoretisch en/of statistisch gezien het belangrijkst zijn.

Wat wordt bedoeld met een stapsgewijze regressie?

De empirische methode wordt ook wel stapsgewijze regressie genoemd en heeft twee varianten: forward (waarbij steeds nieuwe voorspellers worden toegevoegd tot de p-waarde van een voorspeller kleiner is dan .05) en backward (waarbij alle predictors in de analyse meegenomen worden, waarna één voor één de non-significante predictors worden verwijderd). Een probleem is dat deze methoden niet altijd dezelfde resultaten geven. Bovendien kunnen bepaalde variabelen wel of niet significant worden in bepaalde stappen, omdat niet in elke stap dezelfde variabelen gebruikt worden. Stap-voor-stap benaderingen zijn erg gevoelig voor kansinvloeden. Daarnaast is het beter om variabelen te kiezen op basis van substantiële (theoretische) overwegingen. Bovenstaande procedures kunnen echter gewoon gebruikt worden als (1) voorspelling het doel is, (2) het aantal voorspellers klein is in vergelijking met het aantal mensen en (3) crossvalidatie met andere samples soortgelijke resultaten oplevert.

Wat wordt bedoeld met een hiërarchische regressie?

Soms is het beter om niet een enkele multipele regressie te doen, maar een opeenvolgende serie van regressies. Deze methode kan bijvoorbeeld gebruikt worden als variabelen pas belangrijk worden wanneer er voor andere variabelen is gecontroleerd (i.v.m. curvi-lineaire relaties, interacties en missing data). Bovendien is deze methode handig voor het testen van verschillende causale blokken.

Hoe voer je een regressieanalyse uit in SPSS?

Wanneer je een regressieanalyse uitvoert in SPSS, begin je met het controleren van uitschieters en assumpties. Vervolgens interpreteer je de multipele correlatie en gerelateerde aspecten. Tenslotte interpreteer je de regressiegewichten.

Voor toegang tot deze pagina kan je inloggen

 

Voor volledige toegang tot deze pagina kan je inloggen

 

Inloggen (als je al bij JoHo bent aangesloten)

   Aansluiten   (voor online toegang tot alle webpagina's)

 

Hoe het werkt

 

Aanmelden bij JoHo

 

 

Samenvattingen en studiehulp bij Multivariate Data Analysis Text Book van Leiden University - Boektool

Samenvattingen Tools

Gepubliceerd

  • Literatuursamenvatting van Multivariate Data Analysis Text Book van Leiden University

 

Test Tools

Gepubliceerd

  • TentamenTests van Multivariate Data Analysis Text Book van Leiden University

 

Tools in Print

Gepubliceerd

  • Literatuursamenvatting & TentamenTests van Multivariate Data Analysis Text Book van Leiden University

 
...Read more

  Chapters 

Teksten & Informatie

JoHo: paginawijzer

JoHo 'chapter 'pagina

 

Wat vind je op een JoHo 'chapter' pagina?

  •   JoHo chapters zijn tekstblokken en hoofdstukken rond een specifieke vraag of een deelonderwerp

Crossroad: volgen

  • Via een beperkt aantal geselecteerde webpagina's kan je verder reizen op de JoHo website

Crossroad: kiezen

  • Via alle aan het chapter verbonden webpagina's kan je verder lezen in een volgend hoofdstuk of tekstonderdeel.

Footprints: bewaren

  • Je kunt deze pagina bewaren in je persoonlijke lijsten zoals: je eigen paginabundel, je to-do-list, je checklist of bijvoorbeeld je meeneem(pack)lijst. Je vindt jouw persoonlijke  lijsten onderaan vrijwel elke webpagina of op je userpage
  • Dit is een service voor JoHo donateurs en abonnees.

Abonnement: nemen

  • Hier kun je naar de pagina om je aan te sluiten bij JoHo, JoHo te steunen en zelf en volledig gebruik te kunnen maken van alle teksten en tools.

Abonnement: checken

  • Hier vind je wat jouw status is als JoHo donateur of abonnee

Prints: maken

  • Dit is een service voor wie bij JoHo is aangesloten. Wil je een tekst overzichtelijk printen, gebruik dan deze knop.
JoHo: footprint achterlaten