Samenvattingen en studiehulp bij Multivariate Data Analysis Text Book van Leiden University - Boektool

  Tools

De hele tekst op deze pagina lezen? Alle JoHo tools gebruiken? Sluit je dan aan bij JoHo en log in!
 

Aansluiten bij JoHo als abonnee of donateur

The world of JoHo footer met landenkaart

Vaktool voor JoHo abonnees

 

Vak: Multivariate data-analyse - Universiteit Leiden

Studietools: Samenvattingen per hoofdstuk - TentamenTests per hoofdstuk

Mededelingen en laatste stand van tool, wijzer, vak of boek

Samenvattingen Tools

Gepubliceerd

  • Literatuursamenvatting van Multivariate Data Analysis Text Book van Leiden University

 

Test Tools

Gepubliceerd

  • TentamenTests van Multivariate Data Analysis Text Book van Leiden University

 

Tools in Print

Gepubliceerd

  • Literatuursamenvatting & TentamenTests van Multivariate Data Analysis Text Book van Leiden University

 

Samenvattingen bij de voorgeschreven boekhoofdstukken

Samenvattingen per hoofdstuk bij Multivariate Data Analysis Text Book van Leiden University - Bundel

Samenvattingen per hoofdstuk bij Multivariate Data Analysis Text Book van Leiden University - Bundel

Welke analysemethode kan er voor verscheidene problemen worden gebruikt? - Chapter 0
Hoe werkt de multipele regressieanalyse MRA? - Chapter 1

Hoe werkt de multipele regressieanalyse MRA? - Chapter 1

Pearson correlaties geven de relatie tussen twee variabelen weer, in de vorm van een ‘sign’ (positief of negatief) en de sterkte van de relatie. Een positieve correlatie betekent dat wanneer de ene variabele stijgt, de andere dat ook doet. Negatief betekent dat de waarden in tegenovergestelde richting veranderen. Wanneer we echter twee of meer intervalvariabelen hebben en één van deze variabelen (afhankelijke variable Y) willen voorspellen aan de hand van de andere variabelen (onafhankelijke variabelen X1 t/m Xk), kunnen we regressie-analyse gebruiken. In dat geval hebben we een formule nodig voor de meest optimale voorspelling.

Waarom wordt regressie gebruikt?

Het grootste verschil tussen regressie-analyse en Pearson correlaties is de asymmetrie: het voorspellen van Y aan de hand van X levert andere resultaten op dan het voorspellen van X met behulp van Y. Een tweede reden om regressie te gebruiken is het kunnen controleren of de geobserveerde waarden consistent zijn met een causale verklaring door de onderzoeker. Het gebruiken van regressie zegt echter niks over de correctheid van zulke causale modellen.

Waaruit bestaat de simpele regressieanalyse?

De algemene formule voor een simpele regressie is Y = b0 + b1X + e, waarbij Y staat voor de afhankelijke variabele en X voor de onafhankelijke variabele. De parameters die geschat moeten worden heten de intercept (b0) en het regressiegewicht (b1). De error (e) is het verschil tussen de geschatte en daadwerkelijke waarde van Y. De relatie tussen X en Y kan ook grafisch worden weergegeven. De meest gebruikte methode om een optimale voorspelling te kunnen maken is de least squares methode. Bij deze methoden worden de parameters gekozen op zo’n manier dat de som van de gekwadrateerde voorspelde errors zo klein mogelijk is.

Wat wordt bedoeld met regressie naar het gemiddelde?

De ruwe scores van X en Y kunnen worden omgezet naar (gestandaardiseerde) z-scores. Deze scores bevinden zich altijd tussen de -1 en +1, en het gemiddelde is altijd 0. In dat geval kan er sprake zijn van regressie naar het gemiddelde: de voorspelde waarde van Y ligt altijd dichterbij het gemiddelde dan de corresponderende waarde van X. Regressie naar het gemiddelde is een belangrijke eigenschap van numerieke series afkomstig van variabelen die geen perfecte lineaire relatie met elkaar hebben. Substantiële uitspraken over de werkelijkheid die afgeleid zijn vanuit regressie hoeven niet daadwerkelijk te kloppen. In de empirische werkelijkheid kunnen er fenomenen zijn die ervoor zorgen dat de waarden dichter bij of juist verder van het gemiddelde komen te liggen. Met dit soort empirische wetenschap houden statistici zich echter niet bezig.

Wat is een multipele regressieanalyse?

Het voorspellen en verklaren van (causale) relaties kan ook belangrijk zijn als er meer dan twee variabelen zijn. Het gebruik van multipele regressie heeft op dit gebied drie voordelen boven het gebruik van Pearson correlaties.

In de eerste plaats geeft het ons informatie over de optimale voorspelling van Y aan de hand van een combinatie van X-variabelen. Daarnaast kunnen we vaststellen hoe goed onze voorspelling is, door te kijken wat de totale bijdrage is van de set predictors aan de voorspelling. Tenslotte kunnen we vaststellen hoe goed elke individuele predictor is, dus wat de bijdrage is van elke predictor aan de voorspelling. Het is belangrijk om op te merken dat de meest optimale predictie niet per definitie een correcte voorspelling hoeft te zijn. Het laatste voordeel kan gebruikt worden om duidelijker een causale relatie vast te stellen of te kijken of het toevoegen van een predictor toegevoegde waarde heeft.

Wat wordt verstaan onder multipele correlaties?

De multipele correlatie (R) heeft altijd een waarde tussen 0 en 1, en kan dus niet negatief zijn. R2 verwijst naar de proportie verklaarde variantie van Y, waarbij een hogere R2 wijst op een betere voorspelling. Om te corrigeren voor een overschatting van de gedeelde variantie kan gebruik gemaakt worden van de adjusted R2. De voorspellers kunnen dus gedeelde en unieke variantie hebben. Deze unieke variantie kan worden weergegeven met gekwadrateerde semi-partiële correlaties. Soms is er sprake van suppressie, waarbij de unieke bijdrage van een variabele na correctie voor een andere variabele groter is dan de bijdrage zonder correctie. In andere woorden, het echte effect van X1 op Y werd onderdrukt door de relaties van X1 en Y met X2,

Wat zijn constante en regressiegewichten?

De constante heeft over het algemeen geen intrinsieke waarde voor psychologen en is daarom moeilijk te interpreteren. Ook de interpretatie van de regressiegewichten kan problematisch zijn, omdat de meet-eenheden vaak arbitrair zijn. Dit maakt het ook lastig om te bepalen welke voorspeller het meest belangrijk is. Dit laatste probleem kan worden opgelost door het gebruiken van gestandaardiseerde regressiegewichten. Op deze manier ben je onafhankelijk van meet-eenheden en kun je verschillende voorspellers goed vergelijken. Dit heeft echter als negatieve consequentie dat je afhankelijk wordt van de standaardafwijking binnen samples, wat met name problematisch is als je verschillende studies met elkaar wilt vergelijken. Regressiegewichten zijn altijd partieel, wat betekent dat ze alleen geldig zijn zolang alle variabelen zijn meegenomen in de vergelijking, dus als er voor de effecten van alle andere variabelen gecorrigeerd wordt.

Hoe kunnen uitspraken over de populatie gedaan worden?

Tot dusver hebben we alleen gekeken naar beschrijvende statistiek. We kunnen echter ook gebruik maken van inferentiële statistiek om uitspraken te doen over de populatie waaruit de sample afkomstig is. Om te bepalen of de totale bijdrage van alle variabelen verschilt van nul kan een F-test gebruikt worden. Om vast te stellen wat de unieke bijdrage van elke predictor is kan er voor iedere voorspeller een t-test uitgevoerd worden. Hoe meer voorspellers, hoe groter de kans op type 1 fouten.

Daarom wordt de algemene F-test als een soort ‘gatekeeper’ gebruikt om te bepalen of de t-tests overwogen moeten worden.

Welke assumpties bestaan er?

Er zijn verschillende assumpties waaraan voldaan moet worden:

  1. De afhankelijke variabele moet van intervalniveau zijn; voorspellers kunnen binair of op intervalniveau zijn.

    • Het voldoen aan deze assumptie is vrijwel onmogelijk, maar belangrijk voor correcte interpretatie. Gelukkig is multipele regressie over het algemeen vrij robuust voor kleine afwijkingen van het intervalniveau.

  2. Er bestaat een lineaire relatie tussen de voorspellers (Xis) en de afhankelijke variabele.

    • Met standaard multipele regressie kunnen alleen lineaire relaties worden gevonden (en bijvoorbeeld geen curvi-lineaire relaties). Afwijkingen kunnen worden vastgesteld met een residual plot.

  3. De residuen hebben (a) een normale distributie, (b) dezelfde variantie voor alle waarden van de lineaire combinaties van voorspellers en (c) zijn onafhankelijk van elkaar.

De assumptie van normaal verdeelde residuen is niet erg belangrijk om na te gaan, omdat regressietesten robuust zijn tegen schending ervan als de sample groot genoeg is (N>100). Meestal wordt deze assumptie gecontroleerd met een histogram. De assumptie van heteroscedasticiteit (3b) moet wel gecontroleerd worden, omdat regressie niet robuust is tegen schending hiervan. Hiervoor kan gebruik gemaakt worden van een residuenplot. De laatste assumptie (onafhankelijkheid van fouten, 3c) is erg belangrijk, maar lastig te controleren. Gelukkig wordt aan deze assumptie bij de meeste onderzoeksdesigns voldaan. Het controleren van assumpties is altijd afhankelijk van het oordeel van onderzoekers en kan dus door iedereen verschillend geïnterpreteerd worden.

Wat wordt bedoeld met multicollineariteit en uitschieters?

Uitschieters zijn scores van drie of meer standaardafwijkingen boven of onder het gemiddelde. Het is belangrijk om na te gaan waarom de score van een individu een uitschieter is in de analyse. Daarnaast kunnen uitschieters een disproportionele invloed hebben op de regressiegewichten. Als je besluit om uitschieters te verwijderen uit de analyse, is het goed om hier in de rapportage duidelijk over te zijn en expliciet aan te geven waarom je hiervoor gekozen hebt.

Multicollineariteit

Er kunnen zich verschillende problemen voordoen als correlaties tussen voorspellende variabelen te sterk zijn. Soms geeft de regressie helemaal geen resultaten. In andere gevallen zijn de schattingen onbetrouwbaar of is het moeilijk om de resultaten te interpreteren. Om op multicollineariteit te controleren kun je kijken naar de tolerantie van elke voorspeller (<.10). Er zijn twee strategieën om multicollineariteit tegen te gaan. Overlap tussen variabelen kan worden toegeschreven aan een onderliggend construct of latente variabele. In dat geval kunnen de variabelen worden samengevoegd tot een enkele variabele. Een andere strategie is gebaseerd op het idee dat er sprake kan zijn van hiërarchie, wat betekent dat een aantal van de voorspellende variabelen de oorzaak vormen voor één van de andere voorspellende variabelen. Er kan dan vastgesteld worden welke voorspellers empirisch, theoretisch en/of statistisch gezien het belangrijkst zijn.

Wat wordt bedoeld met een stapsgewijze regressie?

De empirische methode wordt ook wel stapsgewijze regressie genoemd en heeft twee varianten: forward (waarbij steeds nieuwe voorspellers worden toegevoegd tot de p-waarde van een voorspeller kleiner is dan .05) en backward (waarbij alle predictors in de analyse meegenomen worden, waarna één voor één de non-significante predictors worden verwijderd). Een probleem is dat deze methoden niet altijd dezelfde resultaten geven. Bovendien kunnen bepaalde variabelen wel of niet significant worden in bepaalde stappen, omdat niet in elke stap dezelfde variabelen gebruikt worden. Stap-voor-stap benaderingen zijn erg gevoelig voor kansinvloeden. Daarnaast is het beter om variabelen te kiezen op basis van substantiële (theoretische) overwegingen. Bovenstaande procedures kunnen echter gewoon gebruikt worden als (1) voorspelling het doel is, (2) het aantal voorspellers klein is in vergelijking met het aantal mensen en (3) crossvalidatie met andere samples soortgelijke resultaten oplevert.

Wat wordt bedoeld met een hiërarchische regressie?

Soms is het beter om niet een enkele multipele regressie te doen, maar een opeenvolgende serie van regressies. Deze methode kan bijvoorbeeld gebruikt worden als variabelen pas belangrijk worden wanneer er voor andere variabelen is gecontroleerd (i.v.m. curvi-lineaire relaties, interacties en missing data). Bovendien is deze methode handig voor het testen van verschillende causale blokken.

Hoe voer je een regressieanalyse uit in SPSS?

Wanneer je een regressieanalyse uitvoert in SPSS, begin je met het controleren van uitschieters en assumpties. Vervolgens interpreteer je de multipele correlatie en gerelateerde aspecten. Tenslotte interpreteer je de regressiegewichten.

Wat is variantie analyse (ANOVA)? - Chapter 2
Wat is covariantie analyse (ANCOVA)? - Chapter 3
Hoe en wat kan er getest worden met MANOVA? - Chapter 4
Wat houden herhaalde ANOVA metingen in? - Chapter 5
Hoe wordt logistische regressie ingezet? - Chapter 6
Wat is mediatieanalyse? - Chapter 7
Wat wordt bedoeld met suppressie en wat zijn spurieuze correlaties? - Chapter 8
JoHo nieuwsupdates voor inspiratie, motivatie en nieuwe ervaringen: winter 23/24

Projecten, Studiehulp en tools:

  • Contentietools: wie in deze dagen verwonderd om zich heen kijkt kan wellicht terecht op de pagina's over tolerantie en verdraagzaamheid en over empathie en begrip, mocht dat niet voldoende helpen check dan eens de pagina over het omgaan met stress of neem de vluchtroute via activiteit en avontuur in het buitenland.
  • Competentietools: voor meer werkplezier en energie en voor betere prestaties tijdens studie of werk kan je gebruik maken van de pagina's voor vaardigheden en competenties.
  • Samenvattingen: de studiehulp voor Rechten & Juridische opleidingen is sinds de zomer van 2023 volledig te vinden op JoHo WorldSupporter.org. Voor de studies Pedagogiek en Psychologie kan je ook in 2024 nog op JoHo.org terecht.
  • Projecten: sinds het begin van 2023 is Bless the Children, samen met JoHo, weer begonnen om de slum tours nieuw leven in te blazen na de langdurige coronastop. Inmiddels draaien de sloppentours weer volop en worden er weer nieuwe tourmoeders uit deze sloppen opgeleid om de tours te gaan leiden. In het najaar van 2023 is ook een aantal grote dozen met JoHo reiskringloop materialen naar de Filipijnen verscheept. Bless the Children heeft daarmee in het net geopende kantoortje in Baseco, waar de sloppentour eindigt, een weggeef- en kringloopwinkel geopend.

Vacatures, Verzekeringe en vertrek naar buitenland:

World of JoHo:

  • Leiden: de verbouwing van het Leidse JoHo pand loopt lichte vertraging op, maar nadert het einde. Naar verwachting zullen eind februari de deuren weer geopend kunnen worden.
  • Den Haag: aangezien het monumentale JoHo pand in Den Haag door de gemeente noodgedwongen wordt afgebroken en herbouwd, zal JoHo gedurende die periode gehuisvest zijn in de Leidse vestiging.
  • Medewerkers: met name op het gebied van studiehulpcoördinatie, internationale samenwerking en internationale verzekeringen wordt nog gezocht naar versterking!

Nieuws en jaaroverzicht 2023 -2024

  

  

Tentamentraining bij de voorgeschreven literatuur

   

    

   

Shop voor prints & pickups

Samenvattingen en studiehulp per gerelateerde opleiding