Samenvattingen en studiehulp bij Introduction to the Practice of Statistics van Moore, McCabe & Craig - Boektool

  Tools

De hele tekst op deze pagina lezen? Alle JoHo tools gebruiken? Sluit je dan aan bij JoHo en log in!
 

Aansluiten bij JoHo als abonnee of donateur

The world of JoHo footer met landenkaart

Samenvattingen en studiehulp bij Introduction to the Practice of Statistics van Moore, McCabe & Craig

Boeksamenvattingen - TentamenTests

JoHo: crossroads via bundels
JoHo worldsupporter.org: gerelateerde samenvattingen en studiehulp

Boeksamenvatting per hoofdstuk

Samenvattingen per hoofdstuk bij de 10e druk van Introduction to the Practice of Statistics van Moore, McCabe & Craig - Bundel

Samenvattingen per hoofdstuk bij de 10e druk van Introduction to the Practice of Statistics van Moore, McCabe & Craig - Bundel

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics

Online summaries and study assistance with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig

Prints & Pickup with Introduction to the Practice of Statistics

Related content on joho.org

Wat zijn distributies? - Chapter 1

Wat zijn distributies? - Chapter 1

In dit hoofdstuk staan distributies centraal. Een distributie beschrijft de verdeling van een variabele. Het vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen. Distributies kunnen numeriek worden beschreven met bijvoorbeeld een gemiddelde of een mediaan. Ook worden in dit hoofdstuk diverse manieren beschreven waarop je distributies grafisch kunt weergeven, bijvoorbeeld via een histogram of een boxplot.


Hoe leer je van data?

Statistiek is de wetenschap van kennis opdoen op basis van data. Data zijn numerieke (of kwalitatieve) beschrijvingen en gegevens van objecten om te bestuderen. Dit eerste deel gaat in op het omgaan met data. Eerst wordt ingegaan op de verschillende soorten data die we kunnen verzamelen en hoe datasets georganiseerd zijn. Daarna wordt aandacht besteed aan het verwerken van data door naar grafieken te kijken. Grafieken zijn nuttig omdat ze een visueel beeld geven, waarmee patronen in data kunnen worden ontdekt. De volgende stap in het proces van leren van data is het berekenen van numerieke samenvattingen. Hiermee kunnen patronen in de distributie van data worden beschreven. Tot slot maken we de overstap van data samenvattingen naar statistische modellen. Hier wordt uitgelegd wat dichtheidscurves zijn en wordt de normaalverdeling geïntroduceerd. Deze verdelingen spelen een cruciale rol in methoden om conclusies te trekken uit verschillende datasets.

Wat is een dataset?

Statistische analyse start met een dataset. Een dataset is een geordende 'bak' met data. 

  • Data bestaat uit numerieke waarden. 
  • Een dataset wordt geconstrueerd door te bepalen welke cases (of units) we willen bestuderen. Voor elke case verzamelen we informatie over eigenschappen die variabelen genoemd worden.
  • Cases zijn de objecten die beschreven worden door een dataset. Dit kunnen klanten, bedrijven, proefpersonen of andere objecten zijn.
  • Een label is een speciale variabele die gebruikt wordt in sommige datasets om verschillende cases van elkaar te onderscheiden.
  • Een variabele is een eigenschap van een case.
  • Verschillende cases kunnen verschillende waarden hebben op de variabelen.
  • Een categorische variabele plaatst een individu in één of van de twee of meer groepen of categorieën. Een voorbeeld is sekse.
  • Een kwantitatieve variabele heeft numerieke waarden waarmee gerekend kan worden. Een voorbeeld is lengte: iemand van twee meter is twee keer zo lang als iemand van één meter.
  • Een distributie van een variabele vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen.
  • We gebruiken de term units of measurement (meeteenheden) om te verwijzen naar de manier waarop een variabele gemeten wordt. Tijd wordt bijvoorbeeld in uren, minuten of seconden gemeten, de lengte van een kind in meters of centimeters. Deze meeteenheden zijn een belangrijk deel van de beschrijving van een kwantitatieve variabele.

Wat zijn de belangrijkste eigenschappen van een dataset?

Bij elke dataset hoort bepaalde achtergrondinformatie die helpt bij het interpreteren van de data. Denk hierbij aan de volgende punten:

  • Wie? Welke cases beschrijven de data? Hoe veel van deze cases bevat de dataset?
  • Wat? Hoe veel variabelen bevat de data? Wat zijn de precieze definities van die variabelen? Wat zijn de meeteenheden voor elke kwantitatieve variabele?
  • Waarom? Welk doel hebben de data? Hopen we een specifieke vraag te kunnen beantwoorden? Willen we conclusies trekken over cases waarover we geen data hebben? Zijn de gebruikte variabelen geschikt voor het beoogde doel?

Voor het verwerken van de data kan een spreadsheet worden gebruikt. Dit kan bijvoorbeeld in Excel. Het is belangrijk om bij de variabele-namen spaties te vermijden, omdat deze in sommige statistische software niet toegestaan zijn. In plaats van een spatie kan een underscore ( _ ) gebruikt worden.

Wanneer we een variabele geschikt willen maken om mee te rekenen, kunnen we de variabele transformeren. Zo kunnen de letter beoordelingen uit het Amerikaanse schoolsysteem omgezet worden in cijfers (A=4, B=3, etc.). Dit kan alleen wanneer het verschil tussen A en B even groot is als bijvoorbeeld het verschil tussen C en D.

Een onderdeel van het goed worden in statistiek is weten welke variabelen belangrijk zijn en hoe deze het beste gemeten kunnen worden. Voor verschillende soorten variabelen kunnen verschillende instrumenten nodig zijn om metingen te verrichten. Bijvoorbeeld een ademtest voor het meten van longcapaciteit, en een enquête om persoonlijkheid te testen. Vaak is voor details van bepaalde metingen kennis nodig van het specifieke studieveld. Zorg er in ieder geval voor dat elke variabele echt meet wat jij wilt dat hij meet. Een slechte keuze van variabelen kan leiden tot misleidende conclusies.

Hoe kun je distributies grafisch weergeven?

Wat is verkennende data-analyse?

Verkennende data-analyse (exploratory data analysis) houdt in dat de belangrijkste kenmerken van een dataset worden beschreven. De volgende twee strategieën kunnen in dit verband gebruikt worden:

  • Onderzoek elke variabele eerst afzonderlijk. Pas daarna dient gekeken te worden naar de relatie tussen de variabelen.
  • Geef grafisch de waarden van variabelen weer. Daarna kunnen numerieke samenvattingen gemaakt worden van deze waarden.

De waarden van een categorische variabele zijn labels voor de categorieën, zoals ‘vrouw’ en ‘man’. De distributie van een categorische variabele laat zien hoeveel van de onderzochte mensen een bepaalde waarde heeft gescoord (count). Dit kan ook door middel van percentages vermeld worden.

Welke diagrammen voor categorische variabelen zijn er?

Een distributie kan grafisch weergegeven worden door een:

  • Staafdiagram (bar graph): De hoogtes van de staven zegt iets over hoe vaak bepaalde waarden voorkomen. De frequenties staan op de y-as en de lengtes van de staven dienen daar dan ook mee te corresponderen.
  • Cirkeldiagram (pie chart): Hiermee kun je bijvoorbeeld meteen zien of er meer mannen dan vrouwen hebben meegedaan aan een onderzoek. Omdat cirkeldiagrammen geen gebruik maken van schalen, worden hoeveelheden door middel van percentages uitgedrukt. Voor cirkeldiagrammen is het nodig dat alle categorieën, waaruit het geheel bestaat, worden toegevoegd.

Staafdiagrammen zijn makkelijker te interpreteren en zijn ook flexibeler dan cirkeldiagrammen. Ze kunnen allebei gebruikt worden wanneer je wilt dat mensen in één oogopslag kunnen zien hoe het zit met frequenties van waarden van een variabele.

Welke diagrammen voor kwantitatieve variabelen zijn er?

Stam-en-bladdiagram

Een stam-en-bladdiagram (stemplot) geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn). Om een stam-en-bladdiagram te maken, dienen de volgende stappen uitgevoerd te worden:

  • Allereerst moet elke waarde opgedeeld worden in een stam en een blad. De stam is het eerste cijfer en het blad is het laatste cijfer (bij het getal 35 is 3 dus de stam en 5 het blad). Stammen kunnen meerdere cijfers bevatten (bij het getal 135 is 13 de stam), maar een blad bestaat altijd uit maar één cijfer.
  • Vervolgens moeten alle stammen onder elkaar genoteerd worden. De kleinste stam moet bovenaan staan. Na dit gedaan te hebben moet een verticale lijn aan de rechterkant van de stammen getrokken worden.
  • Tot slot moet het bijbehorende blad in elke rij rechts van de stam genoteerd worden. Er moet met het kleinste blad begonnen worden.

Rug-aan-rugdiagram

Een rug-aan-rugdiagram (back-to-back stemplot) is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen. Je kunt bijvoorbeeld het gewicht van mannen en vrouwen in een rug-aan-rugdiagram verwerken. De stammen van de gewichten staan dan in het midden en er worden twee lijnen (zowel links als rechts) vanaf de stammen getrokken. Aan de rechterkant kun je dan bijvoorbeeld de bladen van de vrouwen noteren, terwijl je aan de linkerkant de bladen van de mannen opschrijft.

Welke diagrammen zijn er bij een grote dataset?

Stam-en-bladdiagrammen en rug-aan-rugdiagrammen zijn niet handig wanneer er een grote dataset gebruikt wordt. Het duurt dan erg lang om elke waarde in het diagram te verwerken en dit ziet er bovendien onoverzichtelijk uit. Dit kan echter opgelost worden door het aantal stammen in een diagram te verdubbelen. Dit kan gedaan worden door:

  • Splitting each stem: Elke stam door twee te delen.
  • Trimming: Hierbij maak je de cijfers passend wanneer de geobserveerde waarden veel cijfers bevatten. Dit wordt gedaan door de laatste cijfers te verwijderen voordat een stam-en-bladdiagram gemaakt wordt.

Wat zijn histogrammen?

Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen. Je mag zelf weten hoeveel groepen je maakt, maar de groepen moeten wel van gelijke grootte zijn. Wel is het belangrijk om te weten dat de manier waarop een histogram eruit ziet kan veranderen wanneer de klassen veranderd worden. Het duurt (in vergelijking tot stam-en-bladdiagrammen) langer om histogrammen handmatig te maken. Ook komen de oorspronkelijke datawaarden niet letterlijk voor in een histogram. Dit is juist wel het geval bij stam-en-bladdiagrammen. Om een histogram te maken moeten drie stappen uitgevoerd worden:

  • Het maken van groepen. Bij een dataset met de IQ-meting van vijftig mensen kun je bijvoorbeeld intervallen maken van 75≤ IQ <85, 85 ≤ IQ <85 enz.
  • Deel de gevonden waarden in per groep. Vervolgens moet geteld worden hoe vaak waarden in een bepaalde groep vallen (frequenties). Een tabel met de frequenties die samengaan met elke groep wordt een frequentietabel genoemd.
  • Teken tot slot een histogram. Op de horizontale as (X-as) moeten in ons geval de IQ-scores staan, terwijl op de Y-as de frequenties staan. Elke staaf staat voor een groep. Er is geen ruimte tussen de staven, behalve als niemand binnen een bepaalde groep gescoord heeft. Dat is bijvoorbeeld het geval als niemand een IQ-score heeft tussen de 75 en 84.

Wat zijn de verschillen tussen histogrammen en staafdiagrammen?

Histogrammen en staafdiagrammen lijken op elkaar, maar zijn niet hetzelfde. Bij een staafdiagram staan de staven niet precies tegen elkaar aan, terwijl dit wel het geval is bij een histogram. Bij een histogram gaat het om de tellingen of percentages van verschillende waarden van een variabele. Een staafdiagram vergelijkt de grootte van verschillende items. De horizontale as van een staafdiagram hoeft geen meetschaal te hebben, maar kan bestaan uit labels. Als men wil weten hoeveel studenten er biologie, psychologie of geneeskunde studeren, dan zijn dit categorische variabelen die je op de X-as kunt zetten. In dit geval dient een staafdiagram gemaakt te worden. Als het gaat om een numerieke variabele (bijvoorbeeld IQ, lengte of gewicht), dan dient een histogram gebruikt te worden.

Staafdiagrammen zijn dus handig voor categorische variabelen, terwijl histogrammen van belang zijn voor kwantitatieve variabelen.

Wat zijn de belangrijkste kenmerken van distributies?

Nadat een dataset in een grafiek of diagram verwerkt is, moeten de belangrijkste kenmerken van de distributie onderzocht worden. Het is in dit verband van belang om te kijken naar de volgende zaken:

  • Bekijk het algemene patroon (overall pattern) en let goed op opvallende afwijkingen van het algemene patroon (deviations).
  • Ook moet gekeken worden naar de vorm (shape), het midden (center) en de spreiding (spread) binnen een dataset. Het midden van een distributie is de waarde waardoor de helft van de observaties kleiner is dan die waarde en de andere helft groter is dan die waarde. De spreiding van een distributie kan beschreven worden door naar de kleinste en grootste waarden te kijken. Bij het bekijken van de vorm is het belangrijk of er meerdere pieken in de distributie zijn. Als er sprake is van maar één piek (mode), dan noemen we de distributie unimodaal. Ook moet bekeken worden of de distributie symmetrisch is of dat er een afwijking naar links of rechts is. Een distributie is symmetrisch wanneer de waarden die kleiner en groter zijn dan het middelpunt met elkaar gespiegeld kunnen worden. Als er een afwijking naar rechts is (skewed to the right), dan is de rechterstaart (die bestaat uit grotere waarden) veel langer dan de linkerstaart (die uit kleine waarden bestaat). Lengte en IQ zijn variabelen die vaak een (ongeveer) symmetrische distributie hebben. Er zijn maar weinig mensen die extreem klein of extreem groot zijn en het gros van de mensen scoort gemiddeld. Hetzelfde geldt voor IQ-scores. Huizenprijzen hebben een distributie met een afwijking naar rechts. Veel huizen zijn ongeveer even duur, terwijl er een aantal zeer dure villa’s bestaat.
  • Een belangrijke afwijkende score is een uitbijter (outlier). Dit is een individuele score die duidelijk buiten het algemene patroon valt.

Wat zijn uitbijters?

Het vaststellen van uitbijters gaat niet volgens specifieke regels. Het gaat er juist om dat je zelf een mening vormt over welke scores als afwijkend bestempeld moeten worden. Zoek in ieder geval altijd naar waarden die duidelijk anders zijn dan de meeste waarden; het hoeft dus niet alleen te gaan om extreme observaties binnen een distributie. Daarnaast is het belangrijk om uitbijters te proberen te verklaren. Een uitbijter kan bijvoorbeeld het gevolg zijn van ongewone omstandigheden.

Wat zijn tijdplots?

Wanneer data door de tijd heen verzameld wordt, is het een goed idee om de observaties grafisch op volgorde te verwerken. Het gebruik van histogrammen en stam-en-bladdiagrammen kunnen in dit verband misleidend zijn, omdat er sprake kan zijn van systematische veranderingen door de tijd heen.

  • Een tijdplot (time plot) van een variabele geeft een grafische weergave van elke observatie in relatie tot het moment waarop deze gemeten variabele is. Tijd moet altijd op de horizontale lijn gezet worden, terwijl de gemeten variabele op de Y-as moet staan. Het verbinden van datapunten (door middel van lijnen) laat zien of er veranderingen door de tijd heen plaatsgevonden hebben. Ook kunnen op deze manier trends ontdekt worden.
  • Veel datasets zijn tijdseries (time series). Dit zijn metingen van een variabele die op verschillende momenten zijn gedaan. Denk in dit verband bijvoorbeeld aan het meten van de landelijke werkloosheid per kwartaal.
  • Een trend in een tijdserie is een aanhoudende stijging of daling op lange termijn. Een patroon dat zich in een tijdserie steeds op specifieke momenten herhaalt, wordt seizoensgerelateerde variatie (seasonal variation) genoemd. In dat geval wordt seizoensgerelateerde aanpassing (seasonal adjustment) uitgevoerd, zodat onderzoeksresultaten geen misleidend effect hebben. Dat het werkloosheidspercentage in december en januari is toegenomen, zegt niet per se dat meer mensen werkloos zijn geworden. Werkloosheidscijfers stijgen namelijk altijd in deze periode, omdat tijdelijke werkkrachten bijvoorbeeld vaak aan het eind van het jaar stoppen met werken. Rekening houden met zo een verschijnsel is een vorm van seizoensgerelateerde aanpassing.

Met welke getallen kun je distributies beschrijven?

Wat is het gemiddelde?

Een numerieke beschrijving van een distributie begint met een meting van het middelpunt. De meest bekende metingen van het middelpunt zijn het gemiddelde (the mean) en de mediaan (the median)Het gemiddelde gaat ook echt om het vinden van de gemiddelde waarde, terwijl de mediaan gaat over het vinden van de middelste waarde.

Om het gemiddelde (mean) te vinden moeten alle scores opgeteld worden en worden gedeeld door het aantal scores. Als n aantal mensen de scores x1, x2, x3, xn hebben, dan is hun gemiddelde:

Gemiddelde   = ( x1+ x2 + x3 + … +xn ) / n.

Een andere notatie is:  = 1/n Σ xi. In deze formule staat Σ als Griekse letter voor ‘alles bij elkaar optellen’.

Het nadeel van het gemiddelde is dat deze maat erg gevoelig is voor de invloed van een aantal extreme observaties. Deze extreme scores kunnen uitbijters zijn, maar dat hoeft niet. Omdat het gemiddelde wordt beïnvloed door extreme scores, zeggen we dat het gemiddelde geen robuuste maat (resistant measure) van het middelpunt is. Dat het gemiddelde geen robuuste maat is, blijkt ook uit het feit dat je alleen al één score uit de distributie kunt aanpassen om het gemiddelde te laten veranderen.

Wat is de mediaan?

De mediaan M is het letterlijke midden van een distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt. De mediaan van een distributie kan als volgt gevonden worden:

  • Zet alle scores eerst op volgorde (van klein naar groot).
  • Als het aantal observaties oneven is, dan is de mediaan precies het middelste getal. Als er bijvoorbeeld vijf getallen zijn, dan is de mediaan het derde getal. De plaats van de mediaan kan in dit geval als volgt gevonden worden: (n+1)/2. In ons voorbeeld is dat dus: (5+1)/2=3. Deze formule zegt dus niet wat de mediaan is, maar waar de mediaan zich in de reeks getallen bevindt.
  • Als het aantal observaties even is, dan is de mediaan M het gemiddelde van de twee middelste observaties in de distributie. De plaats van de mediaan wordt op dezelfde manier gevonden: M= (n+1)/2.

Wat is het verschil tussen het gemiddelde en de mediaan?

Als een distributie helemaal symmetrisch is, dan zijn de mediaan en het gemiddelde hetzelfde. In een distributie die afwijkt naar links of rechts, bevindt het gemiddelde zich meer in de staart dan de mediaan. Dit omdat het gemiddelde veel meer door extreme scores wordt beïnvloed. De staart van een distributie bestaat uit extreme scores.

Wat is spreiding (variabiliteit)?

De meest simpele numerieke beschrijving van een distributie moet bestaan uit een maat voor het middelpunt (zoals het gemiddelde en de mediaan), maar ook uit een meting van de spreiding binnen een distributie. We kunnen de spreiding van een distributie beschrijven door verschillende percentielen uit te rekenen. De mediaan deelt de distributie precies in tweeën en daarom zeggen we ook wel dat de mediaan het vijftigste percentiel is. Er is echter nog een kwartiel in de bovenste helft van de data. Er is ook een lager kwartiel in de lagere helft van de data. De kwartielen zorgen ervoor dat de data in vieren gedeeld kan worden; elk kwartiel gaat over een kwart van de data. Kwartielen kunnen als volgt berekend worden:

  • Eerst moeten alle scores van klein naar groot op volgorde gezet worden. Daarna moet de mediaan voor de hele set berekend worden.
  • Het eerste kwartiel (Q1is de mediaan van de kwart laagste scores van een distributie.
  • Het derde kwartiel (Q3is de mediaan van de kwart hoogste scores een distributie.

Het pste percentiel van een distributie is de waarde waaraan p procent van de scores gelijk is of waar p procent van de scores onder liggen.

Wat is de vijf-getallen-samenvatting?

Om een beschrijving van het middelpunt en de spreiding van een distributie te maken, is het handig om (1)de laagste score, (2) Q1 , (3) M (de mediaan), (4) Q3 en (5) de hoogste score te berekenen. Deze waarden worden bij elkaar ook wel de vijf-getallen-samenvatting genoemd. Deze vijf waarden zijn zichtbaar in een boxplot.

  • De buitenste twee randen van het doosje (box) in een boxplot staan voor Q1 en voor Q3.
  • De mediaan wordt weergegeven door de lijn midden in het doosje.
  • Twee lijnen (naar boven en naar beneden toe) vanaf het doosje laten zien wat de hoogste waarde is en wat de laagste waarde is.

Wat is de interkwartiele range?

De bekijken van de grootste en de kleinste waarde zegt in principe weinig over de spreiding binnen de data. De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range (interquartile range, IQR) genoemd en wordt als volgt berekend:

  • IQR: Q3 - Q1.
  • De IQR wordt vaak gebruikt als vuistregel om uitbijters vast te stellen. Vaak wordt een score een uitbijter genoemd als deze 1.5xIQR boven het derde kwartiel of 1.5xIQR onder het eerste kwartiel valt.

Wat zijn afwijkende distributies?

Kwartielen en de IQR worden niet beïnvloed door veranderingen in de staart van een distributie. Ze zijn dus behoorlijk robuust. Wel moet gezegd worden dat geen enkele numerieke waarde van spreiding (zoals de IQR) erg handig is om de spreiding van distributies met een afwijking (naar links of rechts) te beschrijven. De twee kanten van een afwijkende distributie hebben namelijk verschillende spreidingen en dus kan één spreidingswaarde niet toereikend zijn. Een afwijking naar links of rechts kan opgemerkt worden door te bekijken hoe ver het eerste kwartiel en de laagste score afliggen van de mediaan (linker staart) en door te kijken naar hoe ver het derde kwartiel van de hoogste score ligt (rechter staart).

Wat zijn variantie en standaarddeviatie?

Veel vaker dan de vijf-getallen-samenvatting wordt de standaarddeviatie (samen met een maat voor het middelpunt) gebruikt om een beeld van een distributie te krijgen. De standaarddeviatie meet de spreiding door te kijken naar hoe ver observaties van het gemiddelde af liggen.

  • De variantie (s²) van een dataset is het gemiddelde van de gekwadrateerde standaarddeviaties. In formulevorm is dit: s²=(x1-)²+(x2-)²+ …+(xn-)²/ n-1. Een andere juiste formule is: s²=1/n-1 Σ(xi-)². In dit verband staat n-1 voor het aantal vrijheidsgraden (degrees of freedom).
  • Om de standaarddeviatie (s) te vinden moet de wortel uit de variantie getrokken worden. Het vinden van de standaarddeviatie is vooral handig als er sprake is van normaalverdelingen. Deze distributies worden in de volgende paragraaf besproken. De standaarddeviatie wordt geprefereerd boven de variantie. Dit omdat het trekken van de wortel uit de variantie ervoor zorgt dat spreiding wordt gemeten volgens de oorspronkelijke schaal van de variabele.

De afwijkingen van het gemiddelde (xi-) laten zien in welke mate scores van het gemiddelde verschillen. Sommige van deze afwijkingen zullen positief zijn, terwijl andere afwijkingen negatief zullen zijn. De som van afwijkingen van de scores zal daarom altijd nul zijn. Om deze reden worden de afwijkingen van het gemiddelde gekwadrateerd; zo komt de berekening namelijk niet uit op nul. De variantie en de standaarddeviatie zullen groot zijn als scores erg verspreid liggen vanaf het gemiddelde.

De variantie en de standaarddeviatie zullen klein zijn wanneer de scores dichtbij het gemiddelde liggen.

Wat zijn kenmerken van de standaarddeviatie?

  • Standaarddeviatie meet de spreiding vanaf het gemiddelde en moet alleen gebruikt worden wanneer het gemiddelde (en dus niet de mediaan) als maat voor middelpunt wordt gekozen.
  • De standaarddeviatie is nul wanneer er geen spreiding in een distributie aanwezig is. Dit gebeurt alleen als alle waarden hetzelfde zijn. Als dit niet zo is, dan die standaarddeviatie groter dan nul. Hoe meer spreiding er is, hoe groter s wordt.
  • De standaarddeviatie s is, zoals het gemiddelde, niet robuust. De aanwezigheid van een paar uitbijters kan s meteen erg groot maken. De standaarddeviatie is in vergelijking met het gemiddelde zelfs gevoeliger voor extreme scores.
  • Distributies met een sterke afwijking (naar links of rechts) hebben grote standaarddeviaties. In dit geval is het niet erg handig om de standaarddeviatie uit te rekenen. De vijf-getallen-samenvatting is vaak handiger dan het gemiddelde en de standaarddeviatie wanneer een afwijkende distributie beschreven moet worden of wanneer een distributie extreme uitbijters heeft. Het gebruik van het gemiddelde en de standaarddeviatie is juist handiger wanneer er weinig uitbijters aanwezig zijn en als de distributie symmetrisch is.

Hoe kun je meeteenheden transformeren?

Dezelfde variabele kan vaak gemeten worden door middel van verschillende meeteenheden. Temperatuur kan bijvoorbeeld zowel in Fahrenheit als in Celsius gemeten worden. Gelukkig is het gemakkelijk om meeteenheden om te zetten. Dit omdat een verandering in meeteenheid een lineaire transformatie van de metingen is. Zo een transformatie verandert de vorm van een distributie niet. Als temperatuurmetingen in Fahrenheit zorgen voor een distributie met aan afwijking naar rechts, dan zal dat zo blijven als de waarden omgezet zijn naar Celsius. De spreiding en het middelpunt zullen echter wel veranderen na zo een verandering. Een lineaire transformatie verandert de oorspronkelijke variabele x in een nieuwe variabele (xnew) op basis van de volgende formule:

  • xnew = a+bx. Het toevoegen van de constante a verandert alle waarden van x in dezelfde mate. Zo een aanpassing verandert het nulpunt van een variabele. Vermenigvuldigen met de positieve constante b verandert de grootte van de meeteenheid.
  • Om het effect van lineaire transformatie op spreidingsmaten en op maten van het midden te bekijken, is het van belang om elke observatie met het positieve getal b te vermenigvuldigen. Dit zorgt ervoor dat de mediaan, het gemiddelde, de standaarddeviatie en de IQR vermenigvuldigd worden met b.
  • Het toevoegen van hetzelfde getal a (of dit getal nou positief of negatief is) aan elke observatie, voegt a toe aan het gemiddelde, de mediaan, de kwartielen en de percentielen. Spreidingsmaten worden echter niet beïnvloed.

Wat zijn normaalverdelingen?

Wat zijn dichtheidscurves?

Het handmatig maken van histogrammen is onhandig. Tegenwoordig gebruiken wetenschappers dan ook vaak computerprogramma’s om histogrammen te maken. Het voordeel van computerprogramma’s is dat je hiermee ook een passende curve kan maken op basis van een histogram. Dit worden dichtheidscurves (density curves) genoemd. Door zo'n curve ‘vloeit’ een histogram als het ware. Gebieden onder de curve staan voor proporties van scores.

  • Een dichtheidscurve wordt altijd boven de horizontale as gemaakt.
  • Het totale gebied binnen de curve staat gelijk aan 1.
  • Een dichtheidscurve beschrijft het algemene patroon van een distributie. Dichtheidscurves kunnen, net zoals distributies, allerlei vormen hebben. Een bijzondere variant is de normaalverdeling, waarbij beide helften van de curve symmetrisch zijn. Uitbijters worden niet beschreven met een dichtheidscurve.

Hoe meet je het middelpunt en de spreiding bij normaalverdelingen?

De modus van een distributie beschrijft het piekpunt van de curve. Het gaat dus om de plaats waar de curve het hoogst is. Omdat gebieden onder de curve voor proporties staan, is de mediaan het punt dat precies in het midden ligt.

De kwartielen kunnen geschat worden door de curve in ongeveer vier gelijke stukken te verdelen. De IQR is dan de afstand tussen het eerste en het derde kwartiel. Er zijn rekenkundige manieren om de gebieden onder een curve te berekenen. Door deze rekenkundige manieren kunnen we de mediaan en de kwartielen precies berekenen.

Het gemiddelde van een dichtheidscurve is het punt waarop de curve zou balanceren als deze van vast materiaal gemaakt zou zijn. Bij een symmetrische curve liggen de mediaan en het gemiddelde op hetzelfde punt. Bij een afwijkende distributie is dat niet het geval. Bij een curve met een afwijking naar rechts ligt de mediaan iets meer richting de piek van de curve dan het gemiddelde. Het gemiddelde bevindt zich dus meer naar de staart toe. Bij een afwijkende distributie is het lastig om het balanspunt met het blote oog te bepalen. Er zijn rekenkundige manieren om het gemiddelde en de standaarddeviatie van een dichtheidscurve te berekenen. Kortom:

  • De mediaan van een dichtheidscurve ligt dus op het punt dat het gebied onder de curve in tweeën deelt.
  • Het gemiddelde van een dichtheidscurve is het balanspunt waarop de curve zou balanceren als deze van vast materiaal gemaakt zou zijn.
  • De mediaan en het gemiddelde zijn hetzelfde voor een symmetrische dichtheidscurve. Het gemiddelde van een afwijkende distributie ligt meer in de richting van de lange staart, terwijl de mediaan meer in de richting van de piek ligt.

Wat zijn kenmerken van normaalverdelingen?

Het gemiddelde van een dichtheidscurve geven we aan met de letter µ. De standaarddeviatie wordt genoteerd aan de hand van het symbool σ. Deze waarden worden benaderd met het steekproefgemiddelde () en de standaarddeviatie (s) die bij deze scores hoort. Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek. Het veranderen van µ (terwijl de standaarddeviatie onveranderd blijft) zorgt ervoor dat de plaats van de curve op de horizontale as opschuift, terwijl de spreiding hetzelfde blijft. Een curve met een grotere standaarddeviatie is breder en lager. De standaarddeviatie σ is de spreidingsmaat die bij een normaalverdeling hoort. Samen met µ bepaalt σ de vorm van een normaalverdeling.

Waarom zijn normaalverdelingen belangrijk in de statistiek?

  • Normaalverdelingen zijn goede beschrijvingen van distributies die bij echte data horen. Het gaat in dit verband om distributies die bijna normaalverdeeld zijn. Voorbeelden zijn distributies van lengte, gewicht en IQ.
  • Normaalverdelingen zijn goede benaderingen van de uitkomsten van kansberekeningen, bijvoorbeeld in het geval van het werpen van een munt.
  • Tot slot zijn normaalverdelingen handig, omdat statistische berekeningen (die op basis van normaal verdelingen gemaakt zijn), gebruikt kunnen worden voor andere, bijna symmetrische distributies.

Wat zijn gemeenschappelijke kenmerken van normaalverdelingen?

Er zijn veel soorten normaalverdelingen, maar ze hebben een aantal gemeenschappelijke kenmerken. Hieronder worden de belangrijkste kenmerken uiteengezet.

  • Ongeveer 68% van de scores valt binnen 1 standaarddeviatie (σ) van het gemiddelde (µ).
  • Ongeveer 95% van de scores valt binnen twee standaarddeviaties van het gemiddelde.
  • Ongeveer 99.7% van de scores valt binnen drie standaarddeviaties van het gemiddelde.

De bovenste kenmerken staan samen bekend als de 68-95-99.7 regel. De normaalverdeling met gemiddelde µ en standaarddeviatie σ wordt genoteerd als N(µ,σ). Bij het onderzoek naar de lengte van Nederlandse vrouwen is het bijvoorbeeld mogelijk dat N(1.70,10) wordt gevonden.

Wat zijn gestandaardiseerde waarden?

Als iemand zestig punten op een test heeft gescoord, weet je niet of dit een hoge of lage score is in vergelijking tot alle andere scores. Het is daarom belangrijk om de waarde te standaardiseren.

  • Als x een score is uit een distributie met gemiddelde µ en standaarddeviatie σ, dan is de gestandaardiseerde waarde van x: z = (x-µ)/σ. Een gestandaardiseerde waarde wordt vaak een z-score genoemd.
  • De gestandaardiseerde waarden van een distributie hebben samen een gemiddelde van 0 en een standaarddeviatie van 1. De gestandaardiseerde normaalverdeling heeft dus de N(0,1) – distributie.

Wat zijn cumulatieve proporties?

Het op precieze wijze berekenen van de proporties onder de normaalverdeling kan door middel van z-tabellen of software.

  • Z-tabellen en software berekenen vaak een cumulatieve proportie: dit is de proportie observaties in een distributie die onder een bepaalde waarde ligt of daar precies gelijk aan is.

Wanneer een distributie door middel van een dichtheidscurve wordt beschreven, dan is de cumulatieve proportie het gebied onder de curve dat aan de linkerkant van een bepaalde waarde ligt. Hiermee wordt rekening gehouden worden als je bijvoorbeeld juist alleen de proportie wilt hebben dat zich aan de rechterkant van de waarde bevindt. In dat geval moet je 1- de proportie aan de linkerkant berekenen. De z-tabel kan gebruikt worden om proporties onder de curve te achterhalen. Om dit te doen moeten scores wel eerst gestandaardiseerd worden. Een voorbeeld is dat je wilt weten hoeveel studenten minimaal een score van 820 hadden op een bepaalde test. Het gemiddelde blijkt 1026 te zijn en de standaarddeviatie is 209.

  • De bijbehorende z-score is: 820-1026/209= -0.99.
  • Vervolgens moet de z-tabel gebruikt worden om te kijken welke proportie bij -0.99 hoort. Dat blijkt 0.1611 te zijn. Het gebied rechts van -0.99 is daarom 1-0.1611=0.8389.
  • Als je had willen weten hoeveel studenten maximaal een score van 820 hadden behaald, dan was het antwoord 0.1611 geweest.

Wat is een normaal kwantielplot?

Stam-en-bladdiagrammen en histogrammen word vaak gebruikt om te kijken of een distributie normaal verdeeld is. De normaal kwantiel plot (normal quantile plot) is echter de beste grafische manier om normaliteit te ontdekken. Het is niet praktisch om zo een plot zelf te maken. In de meeste gevallen wordt dan ook software gebruikt. Hieronder wordt een algemeen beeld geschetst van hoe zo een plot handmatig gemaakt kan worden.

  • Allereerst worden scores van klein naar groot op volgorde gezet. Ook wordt genoteerd met wel percentiel elke waarde samengaat.
  • Vervolgens moeten de z-waarden gevonden worden die met deze percentielen samengaan. Dit worden ook wel z-normaal-scores genoemd.
  • Tot slot moet elke datapunt grafisch verbonden worden aan de corresponderende normaalscore. Als de distributie (bijna) normaal verdeeld is, dan zullen de datapunten bijna op een rechte lijn liggen. Systematische afwijkingen van de rechte lijn duiden op een niet-normaal verdeelde distributie. Uitbijters zijn datapunten die ver van het algemene patroon in de plot liggen.
Wat zijn statistische verbanden? - Chapter 2
Hoe moet je data verzamelen? - Chapter 3
Wat werkt kansrekening in de statistiek? - Chapter 4
Wat zijn steekproefdistributies? - Chapter 5
Wat zijn statistische gevolgtrekkingen? - Chapter 6
Wat zijn statistische gevolgtrekkingen voor distributies? - Chapter 7
Wat zijn statistische gevolgtrekkingen voor proporties? - Chapter 8
Wat zijn gevolgtrekkingen voor categorische data? - Chapter 9
Wat is regressie? - Chapter 10
Wat is meervoudige regressie? - Chapter 11
Wat is eenweg ANOVA? - Chapter 12
Wat is tweeweg ANOVA? - Chapter 13
Wat is logistische regressie? - Chapter 14
Wat zijn nonparametrische toetsen? - Chapter 15
Summaries per chapter with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle

Summaries per chapter with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics

Online summaries and study assistance with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig

Prints & Pickup with Introduction to the Practice of Statistics

Related content on joho.org

What are distributions in the realm of statistics? - Chapter 1

What are distributions in the realm of statistics? - Chapter 1

This chapter focuses on distributions. A distribution describes the distribution of a variable. It tells us which values of a variable occur in individuals and how often these values occur. Distributions can be described numerically with, for example, an average or a median. This chapter also describes various ways in which you can graphically represent distributions, for example via a histogram or a box plot.


How can you learn from data?

Statistics is the science of acquiring knowledge based on data. Data are numerical (or qualitative) descriptions and information objects to study. This first part deals with data handling. First, the different types of data we can collect and how datasets are organized are discussed. After that, attention is paid to processing data by looking at graphs. Graphs are useful because they provide a visual image that can be used to discover patterns in data. The next step in the data learning process is to calculate numerical summaries. This can be used to describe patterns in the distribution of data. Finally, we make the transition from data summaries to statistical models. Here it is explained what density curves are and the normal distribution is introduced. These distributions play a critical role in methods of drawing conclusions from different datasets.

What is a dataset?

Statistical analysis starts with a dataset. A dataset is a structured 'bin' of data.

  • Data consists of numerical values.

  • A dataset is constructed by determining which cases (or units) we want to study. For each case, we collect information about properties called variables.

  • Cases are the objects described by a dataset. These can be customers, companies, test subjects or other objects.

  • A label is a special variable that is used in some datasets to distinguish different cases from each other.

  • A variable is a property of a case.

  • Different cases can have different values ​​on the variables.

  • A categorical variable places an individual in one or two or more groups or categories. An example is gender.

  • A quantitative variable has numerical values ​​that can be calculated. An example is height: someone of two meters is twice as tall as someone of one meter.

  • A distribution of a variable tells us which values ​​of a variable occur in individuals and how often these values ​​occur.

  • We use the term units of measurement to refer to the way a variable is measured. For example, time is measured in hours, minutes or seconds, the height of a child in meters or centimeters. These units of measure are an important part of the description of a quantitative variable.

What are the main properties of a dataset?

Each dataset is accompanied by certain background information that helps interpret the data. Consider the following points:

  • Who? Which cases describe the data? How many of these cases does the dataset contain?

  • What? How many variables does the data contain? What are the precise definitions of those variables? What are the units of measure for each quantitative variable?

  • Why? What purpose do the data have? Do we hope to answer a specific question? Do we want to draw conclusions about cases for which we have no data? Are the variables used fit for purpose?

A spreadsheet can be used to process the data. This can be done in Excel, for example. It is important to avoid spaces with variable names, as these are not allowed in some statistical software. Instead of a space, an underscore (_) can be used.

If we want to make a variable suitable for calculation, we can transform the variable. For example, the letter assessments from the American school system can be converted into numbers (A = 4, B = 3, etc.). This is only possible when the difference between A and B is the same as, for example, the difference between C and D.

Part of becoming good at statistics is knowing which variables are important and how they can best be measured. Different types of variables may require different instruments to take measurements. For example, a breath test to measure lung capacity, and a survey to test personality. Often, details of certain measurements require knowledge of the specific field of study. In any case, make sure that each variable really measures what you want it to measure. Poor choice of variables can lead to misleading conclusions.

How can you graphically display distributions?

What is Exploratory Data Analysis?

Exploratory data analysis (EDA) involves describing the most important characteristics of a dataset. The following two strategies can be used in this regard:

  • First, examine each variable individually. Only then should the relationship between the variables be considered.

  • Graphically display the values ​​of variables. Then numerical summaries can be made of these values.

The values ​​of a categorical variable are labels for the categories, such as "female" and "male". The distribution of a categorical variable shows how many of the people studied scored a certain value (count). This can also be stated by means of percentages.

Which categorical variable charts are there?

A distribution can be represented graphically by a:

  • Bar graph: The heights of the bars say something about how often certain values ​​occur. The frequencies are on the y-axis and the lengths of the bars must therefore correspond with this.

  • Pie chart: For example, you can immediately see whether more men than women took part in a survey. Because pie charts do not use scales, quantities are expressed using percentages. Pie charts require that all of the categories that make up the whole are added.

Bar charts are easier to interpret and are also more flexible than pie charts. They can both be used when you want people to be able to see at a glance about frequencies of values ​​of a variable.

What charts for quantitative variables are there?

Stem-and-leaf diagram

A stem-and-leaf diagram (stem plot) quickly visualizes the shape of a distribution, while adding each value in its original shape. Such a diagram is most useful when there are not too many observations (all of which are greater than zero). To create a stem-and-leaf diagram, the following steps must be performed:

  • First of all, each value must be divided into a trunk and a leaf. The trunk is the first digit and the leaf is the last digit (with the number 35, 3 is the trunk and 5 is the leaf). Logs can contain multiple digits (for the number 135, 13 is the log), but a leaf always consists of only one digit.

  • Then all logs must be listed among themselves. The smallest trunk should be on top. After doing this a vertical line should be drawn on the right side of the logs.

  • Finally, the corresponding leaf should be noted in each row to the right of the trunk. Start with the smallest leaf.

Back-to-back diagram

A back-to-back diagram is a variation of the stem-and-leaf diagram. With such a diagram, two related distributions can be compared. Such a diagram uses common stems. For example, you can process the weight of men and women in a back-to-back diagram. The stems of the weights are then in the middle and two lines (both left and right) are drawn from the stems. For example, you can write down the women's sheets on the right side, while on the left you can write down the men's sheets.

Which diagrams are there for a large dataset?

Stem-and-leaf diagrams and back-to-back diagrams are not useful when using a large data set. It then takes a very long time to process each value in the chart and it also looks cluttered. However, this can be solved by doubling the number of stems in a diagram. This can be done by:

  • Splitting: divide each stem by two.

  • Trimming: this is where you make the numbers fit when the observed values ​​contain many numbers. This is done by removing the last digits before creating a stem-and-leaf diagram.

What are histograms?

A histogram divides the values ​​of a variable into groups. Therefore, only the frequencies or percentages that belong to the groups are described. You can decide how many groups you want to create, but the groups must be of equal size. However, it is important to note that the way a histogram looks can change when the classes are changed. It takes longer (compared to stem and leaf diagrams) to create histograms manually. Also, the original data values ​​do not appear literally in a histogram. This is precisely the case with stem-and-leaf diagrams. To make a histogram, three steps must be performed:

  • Making groups. For example, with a dataset with the IQ measurement of fifty people, you can make intervals of 75≤ IQ <85, 85 ≤ IQ <85, etc.

  • Divide the values ​​found per group. Then it must be counted how often values ​​fall in a certain group (frequencies). A table of the frequencies associated with each group is called a frequency table.

  • Finally, draw a histogram. In our case, the horizontal axis (X axis) should show the IQ scores, while the Y axis should be the frequencies. Each bar represents a group. There is no space between the bars unless no one in a certain group has scored. This is the case, for example, if no one has an IQ score between 75 and 84.

What are the differences between histograms and bar charts?

Histograms and bar charts are similar, but not the same. With a bar chart the bars are not exactly against each other, while they are with a histogram. A histogram is about the counts or percentages of different values ​​of a variable. A bar chart compares the sizes of different items. The horizontal axis of a bar chart does not have to have a measurement scale, but can consist of labels. If you want to know how many students are studying biology, psychology or medicine, these are categorical variables that you can put on the X axis. In this case a bar chart should be made. If it is a numeric variable (eg IQ, height or weight) then a histogram should be used.

So bar charts are useful for categorical variables, while histograms are important for quantitative variables.

What are the main features of distributions?

After a dataset has been processed in a graph or diagram, the main characteristics of the distribution must be investigated. In this context, it is important to consider the following:

  • View the overall pattern and pay close attention to noticeable deviations from the general pattern (deviations).

  • The shape, the middle and the spread within a dataset must also be considered. The center of a distribution is the value that causes half of the observations to be less than that value and the other half to be greater than that value. The spread of a distribution can be described by looking at the smallest and largest values. When looking at the shape, it is important whether there are multiple peaks in the distribution. If there is only one peak (mode), we call the distribution unimodal. It must also be considered whether the distribution is symmetrical or whether there is a deviation to the left or right. A distribution is symmetrical when the values ​​that are smaller and greater than the center can be mirrored with each other. If there is a deviation to the right (skewed to the right), the right tail (which consists of larger values) is much longer than the left tail (which consists of small values). Length and IQ are variables that often have an (approximately) symmetrical distribution. Few people are extremely small or extremely tall and the majority of people score average. The same goes for IQ scores. House prices have a distribution with a deviation to the right. Many houses are about the same price, while there are some very expensive villas.

  • An important deviating score is an outlier. This is an individual score that is clearly outside the general pattern.

What are outliers?

Determining outliers does not follow specific rules. The point is that you form your own opinion about which scores should be labeled as deviating. In any case, always look for values ​​that are clearly different from most values; it does not therefore only have to be about extreme observations within a distribution. It is also important to try to explain outliers. For example, an outlier can be the result of unusual circumstances.

What are time plots?

When data is collected over time, it is a good idea to process the observations graphically in sequence. The use of histograms and stem-and-leaf diagrams can be misleading in this regard, as there may be systematic changes over time.

  • A time plot of a variable provides a graphical representation of each observation in relation to the moment when this measured variable was. Time should always be placed on the horizontal line, while the measured variable should be on the Y axis. Connecting data points (by means of lines) shows whether changes have taken place over time. Trends can also be discovered in this way.

  • Many datasets are time series. These are measurements of a variable that have been taken at different times. Consider, for example, the measurement of national unemployment per quarter.

  • A trend in a time series is a sustained rise or fall over the long term. A pattern that keeps repeating itself at specific moments in a time series is called seasonal variation. In that case, seasonal adjustment is carried out, so that research results do not have a misleading effect. The fact that the unemployment rate increased in December and January does not necessarily mean that more people have become unemployed. Unemployment figures always rise during this period, because temporary workers, for example, often stop working at the end of the year. Taking such a phenomenon into account is a form of seasonal adjustment.

How can you describe distributions numerically?

What is the mean?

A numerical description of a distribution starts with a measurement of the center. The most well-known measurements of the center are the mean and the median. The average is also really about finding the mean value, while the median is about finding the middle value.

To find the mean, all scores must be added up and divided by the number of scores. If n number of people have the scores x1, x2, x3, xn, their mean is:

Average = (x1 + x2 + x3 +… + xn) / n.

Another notation is: = 1 / n Σ xi. In this formula, "as a Greek letter" stands for "adding everything together".

The disadvantage of the mean is that this measure is very sensitive to the influence of a number of extreme observations. These extreme scores can be outliers, but they don't have to. Because the mean is influenced by extreme scores, we say that the mean is not a robust measure (resistant measure) of the center. The fact that the mean is not a robust measure is also evident from the fact that you can adjust one score from the distribution alone to change the mean.

What is the median?

The median M is the literal center of a distribution. Half of the observations fall below the median, while the other half are above the median. The median of a distribution can be found as follows:

  • Put all scores in order first (from smallest to largest).

  • If the number of observations is odd, then the median is exactly the middle number. For example, if there are five numbers, the median is the third number. The position of the median in this case can be found as follows: (n + 1) / 2. In our example, that is: (5 + 1) / 2 = 3. This formula does not say what the median is, but where the median is in the series of numbers.

  • If the number of observations is even, then the median M is the mean of the two middle observations in the distribution. The position of the median is found in the same way: M = (n + 1) / 2.

What is the difference between the mean and the median?

If a distribution is completely symmetrical, the median and the mean are the same. In a distribution deviating to the left or right, the mean is more in the tail than the median. This is because the mean is much more influenced by extreme scores. The tail of a distribution consists of extreme scores.

What is spread (variability)?

The simplest numerical description of a distribution should consist of a measure of the center (such as the mean and the median), as well as a measure of the distribution within a distribution. We can describe the spread of a distribution by calculating different percentiles. The median divides the distribution exactly in two, which is why we also say that the median is the fiftieth percentile. However, there is still a quartile in the top half of the data. There is also a lower quartile in the lower half of the data. The quartiles ensure that the data can be divided into quarters; each quartile is about a quarter of the data. Quartiles can be calculated as follows:

  • First, all scores must be ranked from smallest to largest. Then the median for the whole set must be calculated.

  • The first quartile (Q1) is the median of the quarter lowest scores of a distribution.

  • The third quartile (Q3) is the median of the fourth highest scores in a distribution.

The pth percentile of a distribution is the value that p percent of the scores are equal to or that p percent of the scores are below.

What is the five number summary?

To describe the midpoint and spread of a distribution, it is helpful to have (1) the lowest score, (2) Q1, (3) M (the median), (4) Q3, and (5) the highest score. These values ​​are collectively referred to as the five-number summary. These five values ​​are visible in a box plot.

  • The outer two edges of the box (box) in a box plot represent Q1 and Q3.

  • The median is represented by the line in the center of the box.

  • Two lines (up and down) from the box show the highest value and the lowest value.

What is the interquartile range?

In principle, viewing the largest and smallest value says little about the spread within the data. The distance between the first and third quartiles is a more robust measure of dispersion. This distance is called the interquartile range (IQR) and is calculated as follows:

  • IQR: Q3 - Q1.

  • The IQR is often used as a rule of thumb to identify outliers. Often times, a score is called an outlier if it falls 1.5xIQR above the third quartile or 1.5xIQR below the first quartile.

What are anomalous distributions?

Quartiles and the IQR are not affected by changes in the tail of a distribution. So they are quite robust. It must be said, however, that no numerical value of spread (such as the IQR) is very useful to describe the spread of distributions with a deviation (to the left or right). The two sides of a deviating distribution have different spreads, so one spread value cannot be sufficient. A deviation to the left or right can be noticed by looking at how far the first quartile and lowest score are from the median (left tail) and by looking at how far the third quartile is from the highest score (right tail).

What are variance and standard deviation?

Much more often than the five-number summary, the standard deviation (along with a measure of the center point) is used to get a picture of a distribution. The standard deviation measures the dispersion by looking at how far observations are from the mean.

  • The variance (s²) of a data set is the mean of the squared standard deviations. In formula form this is: s² = (x1-) ² + (x2-) ² +… + (xn-) ² / n-1. Another correct formula is: s² = 1 / n-1 Σ (xi-) ². In this context n-1 stands for the number of degrees of freedom.

  • To find the standard deviation (s), the square root of the variance must be taken. Finding the standard deviation is especially useful when there are normal distributions. These distributions are discussed in the next section. The standard deviation is preferred over the variance. This is because taking the square root of the variance ensures that dispersion is measured according to the original scale of the variable.

The deviations from the mean (xi-) show to what extent scores differ from the mean. Some of these deviations will be positive, while others will be negative. The sum of deviations from the scores will therefore always be zero. For this reason, the deviations from the mean are squared; this way the calculation does not come to zero. The variance and standard deviation will be large if scores are widely spread from the mean.

The variance and standard deviation will be small when the scores are close to the mean.

What are the characteristics of the standard deviation?

  • Standard deviation s measures the dispersion from the mean and should only be used when the mean (and not the median) is chosen as the measure for midpoint.

  • The standard deviation is zero when there is no spread in a distribution. This only happens if all values ​​are the same. If not, then that standard deviation is greater than zero. The more spread there is, the greater s becomes.

  • The standard deviation s, like the mean, is not robust. The presence of a few outliers can immediately make s very large. The standard deviation is even more sensitive to extreme scores compared to the mean.

  • Distributions with a strong deviation (left or right) have large standard deviations. In this case it is not very useful to calculate the standard deviation. The five-number summary is often more useful than the mean and standard deviation when an anomalous distribution must be described or when a distribution has extreme outliers. Using the mean and standard deviation is more useful when few outliers are present and when the distribution is symmetrical.

How can you transform units of measurement?

The same variable can often be measured using different units of measurement. For example, temperature can be measured in both Fahrenheit and Celsius. Fortunately, converting units of measurement is easy. This is because a change in unit of measure is a linear transformation of the measurements. Such a transformation does not change the shape of a distribution. If temperature measurements in Fahrenheit result in a distribution with a deviation to the right, then it will remain so when the values ​​have been converted to Celsius. However, the spread and center will change after such a change. A linear transformation turns the original variable x into a new variable (xnew) based on the following formula:

  • xnew = a + bx. Adding the constant a changes all values ​​of x by the same amount. Such an adjustment changes the zero point of a variable. Multiplying by the positive constant b changes the size of the measurement unit.

  • To consider the effect of linear transformation on measures of dispersion and on measures of the center, it is important to multiply each observation by the positive number b. This ensures that the median, mean, standard deviation, and IQR are multiplied by b.

  • Adding the same number a (whether it is positive or negative) to each observation adds a to the mean, median, quartiles, and percentiles. Spread sizes are not affected, however.

What are normal distributions?

What are density curves?

Creating histograms manually is inconvenient. Today, scientists often use computer programs to make histograms. The advantage of computer programs is that you can also make a suitable curve based on a histogram. These are called density curves. A histogram, as it were, "flows" through such a curve. Areas under the curve represent proportions of scores.

  • A density curve is always created above the horizontal axis.

  • The total area within the curve equals 1.

  • A density curve describes the general pattern of a distribution. Density curves, like distributions, can take all kinds of shapes. A special variant is the normal distribution, where both halves of the curve are symmetrical. Outliers are not described with a density curve.

How do you measure the center and the spread with normal distributions?

The mode of a distribution describes the peak point of the curve. It is therefore about the place where the curve is highest. Since areas under the curve represent proportions, the median is the point that is exactly in the middle.

The quartiles can be estimated by dividing the curve into approximately four equal parts. The IQR is then the distance between the first and third quartiles. There are arithmetic ways to calculate the areas under a curve. These arithmetic ways allow us to calculate the median and the quartiles precisely.

The mean of a density curve is the point at which the curve would balance if it were made of solid material. With a symmetrical curve, the median and the mean are at the same point. This is not the case with a different distribution. For a curve with a deviation to the right, the median is slightly more towards the peak of the curve than the mean. The mean is therefore more towards the tail. With a deviating distribution it is difficult to determine the balance point with the naked eye. There are arithmetic ways to calculate the mean and standard deviation of a density curve. In short:

  • So the median of a density curve is at the point that bisects the area under the curve.

  • The mean of a density curve is the balance point at which the curve would balance if it were made of solid material.

  • The median and the mean are the same for a symmetrical density curve. The mean of an abnormal distribution is more in the direction of the long tail, while the median is more in the direction of the peak.

What are characteristics of normal distributions?

We indicate the mean of a density curve with the letter µ. The standard deviation is noted using the symbol σ. These values ​​are approximated with the sample mean () and the standard deviation (s) associated with these scores. Normal distributions are symmetrical and unimodal, so they only have one peak. Changing µ (while keeping the standard deviation unchanged) causes the position of the curve on the horizontal axis to shift, while the scatter remains the same. A curve with a larger standard deviation is wider and lower. The standard deviation σ is the measure of dispersion that belongs to a normal distribution. Together with µ, σ determines the shape of a normal distribution.

Why are normal distributions important in statistics?

  • Normal distributions are good descriptions of distributions that belong to real data. These are distributions that are distributed almost normally. Examples are distributions of height, weight and IQ.

  • Normal distributions are good approximations of the outcomes of probability calculations, for example in the case of tossing a coin.

  • Finally, normal distributions are useful, because statistical calculations (made on the basis of normal distributions) can be used for other, almost symmetrical distributions.

What are common features of normal distributions?

There are many types of normal distributions, but they have some common features. The main features are set out below.

  • About 68% of the scores fall within 1 standard deviation (σ) of the mean (µ).

  • About 95% of the scores fall within two standard deviations of the mean.

  • About 99.7% of the scores fall within three standard deviations of the mean.

The top features are collectively known as the 68-95-99.7 rule. The normal distribution with mean µ and standard deviation σ is noted as N (µ, σ). For example, when researching the height of Dutch women, it is possible that N (1.70,10) is found.

What are standardized values?

If someone has scored sixty points on a test, you don't know if this is a high or low score compared to all other scores. It is therefore important to standardize the value.

  • If x is a score from a distribution with mean µ and standard deviation σ, then the standardized value of x is: z = (x-µ) / σ. A standardized value is often referred to as a z-score.

  • The standardized values ​​of a distribution together have an average of 0 and a standard deviation of 1. The standardized normal distribution therefore has the N (0,1) distribution.

What are Cumulative Proportions?

The precise calculation of the proportions under the normal distribution can be done by means of z-tables or software.

  • Z-tables and software often calculate a cumulative proportion: this is the proportion of observations in a distribution that is below or exactly equal to a certain value.

When a distribution is described by means of a density curve, the cumulative proportion is the area under the curve that lies to the left of a given value. This is taken into account if, for example, you only want the proportion that is to the right of the value. In that case you have to calculate 1- the proportion on the left. The z-table can be used to find proportions under the curve. To do this, scores must first be standardized. An example is that you want to know how many students had at least a score of 820 on a certain test. The mean turns out to be 1026 and the standard deviation is 209.

  • The corresponding z-score is: 820-1026 / 209 = -0.99.

  • Then the z-table has to be used to see which proportion belongs to -0.99. That turns out to be 0.1611. The area to the right of -0.99 is therefore 1-0.1611 = 0.8389.

  • If you had wanted to know how many students got a maximum score of 820, the answer would have been 0.1611.

What is a normal quantile plot?

Stem-and-leaf diagrams and histograms are often used to see if a distribution is normally distributed. However, the normal quantile plot is the best graphical way to discover normality. It is not practical to make such a plot yourself. In most cases software is therefore used. Below is a general picture of how such a plot can be created manually.

  • First of all, scores are listed from smallest to largest. It is also noted with which percentile each value goes together.

  • Next, the z-values ​​must be found that go together with these percentiles. These are also referred to as z-normal scores.

  • Finally, each data point must be graphically linked to the corresponding normal score. If the distribution is (almost) normally distributed, then the data points will be almost on a straight line. Systematic deviations from the straight line indicate a non-normally distributed distribution. Outliers are data points that are far from the general pattern in the plot.

What are statistical relationships? - Chapter 2
How to collect data for the purpose of statistics? - Chapter 3
What is probability theory? - Chapter 4
What are sampling distributions? - Chapter 5
What is statistical inference? - Chapter 6
What are statistical inferences for distributions? - Chapter 7
What are statistical inferences for proportions? - Chapter 8
What are statistical inferences for categorical data? - Chapter 9
What is regression? - Chapter 10
What is multiple regression? - Chapter 11
What is one-way ANOVA? - Chapter 12
What is two-way ANOVA? - Chapter 13
What is logistic regression? - Chapter 14
What are non-parametric tests? - Chapter 15
JoHo nieuwsupdates voor inspiratie, motivatie en nieuwe ervaringen: winter 23/24

Projecten, Studiehulp en tools:

  • Contentietools: wie in deze dagen verwonderd om zich heen kijkt kan wellicht terecht op de pagina's over tolerantie en verdraagzaamheid en over empathie en begrip, mocht dat niet voldoende helpen check dan eens de pagina over het omgaan met stress of neem de vluchtroute via activiteit en avontuur in het buitenland.
  • Competentietools: voor meer werkplezier en energie en voor betere prestaties tijdens studie of werk kan je gebruik maken van de pagina's voor vaardigheden en competenties.
  • Samenvattingen: de studiehulp voor Rechten & Juridische opleidingen is sinds de zomer van 2023 volledig te vinden op JoHo WorldSupporter.org. Voor de studies Pedagogiek en Psychologie kan je ook in 2024 nog op JoHo.org terecht.
  • Projecten: sinds het begin van 2023 is Bless the Children, samen met JoHo, weer begonnen om de slum tours nieuw leven in te blazen na de langdurige coronastop. Inmiddels draaien de sloppentours weer volop en worden er weer nieuwe tourmoeders uit deze sloppen opgeleid om de tours te gaan leiden. In het najaar van 2023 is ook een aantal grote dozen met JoHo reiskringloop materialen naar de Filipijnen verscheept. Bless the Children heeft daarmee in het net geopende kantoortje in Baseco, waar de sloppentour eindigt, een weggeef- en kringloopwinkel geopend.

Vacatures, Verzekeringe en vertrek naar buitenland:

World of JoHo:

  • Leiden: de verbouwing van het Leidse JoHo pand loopt lichte vertraging op, maar nadert het einde. Naar verwachting zullen eind februari de deuren weer geopend kunnen worden.
  • Den Haag: aangezien het monumentale JoHo pand in Den Haag door de gemeente noodgedwongen wordt afgebroken en herbouwd, zal JoHo gedurende die periode gehuisvest zijn in de Leidse vestiging.
  • Medewerkers: met name op het gebied van studiehulpcoördinatie, internationale samenwerking en internationale verzekeringen wordt nog gezocht naar versterking!

Nieuws en jaaroverzicht 2023 -2024

  

Verdieping & alternatieve studiehulp

Summaries per chapter with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle

Summaries per chapter with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics

Online summaries and study assistance with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig

Prints & Pickup with Introduction to the Practice of Statistics

Related content on joho.org

What are distributions in the realm of statistics? - Chapter 1

What are distributions in the realm of statistics? - Chapter 1

This chapter focuses on distributions. A distribution describes the distribution of a variable. It tells us which values of a variable occur in individuals and how often these values occur. Distributions can be described numerically with, for example, an average or a median. This chapter also describes various ways in which you can graphically represent distributions, for example via a histogram or a box plot.


How can you learn from data?

Statistics is the science of acquiring knowledge based on data. Data are numerical (or qualitative) descriptions and information objects to study. This first part deals with data handling. First, the different types of data we can collect and how datasets are organized are discussed. After that, attention is paid to processing data by looking at graphs. Graphs are useful because they provide a visual image that can be used to discover patterns in data. The next step in the data learning process is to calculate numerical summaries. This can be used to describe patterns in the distribution of data. Finally, we make the transition from data summaries to statistical models. Here it is explained what density curves are and the normal distribution is introduced. These distributions play a critical role in methods of drawing conclusions from different datasets.

What is a dataset?

Statistical analysis starts with a dataset. A dataset is a structured 'bin' of data.

  • Data consists of numerical values.

  • A dataset is constructed by determining which cases (or units) we want to study. For each case, we collect information about properties called variables.

  • Cases are the objects described by a dataset. These can be customers, companies, test subjects or other objects.

  • A label is a special variable that is used in some datasets to distinguish different cases from each other.

  • A variable is a property of a case.

  • Different cases can have different values ​​on the variables.

  • A categorical variable places an individual in one or two or more groups or categories. An example is gender.

  • A quantitative variable has numerical values ​​that can be calculated. An example is height: someone of two meters is twice as tall as someone of one meter.

  • A distribution of a variable tells us which values ​​of a variable occur in individuals and how often these values ​​occur.

  • We use the term units of measurement to refer to the way a variable is measured. For example, time is measured in hours, minutes or seconds, the height of a child in meters or centimeters. These units of measure are an important part of the description of a quantitative variable.

What are the main properties of a dataset?

Each dataset is accompanied by certain background information that helps interpret the data. Consider the following points:

  • Who? Which cases describe the data? How many of these cases does the dataset contain?

  • What? How many variables does the data contain? What are the precise definitions of those variables? What are the units of measure for each quantitative variable?

  • Why? What purpose do the data have? Do we hope to answer a specific question? Do we want to draw conclusions about cases for which we have no data? Are the variables used fit for purpose?

A spreadsheet can be used to process the data. This can be done in Excel, for example. It is important to avoid spaces with variable names, as these are not allowed in some statistical software. Instead of a space, an underscore (_) can be used.

If we want to make a variable suitable for calculation, we can transform the variable. For example, the letter assessments from the American school system can be converted into numbers (A = 4, B = 3, etc.). This is only possible when the difference between A and B is the same as, for example, the difference between C and D.

Part of becoming good at statistics is knowing which variables are important and how they can best be measured. Different types of variables may require different instruments to take measurements. For example, a breath test to measure lung capacity, and a survey to test personality. Often, details of certain measurements require knowledge of the specific field of study. In any case, make sure that each variable really measures what you want it to measure. Poor choice of variables can lead to misleading conclusions.

How can you graphically display distributions?

What is Exploratory Data Analysis?

Exploratory data analysis (EDA) involves describing the most important characteristics of a dataset. The following two strategies can be used in this regard:

  • First, examine each variable individually. Only then should the relationship between the variables be considered.

  • Graphically display the values ​​of variables. Then numerical summaries can be made of these values.

The values ​​of a categorical variable are labels for the categories, such as "female" and "male". The distribution of a categorical variable shows how many of the people studied scored a certain value (count). This can also be stated by means of percentages.

Which categorical variable charts are there?

A distribution can be represented graphically by a:

  • Bar graph: The heights of the bars say something about how often certain values ​​occur. The frequencies are on the y-axis and the lengths of the bars must therefore correspond with this.

  • Pie chart: For example, you can immediately see whether more men than women took part in a survey. Because pie charts do not use scales, quantities are expressed using percentages. Pie charts require that all of the categories that make up the whole are added.

Bar charts are easier to interpret and are also more flexible than pie charts. They can both be used when you want people to be able to see at a glance about frequencies of values ​​of a variable.

What charts for quantitative variables are there?

Stem-and-leaf diagram

A stem-and-leaf diagram (stem plot) quickly visualizes the shape of a distribution, while adding each value in its original shape. Such a diagram is most useful when there are not too many observations (all of which are greater than zero). To create a stem-and-leaf diagram, the following steps must be performed:

  • First of all, each value must be divided into a trunk and a leaf. The trunk is the first digit and the leaf is the last digit (with the number 35, 3 is the trunk and 5 is the leaf). Logs can contain multiple digits (for the number 135, 13 is the log), but a leaf always consists of only one digit.

  • Then all logs must be listed among themselves. The smallest trunk should be on top. After doing this a vertical line should be drawn on the right side of the logs.

  • Finally, the corresponding leaf should be noted in each row to the right of the trunk. Start with the smallest leaf.

Back-to-back diagram

A back-to-back diagram is a variation of the stem-and-leaf diagram. With such a diagram, two related distributions can be compared. Such a diagram uses common stems. For example, you can process the weight of men and women in a back-to-back diagram. The stems of the weights are then in the middle and two lines (both left and right) are drawn from the stems. For example, you can write down the women's sheets on the right side, while on the left you can write down the men's sheets.

Which diagrams are there for a large dataset?

Stem-and-leaf diagrams and back-to-back diagrams are not useful when using a large data set. It then takes a very long time to process each value in the chart and it also looks cluttered. However, this can be solved by doubling the number of stems in a diagram. This can be done by:

  • Splitting: divide each stem by two.

  • Trimming: this is where you make the numbers fit when the observed values ​​contain many numbers. This is done by removing the last digits before creating a stem-and-leaf diagram.

What are histograms?

A histogram divides the values ​​of a variable into groups. Therefore, only the frequencies or percentages that belong to the groups are described. You can decide how many groups you want to create, but the groups must be of equal size. However, it is important to note that the way a histogram looks can change when the classes are changed. It takes longer (compared to stem and leaf diagrams) to create histograms manually. Also, the original data values ​​do not appear literally in a histogram. This is precisely the case with stem-and-leaf diagrams. To make a histogram, three steps must be performed:

  • Making groups. For example, with a dataset with the IQ measurement of fifty people, you can make intervals of 75≤ IQ <85, 85 ≤ IQ <85, etc.

  • Divide the values ​​found per group. Then it must be counted how often values ​​fall in a certain group (frequencies). A table of the frequencies associated with each group is called a frequency table.

  • Finally, draw a histogram. In our case, the horizontal axis (X axis) should show the IQ scores, while the Y axis should be the frequencies. Each bar represents a group. There is no space between the bars unless no one in a certain group has scored. This is the case, for example, if no one has an IQ score between 75 and 84.

What are the differences between histograms and bar charts?

Histograms and bar charts are similar, but not the same. With a bar chart the bars are not exactly against each other, while they are with a histogram. A histogram is about the counts or percentages of different values ​​of a variable. A bar chart compares the sizes of different items. The horizontal axis of a bar chart does not have to have a measurement scale, but can consist of labels. If you want to know how many students are studying biology, psychology or medicine, these are categorical variables that you can put on the X axis. In this case a bar chart should be made. If it is a numeric variable (eg IQ, height or weight) then a histogram should be used.

So bar charts are useful for categorical variables, while histograms are important for quantitative variables.

What are the main features of distributions?

After a dataset has been processed in a graph or diagram, the main characteristics of the distribution must be investigated. In this context, it is important to consider the following:

  • View the overall pattern and pay close attention to noticeable deviations from the general pattern (deviations).

  • The shape, the middle and the spread within a dataset must also be considered. The center of a distribution is the value that causes half of the observations to be less than that value and the other half to be greater than that value. The spread of a distribution can be described by looking at the smallest and largest values. When looking at the shape, it is important whether there are multiple peaks in the distribution. If there is only one peak (mode), we call the distribution unimodal. It must also be considered whether the distribution is symmetrical or whether there is a deviation to the left or right. A distribution is symmetrical when the values ​​that are smaller and greater than the center can be mirrored with each other. If there is a deviation to the right (skewed to the right), the right tail (which consists of larger values) is much longer than the left tail (which consists of small values). Length and IQ are variables that often have an (approximately) symmetrical distribution. Few people are extremely small or extremely tall and the majority of people score average. The same goes for IQ scores. House prices have a distribution with a deviation to the right. Many houses are about the same price, while there are some very expensive villas.

  • An important deviating score is an outlier. This is an individual score that is clearly outside the general pattern.

What are outliers?

Determining outliers does not follow specific rules. The point is that you form your own opinion about which scores should be labeled as deviating. In any case, always look for values ​​that are clearly different from most values; it does not therefore only have to be about extreme observations within a distribution. It is also important to try to explain outliers. For example, an outlier can be the result of unusual circumstances.

What are time plots?

When data is collected over time, it is a good idea to process the observations graphically in sequence. The use of histograms and stem-and-leaf diagrams can be misleading in this regard, as there may be systematic changes over time.

  • A time plot of a variable provides a graphical representation of each observation in relation to the moment when this measured variable was. Time should always be placed on the horizontal line, while the measured variable should be on the Y axis. Connecting data points (by means of lines) shows whether changes have taken place over time. Trends can also be discovered in this way.

  • Many datasets are time series. These are measurements of a variable that have been taken at different times. Consider, for example, the measurement of national unemployment per quarter.

  • A trend in a time series is a sustained rise or fall over the long term. A pattern that keeps repeating itself at specific moments in a time series is called seasonal variation. In that case, seasonal adjustment is carried out, so that research results do not have a misleading effect. The fact that the unemployment rate increased in December and January does not necessarily mean that more people have become unemployed. Unemployment figures always rise during this period, because temporary workers, for example, often stop working at the end of the year. Taking such a phenomenon into account is a form of seasonal adjustment.

How can you describe distributions numerically?

What is the mean?

A numerical description of a distribution starts with a measurement of the center. The most well-known measurements of the center are the mean and the median. The average is also really about finding the mean value, while the median is about finding the middle value.

To find the mean, all scores must be added up and divided by the number of scores. If n number of people have the scores x1, x2, x3, xn, their mean is:

Average = (x1 + x2 + x3 +… + xn) / n.

Another notation is: = 1 / n Σ xi. In this formula, "as a Greek letter" stands for "adding everything together".

The disadvantage of the mean is that this measure is very sensitive to the influence of a number of extreme observations. These extreme scores can be outliers, but they don't have to. Because the mean is influenced by extreme scores, we say that the mean is not a robust measure (resistant measure) of the center. The fact that the mean is not a robust measure is also evident from the fact that you can adjust one score from the distribution alone to change the mean.

What is the median?

The median M is the literal center of a distribution. Half of the observations fall below the median, while the other half are above the median. The median of a distribution can be found as follows:

  • Put all scores in order first (from smallest to largest).

  • If the number of observations is odd, then the median is exactly the middle number. For example, if there are five numbers, the median is the third number. The position of the median in this case can be found as follows: (n + 1) / 2. In our example, that is: (5 + 1) / 2 = 3. This formula does not say what the median is, but where the median is in the series of numbers.

  • If the number of observations is even, then the median M is the mean of the two middle observations in the distribution. The position of the median is found in the same way: M = (n + 1) / 2.

What is the difference between the mean and the median?

If a distribution is completely symmetrical, the median and the mean are the same. In a distribution deviating to the left or right, the mean is more in the tail than the median. This is because the mean is much more influenced by extreme scores. The tail of a distribution consists of extreme scores.

What is spread (variability)?

The simplest numerical description of a distribution should consist of a measure of the center (such as the mean and the median), as well as a measure of the distribution within a distribution. We can describe the spread of a distribution by calculating different percentiles. The median divides the distribution exactly in two, which is why we also say that the median is the fiftieth percentile. However, there is still a quartile in the top half of the data. There is also a lower quartile in the lower half of the data. The quartiles ensure that the data can be divided into quarters; each quartile is about a quarter of the data. Quartiles can be calculated as follows:

  • First, all scores must be ranked from smallest to largest. Then the median for the whole set must be calculated.

  • The first quartile (Q1) is the median of the quarter lowest scores of a distribution.

  • The third quartile (Q3) is the median of the fourth highest scores in a distribution.

The pth percentile of a distribution is the value that p percent of the scores are equal to or that p percent of the scores are below.

What is the five number summary?

To describe the midpoint and spread of a distribution, it is helpful to have (1) the lowest score, (2) Q1, (3) M (the median), (4) Q3, and (5) the highest score. These values ​​are collectively referred to as the five-number summary. These five values ​​are visible in a box plot.

  • The outer two edges of the box (box) in a box plot represent Q1 and Q3.

  • The median is represented by the line in the center of the box.

  • Two lines (up and down) from the box show the highest value and the lowest value.

What is the interquartile range?

In principle, viewing the largest and smallest value says little about the spread within the data. The distance between the first and third quartiles is a more robust measure of dispersion. This distance is called the interquartile range (IQR) and is calculated as follows:

  • IQR: Q3 - Q1.

  • The IQR is often used as a rule of thumb to identify outliers. Often times, a score is called an outlier if it falls 1.5xIQR above the third quartile or 1.5xIQR below the first quartile.

What are anomalous distributions?

Quartiles and the IQR are not affected by changes in the tail of a distribution. So they are quite robust. It must be said, however, that no numerical value of spread (such as the IQR) is very useful to describe the spread of distributions with a deviation (to the left or right). The two sides of a deviating distribution have different spreads, so one spread value cannot be sufficient. A deviation to the left or right can be noticed by looking at how far the first quartile and lowest score are from the median (left tail) and by looking at how far the third quartile is from the highest score (right tail).

What are variance and standard deviation?

Much more often than the five-number summary, the standard deviation (along with a measure of the center point) is used to get a picture of a distribution. The standard deviation measures the dispersion by looking at how far observations are from the mean.

  • The variance (s²) of a data set is the mean of the squared standard deviations. In formula form this is: s² = (x1-) ² + (x2-) ² +… + (xn-) ² / n-1. Another correct formula is: s² = 1 / n-1 Σ (xi-) ². In this context n-1 stands for the number of degrees of freedom.

  • To find the standard deviation (s), the square root of the variance must be taken. Finding the standard deviation is especially useful when there are normal distributions. These distributions are discussed in the next section. The standard deviation is preferred over the variance. This is because taking the square root of the variance ensures that dispersion is measured according to the original scale of the variable.

The deviations from the mean (xi-) show to what extent scores differ from the mean. Some of these deviations will be positive, while others will be negative. The sum of deviations from the scores will therefore always be zero. For this reason, the deviations from the mean are squared; this way the calculation does not come to zero. The variance and standard deviation will be large if scores are widely spread from the mean.

The variance and standard deviation will be small when the scores are close to the mean.

What are the characteristics of the standard deviation?

  • Standard deviation s measures the dispersion from the mean and should only be used when the mean (and not the median) is chosen as the measure for midpoint.

  • The standard deviation is zero when there is no spread in a distribution. This only happens if all values ​​are the same. If not, then that standard deviation is greater than zero. The more spread there is, the greater s becomes.

  • The standard deviation s, like the mean, is not robust. The presence of a few outliers can immediately make s very large. The standard deviation is even more sensitive to extreme scores compared to the mean.

  • Distributions with a strong deviation (left or right) have large standard deviations. In this case it is not very useful to calculate the standard deviation. The five-number summary is often more useful than the mean and standard deviation when an anomalous distribution must be described or when a distribution has extreme outliers. Using the mean and standard deviation is more useful when few outliers are present and when the distribution is symmetrical.

How can you transform units of measurement?

The same variable can often be measured using different units of measurement. For example, temperature can be measured in both Fahrenheit and Celsius. Fortunately, converting units of measurement is easy. This is because a change in unit of measure is a linear transformation of the measurements. Such a transformation does not change the shape of a distribution. If temperature measurements in Fahrenheit result in a distribution with a deviation to the right, then it will remain so when the values ​​have been converted to Celsius. However, the spread and center will change after such a change. A linear transformation turns the original variable x into a new variable (xnew) based on the following formula:

  • xnew = a + bx. Adding the constant a changes all values ​​of x by the same amount. Such an adjustment changes the zero point of a variable. Multiplying by the positive constant b changes the size of the measurement unit.

  • To consider the effect of linear transformation on measures of dispersion and on measures of the center, it is important to multiply each observation by the positive number b. This ensures that the median, mean, standard deviation, and IQR are multiplied by b.

  • Adding the same number a (whether it is positive or negative) to each observation adds a to the mean, median, quartiles, and percentiles. Spread sizes are not affected, however.

What are normal distributions?

What are density curves?

Creating histograms manually is inconvenient. Today, scientists often use computer programs to make histograms. The advantage of computer programs is that you can also make a suitable curve based on a histogram. These are called density curves. A histogram, as it were, "flows" through such a curve. Areas under the curve represent proportions of scores.

  • A density curve is always created above the horizontal axis.

  • The total area within the curve equals 1.

  • A density curve describes the general pattern of a distribution. Density curves, like distributions, can take all kinds of shapes. A special variant is the normal distribution, where both halves of the curve are symmetrical. Outliers are not described with a density curve.

How do you measure the center and the spread with normal distributions?

The mode of a distribution describes the peak point of the curve. It is therefore about the place where the curve is highest. Since areas under the curve represent proportions, the median is the point that is exactly in the middle.

The quartiles can be estimated by dividing the curve into approximately four equal parts. The IQR is then the distance between the first and third quartiles. There are arithmetic ways to calculate the areas under a curve. These arithmetic ways allow us to calculate the median and the quartiles precisely.

The mean of a density curve is the point at which the curve would balance if it were made of solid material. With a symmetrical curve, the median and the mean are at the same point. This is not the case with a different distribution. For a curve with a deviation to the right, the median is slightly more towards the peak of the curve than the mean. The mean is therefore more towards the tail. With a deviating distribution it is difficult to determine the balance point with the naked eye. There are arithmetic ways to calculate the mean and standard deviation of a density curve. In short:

  • So the median of a density curve is at the point that bisects the area under the curve.

  • The mean of a density curve is the balance point at which the curve would balance if it were made of solid material.

  • The median and the mean are the same for a symmetrical density curve. The mean of an abnormal distribution is more in the direction of the long tail, while the median is more in the direction of the peak.

What are characteristics of normal distributions?

We indicate the mean of a density curve with the letter µ. The standard deviation is noted using the symbol σ. These values ​​are approximated with the sample mean () and the standard deviation (s) associated with these scores. Normal distributions are symmetrical and unimodal, so they only have one peak. Changing µ (while keeping the standard deviation unchanged) causes the position of the curve on the horizontal axis to shift, while the scatter remains the same. A curve with a larger standard deviation is wider and lower. The standard deviation σ is the measure of dispersion that belongs to a normal distribution. Together with µ, σ determines the shape of a normal distribution.

Why are normal distributions important in statistics?

  • Normal distributions are good descriptions of distributions that belong to real data. These are distributions that are distributed almost normally. Examples are distributions of height, weight and IQ.

  • Normal distributions are good approximations of the outcomes of probability calculations, for example in the case of tossing a coin.

  • Finally, normal distributions are useful, because statistical calculations (made on the basis of normal distributions) can be used for other, almost symmetrical distributions.

What are common features of normal distributions?

There are many types of normal distributions, but they have some common features. The main features are set out below.

  • About 68% of the scores fall within 1 standard deviation (σ) of the mean (µ).

  • About 95% of the scores fall within two standard deviations of the mean.

  • About 99.7% of the scores fall within three standard deviations of the mean.

The top features are collectively known as the 68-95-99.7 rule. The normal distribution with mean µ and standard deviation σ is noted as N (µ, σ). For example, when researching the height of Dutch women, it is possible that N (1.70,10) is found.

What are standardized values?

If someone has scored sixty points on a test, you don't know if this is a high or low score compared to all other scores. It is therefore important to standardize the value.

  • If x is a score from a distribution with mean µ and standard deviation σ, then the standardized value of x is: z = (x-µ) / σ. A standardized value is often referred to as a z-score.

  • The standardized values ​​of a distribution together have an average of 0 and a standard deviation of 1. The standardized normal distribution therefore has the N (0,1) distribution.

What are Cumulative Proportions?

The precise calculation of the proportions under the normal distribution can be done by means of z-tables or software.

  • Z-tables and software often calculate a cumulative proportion: this is the proportion of observations in a distribution that is below or exactly equal to a certain value.

When a distribution is described by means of a density curve, the cumulative proportion is the area under the curve that lies to the left of a given value. This is taken into account if, for example, you only want the proportion that is to the right of the value. In that case you have to calculate 1- the proportion on the left. The z-table can be used to find proportions under the curve. To do this, scores must first be standardized. An example is that you want to know how many students had at least a score of 820 on a certain test. The mean turns out to be 1026 and the standard deviation is 209.

  • The corresponding z-score is: 820-1026 / 209 = -0.99.

  • Then the z-table has to be used to see which proportion belongs to -0.99. That turns out to be 0.1611. The area to the right of -0.99 is therefore 1-0.1611 = 0.8389.

  • If you had wanted to know how many students got a maximum score of 820, the answer would have been 0.1611.

What is a normal quantile plot?

Stem-and-leaf diagrams and histograms are often used to see if a distribution is normally distributed. However, the normal quantile plot is the best graphical way to discover normality. It is not practical to make such a plot yourself. In most cases software is therefore used. Below is a general picture of how such a plot can be created manually.

  • First of all, scores are listed from smallest to largest. It is also noted with which percentile each value goes together.

  • Next, the z-values ​​must be found that go together with these percentiles. These are also referred to as z-normal scores.

  • Finally, each data point must be graphically linked to the corresponding normal score. If the distribution is (almost) normally distributed, then the data points will be almost on a straight line. Systematic deviations from the straight line indicate a non-normally distributed distribution. Outliers are data points that are far from the general pattern in the plot.

What are statistical relationships? - Chapter 2
How to collect data for the purpose of statistics? - Chapter 3
What is probability theory? - Chapter 4
What are sampling distributions? - Chapter 5
What is statistical inference? - Chapter 6
What are statistical inferences for distributions? - Chapter 7
What are statistical inferences for proportions? - Chapter 8
What are statistical inferences for categorical data? - Chapter 9
What is regression? - Chapter 10
What is multiple regression? - Chapter 11
What is one-way ANOVA? - Chapter 12
What is two-way ANOVA? - Chapter 13
What is logistic regression? - Chapter 14
What are non-parametric tests? - Chapter 15
ExamTests per chapter with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle
Samenvattingen en studiehulp bij oudere drukken van Introduction to the Practice of Statistics van Moore, McCabe & Craig - Bundel

Samenvattingen en studiehulp bij oudere drukken van Introduction to the Practice of Statistics van Moore, McCabe & Craig - Bundel

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics by Moore, McCabe & Craig

Study guide with Introduction to the Practice of Statistics

Online summaries and study assistance with the 10th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig

Prints & Pickup with Introduction to the Practice of Statistics

Related content on joho.org

ExamTests per chapter with the 9th edition of Introduction to the Practice of Statistics by Moore, McCabe & Craig - Bundle

  

Tentamens en tests

   

    

   

Shop voor prints & pickups

  

 

JoHo: crossroads uit de bundels