Samenvatting bij de 9e druk van Statistics for Business and Economics van Newbold


Hoe kunnen data grafisch worden weergegeven? - Chapter 1

 

Statistieken worden in veel aspecten van ons dagelijks leven gebruikt: om de verkoop van een nieuw product te voorspellen, of bijvoorbeeld om het weer, gemiddelde cijferpunten, enzovoort te voorspellen. We moeten constant grote hoeveelheden gegevens opnemen en interpreteren. Wat moeten we er echter mee doen als de gegevens eenmaal zijn verzameld? Hoe beïnvloeden gegevens de besluitvorming? Over het algemeen helpen statistieken ons om gegevens te begrijpen. In dit eerste hoofdstuk zullen we grafische manieren introduceren om gegevens te presenteren. Deze grafische weergaven (tabellen en plots) helpen om de gegevens beter te begrijpen. Voorbeelden van dergelijke grafische weergaven zijn: tabellen, staafdiagrammen, cirkeldiagrammen, histogrammen, stengel- en bladweergaven, enzovoort.

Hoe kun je beslissingen nemen in een onzekere omgeving?

Vaak zijn beslissingen gebaseerd op beperkte informatie. Stel bijvoorbeeld dat iemand geïnteresseerd is in het op de markt brengen van een nieuw product. Alvorens dit te doen, wil de fabrikant een marktonderzoek uitvoeren om het potentiële vraagniveau te beoordelen. Hoewel de fabrikant geïnteresseerd is in alle potentiële kopers (populatie), is deze groep vaak te groot om te analyseren. Gegevens verzamelen voor de hele bevolking is onmogelijk of onbetaalbaar. Daarom is een representatieve subgroep van de populatie (steekproef) nodig.

Steekproef en populatie

Een populatie is de complete set van alle items (waarnemingen) waarin men geïnteresseerd is. De populatiegrootte wordt aangegeven met N en kan zeer groot zijn, soms zelfs oneindig. Een steekproef is een waargenomen subset van de populatie. De steekproefgrootte wordt aangegeven met n.

Steekproeftrekking

Er zijn verschillende manieren om een ​​representatieve subgroep (steekproef) van de populatie te verkrijgen. Dit proces wordt ook steekproeftrekking (in het Engels: sampling) genoemd. Zo kan een eenvoudige willekeurige steekproef (SRS) worden uitgevoerd. SRS is een procedure om een ​​steekproef van n objecten (individuen) zo te selecteren dat elk lid van de populatie puur toevallig wordt gekozen. De selectie van een lid heeft geen invloed op de selectie (kans) van een ander lid. Met andere woorden, elke observatie (individu) heeft een gelijke kans om in de steekproef te worden opgenomen. SRS komt heel veel voor, met als gevolg dat het bijvoeglijk naamwoord vaak wegvalt, wat betekent dat de resulterende steekproef vaak simpelweg een "willekeurige steekproef" (random sample) wordt genoemd. Een tweede manier van steekproeftrekking wordt systematische steekproeftrekking genoemd. Voor systematische steekproeven is de populatielijst op een bepaalde manier gerangschikt. Deze rangschikking houdt geen verband houdt met de variable van interesse. Bij systematische steekproeven wordt elk jde-item in de populatie geselecteerd, waarbij j de verhouding is van de populatiegrootte N tot de gewenste steekproefgrootte n, dat wil zeggen: j = N / n. Het eerste item dat in willekeurig geselecteerde items moet worden opgenomen. Systematische steekproeven geven een goede weergave van de populatie als er geen cyclische variatie in de populatie is.

Parameter en statistiek

Een parameter is als een maat die een populatiekarakteristiek beschrijft. Een statistiek wordt gedefinieerd als een numerieke maat die een steekproefkarakteristiek beschrijft. Als we bijvoorbeeld het gemiddelde IQ van 500 geregistreerde kiezers meten, wordt dit gemiddelde een statistiek genoemd. Als we om de een of andere reden het gemiddelde IQ van de gehele populatie kunnen berekenen, wordt dit resulterende gemiddelde een parameter genoemd.

In de praktijk zijn we meestal niet in staat om de relevante parameters direct te meten. Daarom gebruiken we statistieken om enig inzicht te krijgen in de populatiewaarden. We moeten ons echter realiseren dat er altijd een element van onzekerheid bij betrokken is, omdat we de exacte waarde van de bevolking niet kennen. Er zijn twee bronnen van fouten die deze onzekerheid beïnvloeden. Ten eerste is de steekproeffout (in het Engels: sampling error) te wijten aan het feit dat informatie beschikbaar is over slechts een subset van de populatieleden (meer in detail besproken in hoofdstukken 6, 7 en 8). Ten tweede is de niet-steekproeffout (in het Engels: non-sampling error) niet verbonden met de gebruikte bemonsteringsprocedure. Voorbeelden van niet-monsterfouten zijn: de steekproef die is bemonsterd is eigenlijk niet de relevante; deelnemers aan de enquête kunnen onnauwkeurige of oneerlijke antwoorden geven; ondervraagden reageren mogelijk helemaal niet op (bepaalde) vragen.

Welke stappen dien je te nemen bij het statistisch denken?

Statistisch denken begint met probleemdefinitie:

  1. Welke informatie is vereist?
  2. Wat is de populatie van interesse?
  3. Hoe moeten steekproefleden worden geselecteerd?
  4. Hoe moet informatie van de steekproefleden worden verkregen?

Na het beantwoorden van deze vragen zijn we geïnteresseerd in de vraag hoe we steekproefinformatie kunnen gebruiken om beslissingen over de populatie te nemen. Voor deze besluitvorming zijn zowel beschrijvende statistieken als inferentiële statistieken vereist. Beschrijvende statistieken zijn gericht op grafische en numerieke procedures; ze worden gebruikt om gegevens samen te vatten en te verwerken. Vervolgens gebruiken inferentiële statistieken de gegevens om voorspellingen, voorspellingen en schattingen te doen om beslissingen te nemen.

Wat is een variabele en wat zijn de meetniveaus van een variabele?

Een variabele is een kenmerk van een individu of objecten. Voorbeelden zijn leeftijd en gewicht.

Variabelen zijn ofwel categorisch (met antwoorden die tot groepen of categorieën behoren) of numeriek (met antwoorden die tot een numerieke schaal behoren). Numerieke variabelen kunnen worden onderverdeeld in discreet en continu. Een discrete numerieke variabele kan (maar hoeft niet) een eindig aantal waarden te hebben. Discrete numerieke variabelen komen vaak van een telproces, zoals het aantal studenten in een klas of het aantal studiepunten dat studenten hebben verdiend. Een continue numerieke variabele kan elke waarde aannemen binnen een gegeven bereik van reële getallen. Continue numerieke variabelen vloeien vaak voort uit een meetproces in plaats van een telproces. Voorbeelden zijn gewicht, lengte en de afstand tussen twee steden.

Variabelen kunnen op verschillende manieren worden gemeten. Het belangrijkste onderscheid is tussen kwantitatief (waarin er een meetbare betekenis is voor het verschil in getallen) en kwalitatief (waarbij er geen meetbare betekenis is voor het verschil in getallen). Kwalitatieve gegevens kunnen verder worden onderverdeeld in nominale en ordinale gegevens. Nominale variabelen worden als het laagste meetniveau beschouwd. De numerieke identificatie wordt strikt voor uw gemak gekozen en houdt geen rangorde in van antwoorden (bijvoorbeeld: land van nationaliteit of geslacht). Ordinale variabelen impliceren een rangorde van de gegevens (bijvoorbeeld productkwaliteit, met 1 = slecht, 2 = gemiddeld, 3 = goed). Kwantitatieve gegevens kunnen verder worden onderverdeeld in interval (willekeurige nul) en ratio (absolute nul). Temperatuur wordt bijvoorbeeld beschouwd als een intervalvariabele (het heeft een willekeurig nulpunt). Gewicht wordt beschouwd als een verhoudingsvariabele (het heeft een absoluut nulpunt).

Hoe kunnen categorische variabelen grafisch worden beschreven?

Categorische variabelen kunnen op verschillende manieren grafisch worden beschreven. Deze worden in dit gedeelte kort geïntroduceerd.

Een frequentieverdeling is een tabel die wordt gebruikt om gegevens te ordenen. De linkerkolom bevat alle mogelijke antwoorden van een variabele. De rechterkolom bevat de frequenties, het aantal waarnemingen voor elke mogelijke reactie. Men kan ook een relatieve frequentieverdeling verkrijgen door elke frequentie te delen door het aantal waarnemingen en de resulterende verhouding met 100% te vermenigvuldigen.

Frequenties kunnen ook worden weergegeven door middel van grafieken. Veelgebruikte grafieken om frequenties weer te geven zijn een staafdiagram en een cirkeldiagram. Anders dan een histogram, is het in een staafdiagram (in het Engels: bar chart) niet nodig dat de balken elkaar "raken". Elke balk geeft de frequentie van een categorie weer. Een staafdiagram wordt vaak gebruikt als men de aandacht op de frequentie van elke categorie wil vestigen. Een cirkeldiagram (in het Engels: pie chart) wordt vaak gebruikt als men de aandacht wil vestigen op het aandeel van frequenties in elke categorie. De "taart" (dat wil zeggen de cirkel) vertegenwoordigt het totaal, en de "stukken" (de segmenten) vertegenwoordigen aandelen (categorieën) van dat totaal.
Een speciaal type staafdiagram is een Pareto-diagram. Een Pareto-diagram geeft de geordende frequenties aan. De balk links geeft de meest voorkomende oorzaak aan. De balken rechts geven oorzaken aan met afnemende frequenties. Een Pareto-diagram wordt gewoonlijk gebruikt om de "vitale enkelingen" te scheiden van de "triviale velen".

Een kruistabel (ook bekend als contingentietabel) geeft het aantal waarnemingen weer voor elke combinatie van waarden voor twee categorische variabelen (nominaal of ordinaal). De combinatie van alle mogelijke intervallen voor deze twee variabelen bepaalt het aantal cellen in het aantal. Een kruistabel met r rijen (d.w.z. aantal variabelen van de eerste variabele) en c kolommen (d.w.z. het aantal categorieën van de tweede variabele) wordt een r x c kruistabel genoemd.

Hoe kunnen tijdreeksgegevens grafisch worden weergegeven?

Cross-sectionele gegevens zijn gegevens die op één tijdstip worden verzameld. Tijdreeksgegevens (in het Engels" time-series data) hebben daarentegen betrekking op gegevens die op opeenvolgende tijdstippen worden gemeten. Met andere woorden, een tijdreeks is een reeks metingen, die in de tijd worden geordend, voor een bepaalde hoeveelheid interesse. De volgorde van de waarnemingen in tijdreeksen is belangrijk. Tijdreeksgegevens kunnen grafisch worden weergegeven door een lijndiagram, ook bekend als een tijdreeksplot. Dit is een plot met tijd op de horizontale as en de numerieke hoeveelheid interesse langs de verticale as. Elke observatie levert één punt op de grafiek op. Door aangrenzende punten in de tijd samen te voegen door een rechte lijn, wordt een tijdreeksplot geproduceerd. Tijdreeksen kunnen dus worden gebruikt om grafisch een trend in de tijd weer te geven, zoals het bruto binnenlands product in de tijd, de wisselkoersen (USD naar EUR) gedurende een decennium, of de ontvangsten en uitgaven van de federale overheid in de afgelopen eeuw.

Hoe kunnen numerieke gegevens grafisch worden weergegeven?

Er zijn verschillende manieren om numerieke variabelen grafisch te beschrijven.

Net als categorische variabelen kan men een frequentieverdeling voor numerieke variabelen creëren. De klassen (intervallen) voor een frequentieverdeling voor numerieke gegevens zijn echter niet zo gemakkelijk te identificeren als voor categorische gegevens. Om een frequentieverdeling voor numerieke gegevens te construeren, moeten drie regels worden gevolgd:

  1. Bepaal k, dat is het aantal klassen. Om dit te doen, kan men de volgende snelgids (in het Engels: quick guide) gebruiken om het aantal klassen te schatten:

    Steekproefgrootte (n)Aantal klassen (k)
    Minder dan 505 - 7
    50 - 1007 - 8
    101 - 5008 - 10
    501 - 100010 - 11
    1001 - 500011 - 14
    Meer dan 500014 - 20

    Hoewel deze korte handleiding een vuistregel biedt, blijft deze enigszins willekeurig. Vaak bieden oefening en ervaring de beste richtlijnen. Over het algemeen vereisen grotere gegevenssets meer klassen dan kleinere gegevenssets. Als er te weinig klassen zijn geselecteerd, kunnen patronen en kenmerken van de gegevens verborgen zijn. Wanneer te veel klassen zijn geselecteerd, bevatten sommige intervallen mogelijk geen waarnemingen of hebben ze zeer kleine frequenties.

  2. Elke klasse moet dezelfde breedte hebben, aangegeven met w. De breedte wordt bepaald door:
    w = Klassebreedte = (grootste waarneming - kleinste waarneming) / aantal klassen
    Merk op dat w altijd naar boven moet worden afgerond.
  3. Klassen moeten inclusief en niet overlappend zijn.
    Met andere woorden, elke observatie moet tot één en slechts één klasse behoren. Stel dat de frequentieverdeling de volgende klassen bevat: "leeftijd 20 - 30", "leeftijd 30 - 40" en "leeftijd 40+". Tot welke categorie behoort een persoon van 30 jaar? Het is daarom belangrijk om de grenzen of eindpunten van elke klasse duidelijk te identificeren. Om overlapping te voorkomen, zou men bijvoorbeeld de klassen als volgt kunnen herdefiniëren: "leeftijd 20, maar minder dan 30 jaar", "leeftijd 30 maar minder dan 40 jaar", "leeftijd 40 jaar en ouder".

Een cumulatieve frequentieverdeling bevat het totale aantal observaties waarvan de waarden lager zijn dan de bovengrens voor een bepaalde klasse. De cumulatieve frequenties kunnen worden geconstrueerd door de frequenties van alle frequentieverdelingsklassen tot en met de huidige klasse toe te voegen. In een relatieve cumulatieve frequentieverdeling worden deze cumulatieve frequenties uitgedrukt als cumulatieve verhoudingen of procent.

Een histogram is een grafische weergave, bestaande uit verticale balken opgebouwd op een horizontale lijn die intervallen oplevert voor de variabele die wordt weergegeven. Deze intervallen komen overeen met de klassen in een frequentieverdelingstabel. De hoogte van elke balk is evenredig met het aantal waarnemingen (de frequentie) in dat interval. Het aantal observaties kan (maar hoeft niet) boven de balken te worden weergegeven.

Een ogive (ook bekend als cumulatieve lijngrafiek) is een lijn die punten verbindt die het cumulatieve percentage waarnemingen zijn onder de bovengrens van elk interval in een cumulatieve frequentieverdeling.

De vorm van een verdeling kan onder andere worden gemeten via symmetrie en scheefheid. Een verdeling wordt symmetrisch genoemd wanneer de waarnemingen in evenwicht zijn of ongeveer gelijk verdeeld over het midden. Er wordt gezegd dat een verdeling scheef is wanneer de waarnemingen niet symmetrisch aan weerszijden van het midden zijn verdeeld. Een verdeling is scheef naar rechts (ook bekend als positief scheef) wanneer het een staart heeft die zich verder naar rechts uitstrekt. Een verdeling is scheef naar links (negatief scheef) wanneer de staart zich verder naar links uitstrekt. Inkomen is bijvoorbeeld scheef, omdat er een relatief klein aantal mensen met een hoog inkomen is. Een groot deel van de bevolking ontvangt een bescheiden inkomen en slechts een klein deel ontvangt een (zeer) hoog inkomen.

Een stam-en-blad-weergave is een grafiek die wordt gebruikt voor verkennende gegevensanalyse. Het biedt een alternatief voor een histogram. De "leidende" (eerste) cijfers worden weergegeven in de stelen. De laatste cijfers worden bladeren genoemd. De bladeren worden afzonderlijk vermeld voor elk lid van een klas. Ze worden in oplopende volgorde na elk van de stelen afgeleverd.

Hoe kunnen twee numerieke variabelen grafisch worden weergegeven?

Tot nu toe hebben we vooral de grafische weergave van een enkele variabele besproken. Grafische weergaven kunnen echter ook worden gebruikt om twee variabelen weer te geven. Een dergelijke mogelijkheid wordt geboden door een spreidingsplot. Een spreidingsplot (in het Engels: scatter plot) is een grafische weergave van twee numerieke variabelen, vaak een onafhankelijke variabele (op de x-as) en een afhankelijke variabele (op de y-as). De spreidingsplots bevatten de volgende informatie: het bereik van beide variabelen, het waardenpatroon over het bereik, een suggestie voor een mogelijk verband tussen de twee variabelen en een indicatie van uitbijters (extreme punten). Een voorbeeld van een eenvoudig spreidingsdiagram tussen variabele X en Y wordt hieronder weergegeven.

Wat zijn veelvoorkomende fouten bij het presenteren van gegevens?

Helaas kunnen bij het grafisch weergeven van gegevens fouten worden gemaakt. Slecht ontworpen grafieken kunnen de waarheid gemakkelijk vervormen. Daarom is nauwkeurig grafisch ontwerp van het grootste belang. Grafieken moeten overtuigend, duidelijk en waarheidsgetrouw zijn. In deze sectie worden enkele veelvoorkomende voorbeelden van misleidende grafieken besproken.

Histogrammen kunnen misleidend zijn. We weten dat de breedte van alle intervallen hetzelfde moet zijn. Maar soms komen onderzoekers in de verleiding om een ​​frequentieverdeling met enkele smalle intervallen te construeren waar het grootste deel van de waarnemingen zich bevindt, en bredere waarnemingen elders. Dergelijke ongelijke intervallen kunnen leiden tot een onjuiste interpretatie van de weergegeven gegevens. Over het algemeen kunnen we stellen dat we onder geen enkele omstandigheid ooit een histogram met ongelijke fouten moeten construeren. Dit wordt alleen beschouwd als een waarschuwing tegen misleidende grafieken.

Een tijdreeksplot kan misleidend zijn door een bepaalde meetschaal te selecteren. Deze schaal kan namelijk zodanig worden gekozen dat deze de indruk kan wekken van relatieve stabiliteit of aanzienlijke fluctuaties in de tijd (afhankelijk van wat men wil benadrukken). Hoewel er geen "juiste" schaalkeuze is voor een bepaalde tijdreeksplot, moet u rekening houden met de schaal waarop de metingen worden uitgevoerd. De lezer moet zich dus bewust zijn van deze potentiële invloed bij het interpreteren van de grafiek.

Bullet points

  • Een populatie is de complete set van alle items (waarnemingen) waarin men geïnteresseerd is. De populatiegrootte wordt aangegeven met N en kan zeer groot zijn, soms zelfs oneindig. Een steekproef is een waargenomen subset van de populatie. De steekproefgrootte wordt aangegeven met n.
  • Een parameter is als een maat die een populatiekarakteristiek beschrijft. Een statistiek wordt gedefinieerd als een numerieke maat die een steekproefkarakteristiek beschrijft. Als we bijvoorbeeld het gemiddelde IQ van 500 geregistreerde kiezers meten, wordt dit gemiddelde een statistiek genoemd. Als we om de een of andere reden het gemiddelde IQ van de gehele populatie kunnen berekenen, wordt dit resulterende gemiddelde een parameter genoemd.
  • Variabelen kunnen op verschillende manieren worden gemeten. Het belangrijkste onderscheid is tussen kwantitatief (waarin er een meetbare betekenis is voor het verschil in getallen) en kwalitatief (waarbij er geen meetbare betekenis is voor het verschil in getallen). Kwalitatieve gegevens kunnen verder worden onderverdeeld in nominale en ordinale gegevens. Nominale variabelen worden als het laagste meetniveau beschouwd. De numerieke identificatie wordt strikt voor uw gemak gekozen en houdt geen rangorde in van antwoorden (bijvoorbeeld: land van nationaliteit of geslacht). Ordinale variabelen impliceren een rangorde van de gegevens (bijvoorbeeld productkwaliteit, met 1 = slecht, 2 = gemiddeld, 3 = goed). Kwantitatieve gegevens kunnen verder worden onderverdeeld in interval (willekeurige nul) en ratio (absolute nul). Temperatuur wordt bijvoorbeeld beschouwd als een intervalvariabele (het heeft een willekeurig nulpunt). Gewicht wordt beschouwd als een verhoudingsvariabele (het heeft een absoluut nulpunt).
  • De vorm van een verdeling kan onder andere worden gemeten via symmetrie en scheefheid. Een verdeling wordt symmetrisch genoemd wanneer de waarnemingen in evenwicht zijn of ongeveer gelijk verdeeld over het midden. Er wordt gezegd dat een verdeling scheef is wanneer de waarnemingen niet symmetrisch aan weerszijden van het midden zijn verdeeld. Een verdeling is scheef naar rechts (ook bekend als positief scheef) wanneer het een staart heeft die zich verder naar rechts uitstrekt. Een verdeling is scheef naar links (negatief scheef) wanneer de staart zich verder naar links uitstrekt. Inkomen is bijvoorbeeld scheef, omdat er een relatief klein aantal mensen met een hoog inkomen is. Een groot deel van de bevolking ontvangt een bescheiden inkomen en slechts een klein deel ontvangt een (zeer) hoog inkomen.
  • Er zijn vuistregels om de breedte van een interval te bepalen. De breedte wordt bepaald door: w = Klassebreedte = (grootste waarneming - kleinste waarneming) / aantal klassen. Merk op dat w altijd naar boven moet worden afgerond. Het aantal klassen kan geschat worden middels een aantal vuistregels, samengevat in de snelguids (quick guide).

 

Statistieken worden in veel aspecten van ons dagelijks leven gebruikt: om de verkoop van een nieuw product te voorspellen, of bijvoorbeeld om het weer, gemiddelde cijferpunten, enzovoort te voorspellen. We moeten constant grote hoeveelheden gegevens opnemen en interpreteren. Wat moeten we er echter mee doen als de gegevens eenmaal zijn verzameld? Hoe beïnvloeden gegevens de besluitvorming? Over het algemeen helpen statistieken ons om gegevens te begrijpen. In dit eerste hoofdstuk zullen we grafische manieren introduceren om gegevens te presenteren. Deze grafische weergaven (tabellen en plots) helpen om de gegevens beter te begrijpen. Voorbeelden van dergelijke grafische weergaven zijn: tabellen, staafdiagrammen, cirkeldiagrammen, histogrammen, stengel- en bladweergaven, enzovoort.

 

 

Hoe kunnen data numeriek worden beschreven? - Chapter 2

 

 

In Chapter 1 hebben we besproken hoe gegevens grafisch kunnen worden beschreven. In dit hoofdstuk zullen we bespreken hoe gegevens numeriek kunnen worden beschreven. Verder zullen we de verschillende numerieke maten bespreken die kunnen worden gebruikt voor categorische en numerieke variabelen, evenals maten voor gegroepeerde gegevens, en maten om de relatie tussen twee variabelen te beschrijven.

Welke maten zijn er voor centrale tendens en locatie?

Een centrale vraag in de statistiek is of de gegevens in een steekproef gecentreerd zijn of zich rond een bepaalde waarde bevinden. In het eerste hoofdstuk hebben we de verschillende grafische weergaven besproken om dit te onderzoeken. Een histogram geeft ons bijvoorbeeld een visueel beeld van de vorm van een distributie en geeft een idee of de gegevens de neiging hebben om een ​​bepaalde waarde te centreren. In deze sectie gaan we verder met numerieke maten om deze vraag van centrale tendens of locatie te beantwoorden. Deze maten worden ook wel maten van centrale tendens (in het Engels: measures of central tendency) genoemd. Gewoonlijk zijn deze maten van centrale tendens berekend uit steekproefgegevens (statistieken) in plaats van populatiegegevens (parameters).

Rekenkundig gemiddelde (arithmetic mean)

De eerste maat voor centrale tendens is het rekenkundig gemiddelde, meestal simpelweg aangeduid als gemiddelde. Het gemiddelde is de som van de gegevenswaarden gedeeld door het aantal waarnemingen. Als deze gegevensverzameling betrekking heeft op de gehele populatie, is de formule voor de parameter:

\[\mu = \frac{\sum^{N}_{i=1} x_{i}}{N} = \frac{x_{1}+x_{2}+...x_{N}}{N} \]

waarbij N = populatie grootte en Σ betekent "som van" of "gesommeerd over".

Wanneer de gegevensverzameling betrekking heeft op de steekproef, dan is de formule voor de statistic:

\[\bar{x} = \frac{\sum^{n}_{i=1} x_{i}}{n} \]

waarbij n = steekproef grootte.

Mediaan

De tweede maat voor centrale tendens is de mediaan. Voor de mediaan moeten we de gegevens in toenemende of afnemende volgorde rangschikken. De mediaan is dus de middelste waarneming. Als het aantal waarnemingen een even aantal is, is de mediaan het gemiddelde van de twee middelste waarnemingen. In de formule is de mediaan het getal op: 0,50 (n + 1)de orderpositie.

Modus

De derde maat voor centrale tendens is de modus: de meest voorkomende waarde. Als een bepaalde verdeling slechts één modus heeft, wordt de verdeling unimodaal genoemd. Als een distributie twee modi heeft, wordt deze bimodaal genoemd. Voor meer dan twee modi wordt de distributie multimodaal genoemd.

Geometrisch gemiddelde

Een andere maat voor centrale tendens is het geometrisch gemiddelde, gegeven met de volgende formule:

\[\bar{x}_{g} = \sqrt[n]{(x_{1}x_{2}...x_{n})} = (x_{1}x_{2}...x_{n})^{1/n} \]

Het geometrische gemiddelde is de nde wortel van het product van n getallen.

Het geometrische gemiddelde rendement geeft het gemiddelde procentuele rendement van een investering in de tijd. Wordt gegeven door:

\[\bar{r}_{g} = (x_{1}x_{2}...x_{n})^{1/n}-1 \]

Het geometrische gemiddelde verschilt van het rekenkundig gemiddelde. Stel dat we twee observaties hebben: 20 en 5. Het rekenkundig gemiddelde = (20 + 5) / 2 = 12.5. Het geometrische gemiddelde = √ (20 * 5) = √100 = 10.

Percentielen en kwartielen

Andere maten van centrale tendens zijn percentielen en kwartielen. Deze metingen geven de locatie aan van een waarde ten opzichte van alle waarnemingen in de gegevensset. Als iemand je bijvoorbeeld vertelt dat je op je statistiekexamen in het 96e percentiel hebt gescoord, betekent dit dat ongeveer 96% van de studenten die dit examen hebben afgelegd lager scoort dan jij en dat ongeveer 4% van de studenten die dit examen hebben afgelegd hoger scoort dan je deed. Percentielen en kwartielen worden vaak gebruikt om grote data sets te beschrijven.

Er is enige onenigheid over het berekenen van percentielen en kwartielen. Als gevolg hiervan worden enigszins verschillende waarden gevonden bij het gebruik van verschillende computersoftwareprogramma's (zoals SPSS, R en SAS). In dit boek gebruiken we de formules zoals hieronder beschreven. Om percentielen en kwartielen te vinden, moeten de gegevens eerst in oplopende volgorde worden gerangschikt.

Het P-percentiel wordt als volgt berekend: waarde op de geordende positie (P / 100) (n + 1)

Kwartielen scheiden de gegevensset in vier kwartalen. Het eerste kwartiel (Q1) is gelijk aan het 25e percentiel en scheidt ongeveer de kleinste 25% van de rest van de gegevens. Het tweede kwartiel (Q2) is gelijk aan het 50e percentiel en is gelijk aan het gemiddelde. Het derde kwartiel (Q3) is het 75e percentiel en scheidt ongeveer de kleinste 75% van de gegevens van de grootste 25% van de gegevens. Dus:

  • Q1 = de waarde in de 0,25 (n + 1)de geordende positie
  • Q2 = de waarde in de 0,50 (n + 1)de geordende positie
  • Q3 = de waarde in de 0,75 (n + 1)de geordende positie

Dit kan ook worden samengevat in de samenvatting met vijf cijfers (in het Engels: five-number summary), die bestaat uit: (1) het minimum; (2) Q1; (3) de mediaan; (4) Q3; (5) het maximum.

Welke maat voor centrale tendens moet wanneer gebruikt worden?

Om te bepalen of het gemiddelde, de mediaan of de modus het meest geschikt is voor de beschikbare gegevens, moeten we naar de structuur van de data kijken. Een factor die deze beslissing beïnvloedt, is het type gegevens: categorisch of numeriek. Het gemiddelde is geschikt voor numerieke gegevens. De mediaan en de modus worden vaak gebruikt bij categorische gegevens.

Het gemiddelde is niet geschikt voor categorische gegevens. Stel bijvoorbeeld dat u gegevens hebt verzameld over het land van herkomst. Elk land krijgt een (willekeurige) waarde. Bijvoorbeeld Duitsland = 1, Nederland = 2 en België = 3. Stel dat er 10 deelnemers uit Duitsland zijn, 5 uit Nederland en 5 uit België. Hoewel we het gemiddelde kunnen berekenen (dat wil zeggen: (10 * 1 + 5 * 2 + 5 * 3) / 30) = 1.17, is dit getal in deze context niet zinvol. Evenzo is de mediaan (2.5) hier niet erg zinvol. Een betere maat in dit geval is de modus, de meest voorkomende waarde. In dit voorbeeld is de modus 1 (d.w.z. de meeste deelnemers zijn Duits).

Naast het type gegevens is een andere factor om rekening mee te houden de aanwezigheid van uitbijters. Uitbijters zijn observaties die ongewoon groot of ongewoon klein zijn in vergelijking met de andere gegevensobservaties. De mediaan wordt niet beïnvloed door uitbijters. Het gemiddelde wordt echter beïnvloed door uitbijters. In hoofdstuk 1 hebben we al rechts scheef en links scheef verdelingen beschreven. Als er veel ongewoon grote waarnemingen (uitbijters) zijn, zal het gemiddelde de neiging hebben naar rechts te bewegen, terwijl de mediaan ongewijzigd blijft. Als er veel ongewoon kleine waarnemingen (uitbijters) zijn, zal het gemiddelde neigen naar links te bewegen, terwijl de mediaan ongewijzigd blijft. Houd er rekening mee dat dit niet betekent dat de mediaan altijd de voorkeur verdient boven het gemiddelde wanneer de populatie of het monster scheef staat. In sommige situaties heeft het gemiddelde nog steeds de voorkeur, zelfs als de gegevens scheef staan. Bedenk bijvoorbeeld dat een bepaald bedrijf wil weten hoeveel geld moet worden gebudgetteerd om claims te dekken. In dat geval zijn alle observaties belangrijk, en het gemiddelde is de meest geschikte maat voor centrale neiging. Als het bedrijf daarentegen de meest typische claimgrootte wil weten, is de mediaan geschikter.

Welke maten van variabiliteit zijn er?

Vaak zijn maten van centrale tendens alleen onvoldoende om de gegevens te beschrijven. Verschillende steekproeven kunnen bijvoorbeeld hetzelfde gemiddelde hebben, maar individuen kunnen meer afwijken van het gemiddelde in het eerste steekproef dan waarnemingen in de tweede steekproef. Naast deze maatregelen van centrale tendens moeten ook maten van variabiliteit worden verstrekt. In deze sectie beschrijven we deze maten.

Range

Het bereik (de range) is het verschil tussen de grootste en kleinste waarneming(en). Hoe groter de spreiding van de gegevens vanuit het midden van de distributie, hoe groter de range zal zijn. De range is mogelijk niet geschikt als er uitbijters zijn, omdat deze maat de totale spreiding van de gegevens aangeeft.

Interkwartielbereik (interquartile range; IQR)

Het interkwartielbereik (IQR) is een maat voor de spreiding in de middelste 50% van de gegevens. De IQR is het verschil tussen de waarneming bij Q3 (het derde kwartiel of het 75ste percentiel) en de waarneming bij Q1 (het eerste kwartiel of het 25ste percentiel). In formule:

\[IQR = Q_{3} - Q_{1} \]

Boxtplots (Box-and-whisker plots)

Een boxplot is een plot die de verdeling van de gegevens beschrijft in termen van de samenvatting met vijf cijfers. Het binnenvak geeft de getallen weer die het interkwartielbereik overspannen (dus Q1 tot Q3). De lijn die door het vak wordt getrokken, vertegenwoordigt de mediaan. De twee "snorharen" (whiskers) zijn de lijnen van het minimum tot het 25e percentiel (Q1) en van het 75ste percentiel (Q3) tot het maximum.

Variantie en standaarddeviatie

De populatievariantie σ2 is de som van de gekwadrateerde verschillen tussen elke observatie en het populatiegemiddelde gedeeld door de populatiegrootte N. In de formule is dat:

\[\sigma^{2} = \frac{\sum^{N}_{i=1} (x_{i} - \mu)^{2}}{N} \]

De steekproefvariantie, s2, is de som van de gekwadrateerde verschillen tussen elke waarneming en het steekproefgemiddelde gedeeld door de steekproefgrootte n, minus 1. De steekproefvariantie wordt berekend als:

\[s^{2} = \frac{\sum^{n}_{i=1} (x_{i} - \bar{x})^{2}}{n - 1} \]

The standaard deviatie is simpelweg de wortel van de variantie. Dat betekent dat de populatie standaard deviatie gegeven is door:

\[\sigma = \sqrt{\sigma^{2}} \]

De steekproef standaard deviatie is gegeven door:

\[s = \sqrt{s^{2}} \]

De standaarddeviatie herstelt de gegevens naar hun oorspronkelijke meeteenheid. Stel bijvoorbeeld dat de oorspronkelijke afmetingen in "voet" (feet) waren. De variantie zou dan in gekwadrateerde "voet" zijn, terwijl de standaardafwijking in (gewone) voet zou zijn. De standaardafwijking geeft een maat voor de gemiddelde spreiding rond het gemiddelde.

De coefficient van variantie

De coefficient van variatie CV) drukt de standaarddeviatie uit als een percentage van het gemiddelde. Het is een maat voor relatieve spreiding. De populatie-variatiecoëfficiënt is:

\[CV = \frac{\sigma}{\mu} x 100\% \hspace{5mm} if \hspace{5mm} \mu > 0\]

De steekproef-variatiecoëfficiënt is vervolgens gegeven met de volgende formule:

\[CV = \frac{s}{\bar{x}} x 100\% \hspace{5mm} if \hspace{5mm} \bar{x} > 0 \]

Chebyshev's theorie en de empirische regel

Pafnuty Lvovich Chebyshev (1821-1894) was een Russische wiskundige, die gegevensintervallen vastlegde voor elke data set, ongeacht de vorm van de verdeling. Dat wil zeggen dat voor elke populatie met gemiddelde μ, standaardafwijking σ en k> 1, het percentage waarnemingen dat valt binnen het interval [μ ∓ kσ] ten minste 100 [1 - (1 / k2)]% is, waar k het aantal standaarddeviaties is. Het voordeel van deze intervallen is dat ze van toepassing zijn op elke populatie. Voor veel populaties is het percentage waarden dat binnen een bepaald bereik valt echter veel hoger dan het minimum dat wordt gegarandeerd door de stelling van Chebyshev. In de praktijk leveren veel grote populaties gegevens die ten minste ongeveer symmetrisch zijn, waardoor veel van de gegevenspunten rond het gemiddelde zijn geclusterd. We zien meestal een klokvormige verdeling.

Voor die grote, heuvelachtige (klokvormige, bij benadering normaal verdeelde) distributies kan de volgende empirische vuistregel worden toegepast:

  • Ongeveer 68% van de waarnemingen ligt in het interval μ ∓ 1σ
  • Ongeveer 95% van de waarnemingen bevindt zich in het interval μ ∓ 2σ.
  • Bijna alle (ongeveer 99,7% van de) waarnemingen liggen in het interval μ ∓ 3σ.

Stel bijvoorbeeld dat de gemiddelde score op een statistiekexamen 6 is met een standaarddeviatie van 1. Ongeveer 68% van de studenten scoort dan tussen 5 en 7. Ongeveer 95% van de scores valt binnen het bereik van 4 tot 8. En bijna alle scores vallen binnen het bereik van 3 tot 9.

De z-score

De z-score is een gestandaardiseerde waarde, die het aantal standaarddeviaties aangeeft dat een waarde van het gemiddelde is afgeweken. Een z-score groter dan nul geeft aan dat de waarde groter is dan het gemiddelde. Omgekeerd geeft een z-score onder nul aan dat de waarde kleiner is dan het gemiddelde. Een z-score van nul betekent dat de waarde gelijk is aan het gemiddelde.

Als het populatiegemiddelde μ en de populatiestandaardafwijking σ bekend zijn, wordt voor elke waarde xi (met i aantal waarnemingen) de overeenkomstige z-score geassocieerd met xi als volgt berekend:

\[z = \frac{x_{i} - \mu}{\sigma} \]

Ter illustratie, stel dat een groot aantal studenten een toelatingsexamen voor het college doet. Stel dat de gemiddelde score op dit examen 570 is met een standaardafwijking van 40. Als we geïnteresseerd zijn in de z-score voor een student die 600 scoort op het examen, kunnen we de z-score berekenen die overeenkomt met deze waarde.

\[z = \frac{x_{i} - \mu}{\sigma} = \frac{600 - 570}{40} = 0.75 \]

Dit betekent dat de student 1,5 standaardafwijkingen boven het gemiddelde scoort. Hier kunnen we de empirische regel niet gebruiken, omdat deze alleen van toepassing is op z-scores van 1, 2 en 3. We kunnen de overeenkomstige waarschijnlijkheid echter opzoeken in de standaard normale distributietabel (die u tijdens het examen krijgt te zien) , zie ook tabel 1 van het boek). Het opzoeken van een z-score van 0,75 resulteert in p = 0,7734 wat betekent dat 77,34% van de scores lager zijn dan de score van deze student. Omgekeerd betekent 1 - 0,7734 = 22,66 dat 22,66% van de studenten hoger scoort dan deze student.

Welke maten zijn er voor gegroepeerde data?

In het geval van gegroepeerde data zijn andere metingen beschikbaar, zoals het gewogen gemiddelde, het geschatte gemiddelde en de variantie voor gegroepeerde gegevens. Deze maatregelen worden in deze sectie besproken.

Gewogen gemiddelde

In sommige situaties is een speciaal type gemiddelde vereist, namelijk het gewogen gemiddelde. Gewogen gemiddelden worden bijvoorbeeld gebruikt om GPA te berekenen, de gemiddelde voorraadaanbeveling te bepalen en het gemiddelde van gegroepeerde gegevens te benaderen. Het gewogen gemiddelde wordt gegeven door:

\[\bar{x} = \frac{\Sigma w_{i}x_{i}}{n} \]

waarbij wi het gewicht is voor de ide observatie en n = Σwi.

Geschat gemiddelde en variantie voor gegroepeerde data

Stel, de data zijn gegroepeerd in K klassen met frequenties f1, f2, ... fK (dit betekent dat iedere klas zijn eigen frequentie heeft). Nu, stel dat de middenpunten van deze klassen zijn gegeven door m1, m2, ..., mK. Dan is het steekproef geschatte gemiddelde:

\[\bar{x} = \frac{\sum^{K}_{i=1}f_{i}m_{i}}{n} \]

met \[n = \sum^{K}_{i=1}f_{i} \]

De variantie voor deze gegroepeerde data is gegeven door:

\[s^{2} = \frac{\sum^{K}_{i=1}f_{i}(m_{i}-\bar{x})^{2}}{n-1} \]

Welke numerieke metingen zijn beschikbaar om een relatie tussen twee variabelen te beschrijven?

In hoofdstuk 1 hebben we grafische manieren beschreven om een relatie tussen twee variabelen te beschrijven. Nu gaan we verder met numerieke maatregelen om deze relatie tussen twee variabelen te beschrijven. Hiertoe zijn er twee belangrijke numerieke maatregelen: correlatie en covariantie.

Covariantie

Covariantie (Cov) is een maat die de mate van lineaire relatie tussen twee variabelen aangeeft. Een positieve waarde duidt op een directe of toenemende lineaire relatie. Een negatieve waarde geeft een afnemend lineair verband tussen de variabelen aan.

De populatie-covariantie tussen X en Y wordt gegeven door:

\[Cov(x,y) = \sigma_{xy} = \frac{\sum^{N}_{i=1}(x_{i} - \mu_{x})(y_{i} - \mu_{y}) }{N} \]

waarbij N de populatie grootte is, xi en yi zijn de geobserveerde waardes voor populatie X en Y, en μx en μy zijn de populatie gemiddelde.

De steekproef covariantie is gegeven door:

\[Cov(x,y) = s_{xy} = \frac{\sum^{n}_{i=1}(x_{i} - \bar{x})(y_{i} - \bar{y}) }{n} \]

waarbij n de populatiegrootte is, zijn xi en yi de waargenomen waarden voor steekproeven X en Y, en x en y zijn de steekproefgemiddelden.

Let op: de covariantie biedt geen maat voor de sterkte van een relatie tussen twee variabelen. In plaats daarvan is covariantie een maat voor de richting van een lineair verband tussen twee variabelen.

Correlatie

De correlatiecoëfficiënt is een maat die zowel de richting als de sterkte van de relatie tussen twee variabelen beschrijft. De correlatiecoëfficiënt (rho) voor de populatie kan worden berekend met de volgende formule:

\[\rho = \frac{Cov(x,y}{\sigma_{x}\sigma_{y}} \]

De correlatiecoëfficiënt voor de steekproef kan als volgt worden berekend:

\[r = \frac{Cov(x,y}{s_{x}s_{y}} \]

Een handige vuistregel: er is sprake van een relatie tussen twee variabelen wanneer

\[ \|r\| \geq \frac{2}{\sqrt{n}} \].

De correlatiecoëfficiënt varieert van -1 tot +1. Een waarde dicht bij 1 duidt op een sterk positief lineair verband tussen de twee variabelen. Een waarde dicht bij -1 duidt op een sterk negatief lineair verband tussen de twee variabelen. En een correlatiecoëfficiënt van 0 duidt niet op een lineair verband tussen de twee variabelen.

Houd er rekening mee dat de correlatiecoëfficiënt geen oorzakelijk verband impliceert. Het kan voorkomen dat twee variabelen sterk gecorreleerd zijn, maar dat betekent niet dat de ene variabele de andere variabele veroorzaakt.

 

In Chapter 1 hebben we besproken hoe gegevens grafisch kunnen worden beschreven. In dit hoofdstuk zullen we bespreken hoe gegevens numeriek kunnen worden beschreven. Verder zullen we de verschillende numerieke maten bespreken die kunnen worden gebruikt voor categorische en numerieke variabelen, evenals maten voor gegroepeerde gegevens, en maten om de relatie tussen twee variabelen te beschrijven.

 

 

Hoe werkt kansberekening? - Chapter 3

 

 

In de praktijk zijn zakelijke beslissingen en beleidsmaatregelen vaak gebaseerd op een impliciete of veronderstelde reeks waarschijnlijkheden. Vaak kunnen we niet zeker zijn van het optreden van een toekomstige gebeurtenis. Maar als de waarschijnlijkheid van een gebeurtenis (bijvoorbeeld of er een juridisch contract bestaat) bekend is, hebben we een betere kans om de best mogelijke beslissing te nemen, in vergelijking met helemaal geen idee hebben over het optreden van de gebeurtenis.

Welke definities en concepten bieden structuur voor het definiëren van kansen?

Om structuur te bieden voor het definiëren van kansen, bespreken we in deze sectie enkele belangrijke definities en concepten, zoals uitkomstenruimte, uitkomsten en gebeurtenissen. Dit zijn de basisbouwstenen voor het definiëren en berekenen van kansen.

Willekeurig experiment (random experiment)

Waarschijnlijkheid begint met het concept van een willekeurig experiment. Een willekeurig experiment (random experiment) is een proces dat leidt tot twee of meer uitkomsten zonder precies te weten welke uitkomst zal optreden. Voorbeelden zijn: het gooien van een munt (de uitkomst is kop of munt), de dagelijkse uitwisseling in een index van beurskoersen en het aantal personen dat gedurende een uur op de spoedafdeling van een ziekenhuis is opgenomen (nogmaals, er zijn twee of meer uitkomsten, en de uitkomst is niet vooraf bekend).

Basisuitkomsten (basic outcomes) en uitkomstenruimte (samplespace)

De mogelijke uitkomsten van een willekeurig experiment worden de basisuitkomsten genoemd. De basisuitkomsten moeten zo worden gedefinieerd dat er geen twee uitkomsten tegelijkertijd kunnen optreden. De set van alle basisresultaten wordt de uitkomstenruimte genoemd. De uitkomstenruimte wordt aangegeven met het symbool S.

Een voorbeeld van een uitkomstenruimte (sample space) voor een professionele honkbal slagman is te vinden in tabel 1. Deze kansen worden verkregen door de gegevens van professionele honkbal slagman te bestuderen. Er zijn zes uitkomsten. Er kunnen geen twee uitkomsten gelijktijdig optreden en een van de zes uitkomsten moet voorkomen.

Tabel 1.Uitkomstenruimte voor een professionele honkbal slagman
 Uitkomstenruimte (S)Kans
O1Vrije loop naar eerste honk (safe hit)0.30
O2Lopen of geraakt door werper (pitcher)0.10
O3Strikeout0.10
O4Grondbal uit0.30
O5Lucht bal (fly ball) uit0.18
O6Honk bereiken op basis van een fout0.02

Gebeurtenis

Vaak zijn we niet geïnteresseerd in de individuele resultaten, maar in een deelverzameling van de basisresultaten. We kunnen bijvoorbeeld geïnteresseerd zijn of de slagman veilig het honk bereikt. Daarom is een subset van drie uitkomsten van belang: vrije loop naar het eerste honk (0,30), lopen of slaan door werper (0,10) en het honk bereiken op een fout (0,02). Deze subset van basisuitkomsten wordt daarom een gebeurtenis genoemd. Een gebeurtenis (event), aangeduid met het symbool E, is een subset van basisuitkomsten in de uitkomstenruimte. Een nulgebeurtenis verwijst naar de afwezigheid van een basisuitkomst en wordt aangeduid met ⊘.

Intersectie van twee gebeurtenissen en gezamenlijke waarschijnlijkheid

Soms zijn we geïnteresseerd in het gelijktijdig optreden van twee of meer evenementen. In dat geval is de kruising van gebeurtenissen (intersectie) van belang. Laat A en B twee gebeurtenissen zijn in de uitkomstenruimte S. Dan wordt de kruising tussen A en B aangegeven door A ∩ B, die verwijst naar de verzameling van alle basisuitkomsten in S die tot zowel A als B behoren. Met andere woorden , vindt de intersectie A ∩ B alleen plaats als, en alleen als zowel gebeurtenis A als B voorkomen.

Het begrip gezamenlijke waarschijnlijkheid (joint probability) verwijst naar de waarschijnlijkheid van de kruising van gebeurtenis A en B. Met andere woorden, dit is de waarschijnlijkheid dat beide gebeurtenissen optreden. Het is echter mogelijk dat de kruising van twee gebeurtenissen een lege set is. Stel bijvoorbeeld dat we een gebeurtenis C toevoegen: "slagman is uit". In dat geval is de kruising tussen gebeurtenis A ("slagman bereikt veilig honk") en gebeurtenis C ("slagman is uit") een lege set. Dit houdt in dat A en C elkaar uitsluiten (d.w.z. ze hebben geen gemeenschappelijke basisresultaten en er wordt gezegd dat hun kruising de lege verzameling is). Meer in het algemeen kunnen we stellen dat de K-evenementen E1, E2, ..., EK elkaar uitsluiten als elk paar (Ei, Ej) verwijst naar een paar elkaar uitsluitende evenementen.

Unie

Stel, A en B zijn twee gebeurtenissen in uitkomstenruimte S. Een unie is dan de verzameling van alle basisresultaten in S die behoren tot ten minste een van de twee gebeurtenissen. Deze verzameling van gebeurtenissen wordt aangeduid met A ∪ B en vindt alleen plaats als A, of B, of beide voorkomen. In algemene termen betekent dit dat, gegeven de K-gebeurtenissen E1, E2, ..., EK, hun unie E1 ∪ E2 ∪ ... ∪ EK de verzameling is van alle basisresultaten die behoren tot ten minste een van deze K-evenementen .

Collectief uitputtend

Als de samenvoeging van verschillende evenementen de gehele monsterruimte S omvat, betekent dit dat de evenementen collectief uitputtend (collective exhaustive) zijn. In algemene termen kunnen we stellen dat, gegeven de K-gebeurtenissen E1, E2, ..., EK in de uitkomstenruimte S, als E1 ∪ E2 ∪ ... ∪ EK = S, deze K-evenementen collectief uitputtend zijn .

Complement

Ten slotte definiëren we het concept complement. Laat A een gebeurtenis zijn in de uitkomstenruimte S. Wanneer de set basisresultaten van een willekeurig experiment tot S behoort, maar niet tot A, wordt dit het complement van A genoemd, aangeduid met: Ā.

Dit houdt in dat gebeurtenissen A en complement Ā elkaar wederzijds uitsluiten. Dat wil zeggen dat geen enkele basisuitkomst van een willekeurig experiment tot beide gebeurtenissen kan behoren. Vervolgens zijn ze collectief uitputtend: elke basisuitkomst moet bij de een of de ander horen.

Tabel 2 geeft de kansen weer in geval van kruising van gebeurtenissen. Tabel 3 toont de kansen in het geval van elkaar uitsluitende gebeurtenissen.

Tabel 2. Kansen in het geval van een intersectie van gebeurtenissen
 \[B\]\[\bar{B}\]
\[A\]\[A ∩ B\]\[A - (A ∩ B)\]
\[\bar{A}\]\[B - (A ∩ B)\]\[\bar{A} ∩ \bar{B}\]

Tabel 3. Kansen in het geval van elkaar uitsluitende gebeurtenissen

 \[B\]\[\bar{B}\]
\[A\]\[⊘\]\[A\]
\[\bar{A}\]\[B\]\[\bar{A} ∩ \bar{B}\]

Welke drie definities van kans (waarschijnlijkheid) zijn er?

Er zijn drie waarschijnlijkheidsdefinities die in deze sectie worden behandeld: (1) klassieke waarschijnlijkheid; (2) relatieve frequentiekans; en (3) subjectieve waarschijnlijkheid.

1. Klassieke waarschijnlijkheid

Klassieke waarschijnlijkheid wordt beschouwd als de klassieke definitie van waarschijnlijkheid. Klassieke waarschijnlijkheid verwijst naar het aantal keren dat een bepaalde gebeurtenis zal plaatsvinden, ervan uitgaande dat alle uitkomsten in de steekproefruimte een gelijke waarschijnlijkheid hebben om zich voor te doen. De waarschijnlijkheid van een dergelijke gebeurtenis A, aangeduid met P (A), wordt dan gedefinieerd als:

\[P(A) = \frac{N_{A}}{N} \]

waarbij NA verwijst naar het aantal uitkomsten dat voldoet aan de voorwaarde van gebeurtenis A en N verwijst naar het totale aantal uitkomsten in de steekproefruimte. Met andere woorden, de waarschijnlijkheid van gebeurtenis A wordt verkregen b door het aantal uitkomsten in de steekproefruimte die voldoen aan de voorwaarde van gebeurtenis A te delen door het totale aantal uitkomsten in de steekproefruimte.

Het verkrijgen van alle mogelijke resultaten (N) kan erg tijdrovend zijn. Daarom kunnen we de volgende formule gebruiken om het aantal combinaties van x items tegelijkertijd x te bepalen:

\[C^{n}_{x} = \frac{n!}{x!(n-x)!} \]

met 0! = 1.

Stel dat we geïnteresseerd zijn in een aantal x objecten die in een bepaalde volgorde zijn geplaatst. Elk object mag slechts eenmaal worden geplaatst. Hoeveel verschillende reeksen zijn mogelijk? In dit geval gebruiken we de volgende formule:

\[x(x-1)(x-2) ... (2)(1) = x! \]

waarbij x! is factor x (in het Engels: x factorial).

Stel nu dat we een bepaald aantal n objecten hebben waarmee de x geordende vakken worden gevuld (met n > x). Net als in bovenstaand scenario, mag elk object slechts eenmaal worden gebruikt. Het aantal mogelijke ordeningen wordt het aantal permutaties van x objecten genoemd, gekozen uit n. Het totale aantal permutaties kan als volgt worden verkregen:
\[P^{n}_{x} = n(n-1)(n-2) ... (n-x-1) = \frac{n!}{(n-x)!} \]
Een voorbeeld: stel dat er 4 letters zijn: A, B, C en D Twee letters moeten worden geselecteerd en deze moeten in volgorde worden gerangschikt. Het gebruik van de bovenstaande formule met n = 4 en x = 2 levert het volgende aantal permutaties op:

\[P^{4}_{2} = \frac{4!}{(4-2)!} = \frac{4!}{2!} = \frac{4*3*2*1}{2*1} = \frac{24}{2} = 12 \]

Dus, er zijn twaalf permutaties. De permutaties zijn: AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, and DC.

Tot slot, stel dat we niet geïnteresseerd zijn in het aantal permutaties. In plaats daarvan zijn we nu geïnteresseerd in het aantal verschillende manieren waarop x objecten uit n kunnen worden geselecteerd, ongeacht de volgorde. Dit aantal mogelijke selecties wordt ook wel het aantal combinaties genoemd en kan als volgt worden berekend:

\[ C^{n}_{x} = \frac{P^{n}_{x}}{x!} = \frac{n!}{x!(n-x)!} \]

Ter illustratie, stel dat we geïnteresseerd zijn in de waarschijnlijkheid van selectie van werknemers. Er zijn 8 kandidaten die op de functie hebben gesolliciteerd. Toch kunnen slechts 4 kandidaten worden geselecteerd. Van deze kandidaten zijn er 5 mannen en 3 vrouwen. Als elke combinatie van kandidaten een gelijke kans heeft, wat is dan de kans dat er geen vrouwen worden aangenomen?

Eerst moeten we het totale aantal mogelijke combinaties berekenen. Dit gebeurt als volgt:

\[ C^{8}_{4} = \frac{8!}{4!4!} = 70 \]

Vervolgens, als er dan geen vrouwen worden aangenomen, betekent dit dat de vier succesvolle kandidaten van de beschikbare vijf mannen moeten komen. Dat betekent dat het aantal combinaties als volgt is:

\[ C^{5}_{4} = \frac{5!}{4!1!} = 5 \]

Concluderend, als van de 70 mogelijke combinaties waarschijnlijk wordt gekozen, is de waarschijnlijkheid dat een van de 5-alle mannelijke combinaties wordt geselecteerd 5/70 = 1/14 = 0,07 (dat wil zeggen 7%).

2. Relatieve waarschijnlijkheid

Een tweede definitie van kans of waarschijnlijkheid is de relatieve frequentiekans. De relatieve frequentiekans verwijst naar de limiet van het aantal keren dat gebeurtenis A in een groot aantal proeven voorkomt (n). De relatieve frequentiekans kan als volgt worden berekend:

\[ P(A) = \frac{n_{A}}{n} \]

waarbij nA verwijst naar het aantal A uitkomsten en n naar het totale aantal onderzoeken (of uitkomsten). De kans is de limiet als n groot wordt of oneindig nadert.

3. Subjectieve waarschijnlijkheid

De derde definitie van waarschijnlijkheid verwijst naar subjectieve waarschijnlijkheid. Subjectieve waarschijnlijkheid is de mate van overtuiging van een persoon over de kans dat een bepaalde gebeurtenis zal plaatsvinden. Dergelijke subjectieve kansen worden soms gebruikt in bepaalde managementbeslissingsprocedures. Subjectieve kansen zijn persoonlijk. Er is geen vereiste dat verschillende individuen dezelfde kansen krijgen voor dezelfde gebeurtenis.

Wat zijn de drie postulaten (regels) van waarschijnlijkheid?

Er zijn drie postulaten (regels) waaraan waarschijnlijkheden moeten voldoen.

  1. Als A een gebeurtenis is in de uitkomstenruimte S, dan geldt:
    \[ 0 \leq P(A) \leq 1 \]
  2. ALs A een gebeurtenis is in de uitkomstenruimte S, en Oi verwijst naar alle basisuitkomsten, dan geldt:
    \[ P(A) = \sum_{A} P(O_{i}) \]
    wat betekent dat de sommatie zich uitbreidt over alle basisuitkomsten in A.
  3. P(S) = 1

In woorden betekent dit dat: (1) de waarschijnlijkheid tussen 0 en 1 ligt; (2) NA is eenvoudig de som van Ni voor alle basisresultaten in A, aangezien de basisresultaten elkaar uitsluiten; en (3) wanneer een willekeurig experiment wordt uitgevoerd, moet "iets" gebeuren. Dat wil zeggen dat de som van alle kansen voor alle basisresultaten in de steekproefruimte gelijk is aan 1.

Wat zijn de waarschijnlijkheidsregels voor samengestelde gebeurtenissen?

In deze sectie worden de regels voor samengestelde gebeurtenissen geïntroduceerd.

Complementregel

Ten eerste is de complementregel gedefinieerd als:

\[ P(\bar{A}) = 1 - P(A) \]

Deze regel is belangrijk, omdat het soms gemakkelijker is om P A) te vinden dan om zijn complement te verkrijgen (of vice versa). In dat geval kan men gemakkelijk P(A) (of het complement ervan) verkrijgen.

De optelregel

Ten tweede, volgens de optelregel van waarschijnlijkheden (in het Engels: the addition rule of probabilities), wordt de waarschijnlijkheid van de unie gedefinieerd als:

\[ P (A ∪ B) = P(A) + P(B) - P(A ∩ B) \]

Merk op dat deze formule ook kan worden omgezet tot:

\[ P (A ∩ B) = P(A) + P(B) - P(A ∪ B) \]

Conditionele kansen

Ten derde, stel dat we geïnteresseerd zijn in de waarschijnlijkheid van A, gegeven dat B is opgetreden. In dat geval zijn we geïnteresseerd in de voorwaardelijke kans ook wel conditionele kans genoemd. De voorwaardelijke kans wordt aangegeven met het symbool P (A|B) en kan als volgt worden verkregen:

\[ P(A|B) = \frac{P(A ∩ B)}{P(B)} \]

gegeven dat P(B) > 0.

Op gelijke wijze kan de conditionele kans van B gegeven A gevonden worden:

\[ P(B|A) = \frac{P(A ∩ B)}{P(A)} \]

opnieuw, hierbij moet gelden dat P(A) > 0.

Om dit te illustreren, gebruiken we een voorbeeld. Stel: P(A) = 0.75, P(B) = 0.80, en P(A ∩ B) = 0.65. De conditionele kans op gebeurtenis A, gegeven gebeurtenis B is:

\[ P(A|B) = \frac{P(A ∩ B)}{P(B)} = \frac{0.65}{0.80} = 0.8125 \]

Vermenigingvuldigingsregel

Stel dat er twee gebeurtenissen zijn: gebeurtenis A en gebeurtenis B. Gebruikmakend van de vermenigvuldigingsregel van waarschijnlijkheden (in het Engels: the multiplication rule of probabilities), kan de waarschijnlijkheid van hun kruising als volgt worden verkregen uit de voorwaardelijke waarschijnlijkheid:

\[ P(A ∩ B) = P(A|B) P(B) \]
Of via:
\[ P(A ∩ B) = P(B|A) P(A) \]

Statistische onafhankelijkheid

Ten slotte beschouwen we het geval van statistische onafhankelijkheid. Statistische onafhankelijkheid is een speciaal geval waarvoor de voorwaardelijke kans van A gegeven B, dus P (A | B), gelijk is aan de onvoorwaardelijke kans van A, dus P (A). In formule: P (A | B) = P (A). Gebeurtenis A en B zijn dus statistisch onafhankelijk als en alleen als P (A ∩ B) = P (A) P (B). Over het algemeen is dit niet waar. Maar wanneer het zo is, zien we dat het weten dat gebeurtenis B heeft plaatsgevonden, de kans dat gebeurtenis A optreedt niet verandert.

Wat zijn bivariate kansen?

In deze sectie gaan we verder met het scenario waarin er twee verschillende sets gebeurtenissen zijn. We noemen deze sets A1, A2, ..., AH en B1, B2, ..., BK. Deze twee sets samen worden bivariaat genoemd. De kans op deze twee sets wordt bivariate kans genoemd. De methoden die in deze sectie worden besproken, kunnen ook worden toegepast op trivariabele en hogere waarschijnlijkheden, maar met extra complexiteit.

Voor bivariate kansen wordt de kruising tussen deze twee sets, dat wil zeggen P (Ai ∩ Bj), gezamenlijke kansen genoemd. Vervolgens worden de kansen voor individuele gebeurtenissen, P (Ai) of P (Bj) marginale kansen genoemd. Deze marginale kansen kunnen worden berekend door de overeenkomstige rij of kolom op te tellen die bij die set horen.

Als elke gebeurtenis Ai statistisch onafhankelijk is van elke gebeurtenis Bj, dan wordt van A en B gezegd dat het onafhankelijke gebeurtenissen zijn.

Odds

Soms zijn we geïnteresseerd in het communiceren van waarschijnlijkheidsinformatie. Een manier om dit te doen is via odds. De odds van een bepaalde gebeurtenis worden bepaald door de verhouding van de waarschijnlijkheid van één gebeurtenis gedeeld door de waarschijnlijkheid van het complement van die gebeurtenis. Dat wil zeggen, de odds voor evenement A zijn:

\[Odds = \frac {P(A)} {1-P(A)} = \frac{P(A)} {P(\bar{A})} \]

Ter illustratie, de odds van 2 op 1 kunnen worden omgezet in een kans dat A wint:

\[\frac{2}{1} = \frac{P(A)} {1-P(A)} = 2 - 2P(A) \]

\[3PA) = 2 \]

dus P(A) = 0,67

Overbetrokkenheidsratio (overinvolvement ratio)

In sommige situaties is het moeilijk om de gewenste voorwaardelijke kansen te verkrijgen, maar er zijn alternatieve voorwaardelijke kansen beschikbaar. De kosten van opsommingen zijn bijvoorbeeld te hoog of een ethische beperking verhindert ons om direct de set van waarschijnlijkheden te verkrijgen. Op basis van deze alternatieve kansen zijn er verschillende manieren waarop we nog steeds in staat zijn om de gewenste kansen te verkrijgen. Een van die manieren is via overbetrokkenheidsverhoudingen.

De overbetrokkenheidsratio is de verhouding tussen de waarschijnlijkheid van gebeurtenis A1, afhankelijk van gebeurtenis B1, en de waarschijnlijkheid van gebeurtenis A1 afhankelijk van gebeurtenis B2, waarbij B1 en B2 elkaar uitsluiten en complementair zijn. In de formule is de overbetrokkenheidsverhouding gedefinieerd als:

\[ \frac{P(A_{1}|B_{1})}{P(A_{1}|B_{2})} \]

Als de overbetrokkenheidsratio groter is dan 1, betekent dit dat gebeurtenis A1 de voorwaardelijke odds ratio verhoogt ten gunste van gebeurtenis B1. Dat is:

\[ \frac{P(B_{1}|A_{1})}{P(B_{2}|A_{1})} > \frac{P(B_{1})}{P(B_{2})} \]

Stel dat we weten dat 60% van de mensen die ons product kopen onze advertentie hebben gezien. Toch heeft slechts 30% van de mensen die ons product niet kopen de advertentie gezien. De verhouding van 60% tot 30% is de overbetrokkenheid van het evenement "onze advertentie gezien".

Vervolgens wordt de populatie verdeeld in de volgende categorieën:

  • A1: mensen die de advertentie hebben gezien
  • A2: mensen die de advertentie niet hebben gezien
  • B1: kopers
  • B2: niet-kopers

De overbetrokkenheidsverhouding is 60/30 = 2,0. Op basis hiervan kunnen we dus concluderen dat de advertentie de waarschijnlijkheid van aankoop verhoogt.

Wat is de stelling van Bayes?

De stelling van Bayes werd ontwikkeld, zoals de naam al doet vermoeden, door Thomas Bayes (1702-1761). De stelling van Bayes biedt een hulpmiddel om te bepalen hoe waarschijnlijkheidsuitspraken kunnen worden aangepast met aanvullende informatie.

De stelling van Bayes volgt uit de vermenigvuldigingsregel. Laat nu A1 en B1 twee gebeurtenissen zijn. Volgens de stelling van Bayes geldt dan dat:

\[ P(B_{1}|A_{1}) = \frac{P(A_{1}|B_{1})P(B_{1})}{P(A_{1})} \]

en ook dat:

\[ P(A_{1}|B_{1}) = \frac{P(B_{1}|A_{1})P(A_{1})}{P(B_{1})} \]

Om de stelling van Bayes toe te passen, moet je de volgende vier stappen volgen:

  1. Definieer vanuit het probleem de subset van gebeurtenissen.
  2. Definieer de kansen en voorwaardelijke kansen voor elk van de gebeurtenissen gedefinieerd in stap 1.
  3. Bereken de complementen voor elk van deze kansen gedefinieerd in stap 2.
  4. Formuleer en pas Bayes 'stelling formeel toe om de oplossingskans te berekenen.

Dit wordt geïllustreerd met een voorbeeld. Stel dat een autodealer uit eerdere ervaringen weet dat 10% van de mensen die de showroom binnenlopen en met de verkoper praten, uiteindelijk een auto kopen. De manager van de showroom wil de kansen op succes vergroten en stelt daarom voor om een ​​gratis diner aan te bieden voor alle mensen die bereid zijn te luisteren naar de volledige presentatie van de verkoper. Sommige mensen zullen echter alles doen om een ​​gratis diner te krijgen, zelfs als ze helemaal niet geïnteresseerd zijn in het kopen van een nieuwe auto. Het is daarom belangrijk om de effectiviteit van dit gratis dinerplan te testen. Een experiment wordt gedurende zes maanden uitgevoerd. Het bleek dat 40% van de mensen die een auto kochten een gratis diner hadden. Verder had 10% van de mensen die geen auto kochten een gratis diner. Nu is de vraag tweeledig: (1) hebben mensen die het diner accepteren een grotere kans om een ​​nieuwe auto te kopen? (2) wat is de kans dat een persoon die geen gratis diner accepteert een auto koopt?

Stap 1. Definieer de subset van gebeurtenissen.

  • D1: de klant accepteert het gratis diner
  • D2: de klant accepteert het gratis diner niet
  • P1: de klant koopt een nieuwe auto
  • P2: de klant koopt geen nieuwe auto

Stap 2. Definieer de kansen en voorwaardelijke kansen voor elk van de gebeurtenissen gedefinieerd in stap 1.
P(P1) = 0.10 P(D1|P1) = 0.40 P(D1|P2) = 0.10

Stap 3. Bereken de complementen voor elk van deze kansen gedefinieerd in stap 2.
P(P2) = 0.90 P(D2|P1) = 0.60 P(D2|P2) = 0.90

Stap 4. Pas de stelling van Bayes toe.

Om de eerste vraag te beantwoorden, bereken we:

\[ P(P_{1}|D_{1}) = \frac{P(D_{1}|P_{1}) P (P_{1}) }{P(D_{1}|P_{1}) P (P_{1}) + P(D_{1}|P_{2}) P (P_{2}) } \]

\[ = \frac{0.40 * 0.10}{0.40 * 0.10 + 0.10 * 0.90} = 0.308 \]

Dit betekent dat de kans om een auto te kopen groter is, aangezien de klant een gratis diner accepteert.

Voor de tweede vraag zien we dat:

\[ P(P_{1}|D_{2}) = \frac{P(D_{2}|P_{1}) P (P_{1}) }{P(D_{2}|P_{1}) P (P_{1}) + P(D_{2}|P_{2}) P (P_{2}) } \]

\[ = \frac{0.60 * 0.10}{0.60 * 0.10 + 0.90 * 0.90} = 0.069 \]

Dit laat zien dat mensen die het diner niet accepteren, een kleinere kans hebben om een auto te kopen.

 

In de praktijk zijn zakelijke beslissingen en beleidsmaatregelen vaak gebaseerd op een impliciete of veronderstelde reeks waarschijnlijkheden. Vaak kunnen we niet zeker zijn van het optreden van een toekomstige gebeurtenis. Maar als de waarschijnlijkheid van een gebeurtenis (bijvoorbeeld of er een juridisch contract bestaat) bekend is, hebben we een betere kans om de best mogelijke beslissing te nemen, in vergelijking met helemaal geen idee hebben over het optreden van de gebeurtenis.

 

 

Hoe kun je kansmodellen gebruiken voor discrete wilekeurige variabelen? - Chapter 4

 

 

In het vorige hoofdstuk hebben we het concept waarschijnlijkheid geïntroduceerd om situaties met onzekere uitkomsten weer te geven. In dit hoofdstuk gebruiken we die ideeën om kansmodellen te construeren voor discrete willekeurige variabelen. In het volgende hoofdstuk zullen we die ideeën gebruiken om dergelijke waarschijnlijkheids modellen te construeren voor continue willekeurige variabelen. Waarschijnlijkheids modellen worden breed toegepast op verschillende bedrijfsproblemen. Stel bijvoorbeeld dat u uit eerdere ervaringen weet dat 30% van de mensen die een autoverhuurwinkel binnenkomen, een busje willen huren. Vandaag heb je drie busjes beschikbaar. Vijf volledig niet-verwante (willekeurige) mensen komen de huurwinkel binnen. Wat is de kans dat deze vijf mensen in totaal vier of vijf busjes willen huren? Om deze vraag te beantwoorden, zijn waarschijnlijkheids modellen nuttig.

Wat is een willekeurige variabele?

Een willekeurige variabele (in het Engels: a random variable) is een variabele die numerieke waarden aanneemt, afkomstig van de resultaten in een uitkomstenruimte (sample space) die is gegenereerd door een willekeurig experiment (random experiment). Houd er rekening mee dat er een verschil is tussen een willekeurige variabele (aangegeven met hoofdletters, zoals X) en de mogelijke waarden die kunnen worden gebruikt (aangegeven met kleine letters, bijvoorbeeld x).

Er zijn twee soorten willekeurige variabelen: discrete willekeurige variabelen en continue willekeurige variabelen. Een discrete willekeurige variabele is een willekeurige variabele die niet meer kan zijn dan een telbaar (dat wil zeggen eindig) aantal waarden. De mogelijke uitkomsten zijn bijvoorbeeld: 1, 2, 3, enzovoort. Een voorbeeld van een discrete willekeurige variabele is het aantal klanten dat een busje wil huren. Een continue willekeurige variabele is een willekeurige variabele die een anu-waarde in een bepaald interval kan aannemen. Voor continue willekeurige variabelen wijzen we waarschijnlijkheden alleen toe aan een bereik van waarden. Voorbeelden van continue willekeurige variabelen zijn: het jaarlijkse inkomen voor een gezin, de duur van een telefoongesprek met je moeder en de tijd die je nodig hebt om naar je werk te gaan.

Wat is een kansverdelingsfunctie?

Nadat de kansen zijn berekend, kunnen we de kansverdelingsfunctie vormen. De kansverdelingsfunctie, aangeduid door P(x) van een discrete willekeurige variabele X, geeft de waarschijnlijkheid weer dat de variabele X de waarde x aanneemt, als een functie van x. Dat wil zeggen: P(x) = P(X = x) voor alle waarden van x.

Er zijn twee eigenschappen waaraan een kansverdeling van een discrete willekeurige variabele moet voldoen:

  1. 0 < P(x) < 1 voor elke waarde van x
    In woorden betekent dit dat de kansen niet negatief kunnen zijn of groter zijn dan 1.
  2. De som van de individuele kansen is 1, dat wil zeggen:
    \[ \sum_ {x} P(x) = 1 \]
    Dit houdt in dat de gebeurtenissen X = x voor alle mogelijke waarden van x, elkaar uitsluiten en collectief uitputtend zijn.

De cumulatieve waarschijnlijkheidsverdeling F(x0) van een discrete willekeurige variabele x vertegenwoordigt de kans dat X een bepaalde waarde niet overschrijdt, aangeduid door x0 als een functie van x0. In de formule is dat:

\[ F(x_{0}) = P(X \leq x_{0}) \]

Opnieuw zijn er twee eigenschappen waaraan de cumulatieve kansverdeling van een discrete willekeurige variabele aan moet voldoen:

  1. 0 < F(x0) < 1 voor iedere waarde van x0.
  2. Als x0 en x1 twee getallen zijn met x0 < x1, dan geldt F(x0) < F(x1).

Met andere woorden, dit betekent dat de waarschijnlijkheid niet negatief kan zijn of groter kan zijn dan één en dat de waarschijnlijkheid dat een willekeurige variabele een bepaald aantal niet overschrijdt niet groter kan zijn dan de waarschijnlijkheid die een groter aantal niet overschrijdt.

Wat zijn de eigenschappen van discrete willekeurige variabelen?

Hoewel de kansverdeling alle informatie bevat over de waarschijnlijkheidseigenschappen van een willekeurige variabele en een visuele (grafische) inspectie van deze verdeling zeker enige informatie biedt, is het nuttig om enkele samenvattende maten te hebben van de kenmerken van de kansverdeling. Deze samenvattende maatregelen worden in deze sectie besproken.

De verwachte waarde E[X] van een discrete willekeurige variabele X wordt verkregen door:

\[ E[X] = \mu = \sum_{x} xP(x) \]

Dat wil zeggen dat de verwachte waarde van een willekeurige variabele ook het gemiddelde wordt genoemd en wordt aangeduid met het symbool μ. Deze notatie van verwachte waarde is niet beperkt tot de willekeurige variabele zelf, maar kan ook worden toegepast op elke functie van de willekeurige variabele. In dat geval moet u gewoon het symbool x vervangen door een functie, bijvoorbeeld g(x).

De variantie, aangeduid als σ2, is de verwachting van de kwadratische afwijkingen ten opzichte van het gemiddelde (X - μ), die wordt gegeven door:

\[ \sigma^{2} = E[(X - \mu)^{2}] = \sum_{x}(x- \mu)^{2}P(x) \]

De variantie kan ook worden uitgedrukt als:

\[ \sigma^{2} = E[X^{2}] - \mu^{2} = \sum_{x} x^{2}P(x) - \mu^{2} \]

De standaarddeviatie wordt vervolgens verkregen door de positieve wortel van de variantie te nemen.

Ten slotte beschouwen we het geval voor een lineaire functie van een willekeurige variabele met behulp van de lineaire functie: Y = a + bX. Dat wil zeggen, wanneer een willekeurige variabele X een specifieke waarde x aanneemt, moet Y de waarde a + bX aannemen. Het gemiddelde van Y kan als volgt worden afgeleid:

\[ \mu_{Y} = Ea + bX] = a + b\mu_{x} \]

De variantie van Y kan als volgt worden berekend:

\[ \sigma^{2}_{Y} = Var(a + bX) = b^{2}\sigma^{2}_{X} \]

Met als gevolg dat de standaarddeviatie van Y gelijk is aan:

\[ \sigma_{Y} = |b| \sigma_{x} \]

Wat is een binomiale verdeling?

Voordat we verder gaan met de binomiale verdeling is het handig om te beginnen met het Bernoulli model, omdat dit model wordt beschouwd als de bouwsteen voor de binomiale verdeling. Stel dat we een willekeurig experiment hebben uitgevoerd met slechts twee mogelijke uitkomsten. Deze twee resultaten sluiten elkaar uit en zijn collectief uitputtend. We noemen deze uitkomsten respectievelijk "succes" en "mislukking". Laat P nu de kans op succes aangeven, zodat 1 - P de kans op falen is. De kansverdeling van de willekeurige variabele kan dan als volgt worden gedefinieerd: P (0) = (1 - P) en P (1) = P. Deze verdeling wordt de Bernoulli verdeling genoemd.

Het gemiddelde van de Bernoulli verdeling kan als volgt worden berekend:

\[ \mu_{X} = E[X] = \sum_{x}xP(x) = (0)(1 - P) + (1)P = P \]

En de variantie van de Bernoulli verdeling kan als volgt worden berekend:

\[ \sigma^{2}_{X} = E[(X - \mu_{X})^{2}] = \sum_{X} (x-\mu_{X})^{2} P(x) = P(1 - P) \]

De binomiale verdeling

De binomiale verdeling is een belangrijke generalisatie van de Bernoulli verdeling waarin een scenario met twee mogelijke uitkomsten meerdere keren wordt herhaald en de herhalingen onafhankelijk zijn. Laat n het aantal onafhankelijke herhalingen zijn en laat x het aantal successen zijn. Het aantal sequenties met x successen in n onafhankelijke proeven is als volgt gedefinieerd:

\[ C^{n}_{x} = \frac{n!}{x!(n - x)!} \]

Vervolgens is de binomiale verdeling voor een willekeurige variabele X = x als volgt:

\[ P(x) = \frac{n!}{x!(n - x)!} P^{x} (1 - P)^{(n - x)} for x = 0, 1, 2, ..., n \]

Het gemiddelde van de binomiale verdeling kan worden berekend via:

\[ \mu = E[X] = nP \]

En de standaarddeviatie van de binomiale verdeling is als volgt te berekenen:

\[ \sigma^{2}_{X} = E[(X-\mu_{X})^{2}] = nP (1 - P) \]

Wat is de Poisson verdeling?

De Poisson-verdeling werd voorgesteld door, zoals de naam al doet vermoeden, Simeon Poisson (1781 - 1840). De Poisson-verdeling is belangrijk voor veel toepassingen in het dagelijks leven, waaronder onder andere: het aantal storingen in een computersysteem tijdens een bepaalde dag, het aantal klanten dat tijdens een bepaald tijdsinterval bij een kassa-gang in uw lokale winkel aankomt, en het aantal vervangende bestellingen dat een bedrijf gedurende een bepaalde maand heeft ontvangen. Zoals je misschien al hebt gemerkt, impliceert de Poisson-verdeling het aantal keren dat een bepaalde gebeurtenis gedurende een gegeven continu interval voorkomt. Dit interval kan worden verdeeld in een groot aantal gelijke sub intervallen, zodat de waarschijnlijkheid van optreden (succes) van een gebeurtenis in een sub interval zeer klein is.

Er zijn drie veronderstellingen die van toepassing zijn op de Poisson-verdeling:

  1. De waarschijnlijkheid van optreden (succes) van een gebeurtenis is constant voor alle sub intervallen.
  2. Er kan niet meer dan één gebeurtenis (succes) in elk sub interval voorkomen
  3. De gebeurtenissen (successen) zijn onafhankelijk. Dit betekent dat een gebeurtenis (succes) in het ene interval de kans op een gebeurtenis (succes) in een ander interval niet beïnvloedt.

De Poisson-verdeling kan rechtstreeks worden afgeleid van de binomiale verdeling door de wiskundige limieten te nemen als P naar 0 gaat en n naar oneindig. Als gevolg hiervan wordt de parameter λ = nP een constante die het gemiddelde aantal keren dat een bepaalde tijd en / of ruimte plaatsvond, aangeeft.

Laat P(x) de waarschijnlijkheid zijn van x successen gedurende een gegeven tijd of ruimte, gegeven λ. En laat λ het verwachte aantal successen per tijd of ruimte-eenheid zijn, met λ > 0. Er wordt gezegd dat een willekeurige variabele X de Poisson-verdeling volgt als deze de volgende waarschijnlijkheidsverdeling heeft:

\[ P(x) = \frac{e^{-\lambda}\lambda^{x}}{x!} for x = 0, 1, 2, ... \]

waarbij e verwijst naar de basis van het natuurlijke logaritme (dat is, e ≅ 2.71828).

Het gemiddelde van een Poisson distributie kan worden berekend als:

\[ \mu_{X} = E[X] = \lambda \]

En de variantie van de Poisson distributie is:

\[ \sigma^{2}_{x} = E[(X - \mu_{x})^{2}] = \lambda \]

Merk op dat de som van de willekeurige variabele Poisson ook een willekeurige variabele van Poisson is. Dat wil zeggen, de som van K Poisson willekeurige variabelen, elk met gemiddelde λ, is een Poisson willekeurige variabele met gemiddelde Kλ. Poisson-distributies hebben twee belangrijke toepassingen in de moderne wereldeconomie. Ten eerste worden ze toegepast op de kans op storingen in complexe systemen en de kans op defecte producten in grote productieruns van enkele honderdduizenden tot een miljoen eenheden (zoals Federal Express, een grote rederij met een zeer complexe en uitgebreide pick-up, classificatie , verzend- en bezorgsysteem voor miljoenen pakketten per dag). Ten tweede lijkt de Poisson-distributie ook erg nuttig bij wachtrij problemen, bijvoorbeeld het aantal klanten dat op een grote winkel wacht. Deze wachtrij problemen zijn belangrijk voor het management. Als de wachtrij bijvoorbeeld te lang wordt, kunnen klanten besluiten de lijn te verlaten of niet terugkeren voor een volgend winkelbezoek.

Eerder vermeldden we dat de Poisson-verdeling wordt verkregen op basis van de binomiale verdeling waarbij P benaderd 0 en n erg groot worden. Hieruit volgt dat de Poisson-verdeling kan worden gebruikt om de binomiale verdeling te benaderen in het geval van een groot aantal proeven n met een kleine waarschijnlijkheid p zodanig dat λ = nP <7. In dat geval de waarschijnlijkheidsverdeling van de benaderende distributie wordt gegeven door:

\[ P(x) = \frac{e^{-nP}(nP)^{x}}{x!} for x = 0, 1, 2, ... \]

Hoe te beslissen over de te gebruiken distributie? Meer precies, wanneer de binomiale verdeling en wanneer de Poisson-verdeling gebruiken? Deze keuze kan vaak worden gemaakt door de aannames voor de twee distributies zorgvuldig te bekijken. Als het probleem bijvoorbeeld een kleine steekproef van waarnemingen betreft, is het niet mogelijk om een ​​beperkende waarschijnlijkheid met grote n te identificeren, wat impliceert dat de binomiale verdeling moet worden gebruikt. Bovendien, als er een kleine steekproef is en de kans op succes voor een enkele proef ligt tussen 0,05 en 0,95, dan is er verdere ondersteuning voor een binomiale verdeling. Over het algemeen kunnen we stellen dat als de set gevallen erg klein is, bijvoorbeeld minder dan 30, de binomiale verdeling moet worden gebruikt. Als het aantal gevallen dat kan worden beïnvloed, erg groot is (bijvoorbeeld enkele duizenden), moet de Poisson-verdeling worden gebruikt.

Wanneer wordt een hypergeometrische verdeling gebruikt?

De binomiale verdeling die we eerder hebben besproken, is nuttig wanneer de items onafhankelijk worden getekend met een gelijke waarschijnlijkheid dat elk item wordt geselecteerd. Aan deze veronderstellingen kan in veel toepassingen in het echte leven worden voldaan, als een kleine steekproef wordt getrokken uit een (zeer) grote populatie. Soms hebben we echter niet zo'n grote populatie. Stel bijvoorbeeld dat we vijf medewerkers willen selecteren uit een groep van 15 gelijk gekwalificeerde applicaties. Hier hebben we te maken met een kleine bevolking. Als we daarnaast te maken hebben met een situatie waarin bemonstering plaatsvindt zonder vervanging, kan de hypergeometrische verdeling worden gebruikt. De overeenkomstige kansverdeling is:

\[ P(x) = \frac{C^{s}_{x}C^{N-2}_{n-s}}{C^{N}_{n}} \]

waar x gehele getallen kan aannemen die variëren van de grootste van 0 en [n - (N - S)] tot de kleinste waarde van n en S.

Merk op dat, als de populatie groot is (meestal N > 10.000) en de steekproefgrootte klein is (meestal < 1%), de verandering in waarschijnlijkheid van elke trekking erg klein is en de binomiale verdeling een voldoende benadering lijkt te zijn. Daarom wordt onder deze omstandigheden typisch de binomiale verdeling gebruikt.

Hoe kun je kansverdelingen gebruiken voor gezamenlijk verdeelde discrete willekeurige variabelen?

Vaak in zakelijke en economische toepassingen zijn statistische vragen gerelateerd aan de relatie tussen variabelen. Producten kunnen bijvoorbeeld verschillende prijzen hebben op verschillende kwaliteitsniveaus. Leeftijdsgroepen kunnen verschillende voorkeuren hebben voor kleding, auto's en muziek. Het percentage rendement op twee verschillende aandelen kan gerelateerd zijn, enzovoort. Daarom beschouwen we in deze sectie het geval van twee of meer mogelijk gerelateerde discrete willekeurige variabelen.

Stel dat X en Y een paar discrete willekeurige variabelen zijn. De gezamenlijke kansverdeling (in het Engels: joint probability distribution) verwijst dan naar de waarschijnlijkheid dat X tegelijkertijd de specifieke waarde x aanneemt en Y de specifieke waarde y aanneemt, als functies van respectievelijk x en y. In formule wordt de gezamenlijke waarschijnlijkheid van x en y als volgt aangegeven:

\[ P(x,y) = P(X = x ∩ Y = y) \]

De kansverdelingen van respectievelijk x en y worden de marginale kansverdelingen genoemd, aangeduid met:

\[ P(x) = \sum_{y} P(x,y) \]

en

\[ P(y) = \sum_{x} P(x,y) \]

Vervolgens zijn er twee eigenschappen waaraan de gezamenlijke waarschijnlijkheidsverdeling van discrete willekeurige variabelen moet voldoen: (1) 0 < P(x, y) < 1 voor elk paar waarden x en y; en (2) de som van de gezamenlijke kansen P(x, y) over alle mogelijke waarden paren moet 1 zijn.

Vervolgens is de voorwaardelijke kansverdeling van een willekeurige variabele Y, gegeven opgegeven waarden van de andere willekeurige variabele X, de verzameling van voorwaardelijke kansen. De voorwaardelijke kans dat y x krijgt, wordt aangegeven met P(y|x). De voorwaardelijke kans van x gegeven y wordt aangegeven door P(x|y). Ze kunnen als volgt worden verkregen:

\[ P(y|x) = \frac{P(x,y)}{P(x)} \]

en

\[ P(x|y) = \frac{P(x,y)}{P(y)} \]

Als, en alleen als, de gezamenlijke kansverdeling van X en Y het product is van hun marginale kansverdelingen, wordt gezegd dat de gezamenlijk verdeelde willekeurige variabelen X en Y onafhankelijk zijn. In de formule is dat:

\[ P(x,y) = P(x)P(y) \]

voor alle mogelijke paren van waarden voor x en y. Evenzo volgt uit deze eigenschap van onafhankelijkheid dat P(y|x) = P(y) en dat P(x|y) = P(x).

Tot slot beschouwen we de verwachting van een functie van twee willekeurige variabelen. Dit werd eerder gedaan voor een enkele willekeurige variabele. De verwachting van elke functie g (X, Y) van twee willekeurige variabelen X en Y is als volgt gedefinieerd:

\[E [g(X,Y)] = \sum_{x} \sum_{y} g(x,y)P(x,y) \]

en maat die van bijzonder belang is voor lineaire functies is de covariantie. De covariantie is een maat voor lineaire associatie tussen twee willekeurige variabelen. Het verwijst naar de gezamenlijke waarschijnlijkheid van twee willekeurige variabelen en wordt gebruikt met de variantie van elke willekeurige variabele om de variantie van de lineaire combinatie te berekenen. De covariantie wordt aangeduid als Cov(x, y) en voor discrete willekeurige variabelen wordt de covariantie als volgt gedefinieerd:

\[ Cov(X,Y) = E[(X - \mu_{X})(Y - \mu_{Y})] = \sum_{x} \sum_{y} (x - \mu_{X})(y - \mu_{Y}) P(x,y) \]

Als twee willekeurige variabelen statistisch onafhankelijk zijn, is de covariantie daartussen nul. Houd er echter rekening mee dat het omgekeerde niet noodzakelijk waar is.

De covariantie heeft geen boven- of ondergrens. Daarom wordt de grootte ervan sterk beïnvloed door de schaal van de variabelen. Als gevolg hiervan is het moeilijk om de covariantie te gebruiken als een maat voor de sterkte van een lineair verband tussen twee willekeurige variabelen. Een gerelateerde maat, de correlatiecoëfficiënt, biedt een alternatieve manier om de sterkte van een lineair verband tussen twee willekeurige variabelen te meten. De correlatiecoëfficiënt wordt begrensd met een bereik van -1 tot +1. De correlatie tussen X en Y kan als volgt worden gevonden:

\[ \rho = Corr(X,Y) = \frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}} \]

Een correlatie waarde van nul geeft aan dat er geen lineair verband is tussen twee variabelen. Bovendien, als de twee variabelen onafhankelijk zijn, volgt daaruit dat hun correlatie gelijk is aan nul. Een positieve correlatie waarde geeft aan dat als een variabele hoog (laag) is, de andere variabele ook een grotere kans heeft om hoog (laag) te zijn. Een waarde van één geeft een perfect positief lineair verband aan. Omgekeerd geeft een negatieve correlatie waarde aan dat als een variabele hoog (laag) is, de andere variabele een grotere kans heeft op laag (hoog). Een waarde van -1 geeft een perfect negatief lineair verband aan.

Ten slotte worden enkele samenvattingsresultaten gepresenteerd voor lineaire sommen en verschillen van twee willekeurige variabelen:

\[ E[X + Y] = \mu_{X} + \mu_{Y} \]

\[ E[X - Y] = \mu_{X} - \mu_{Y} \]

Als de covariantie tussen X en Y gelijk is aan 0, dan geldt:

\[ Var(X + Y) = \sigma^{2}_{X} + \sigma^{2}_{Y} \]

en

\[ Var(X - Y) = \sigma^{2}_{X} - \sigma^{2}_{Y} \]

Maar als de covariantie tussen X en Y niet gelijk is aan 0, dan geldt:

\[ Var(X + Y) = \sigma^{2}_{X} + \sigma^{2}_{Y} + 2cov(X,Y) \]

en

\[ Var(X - Y) = \sigma^{2}_{X} + \sigma^{2}_{Y} - 2cov(X,Y) \]

Deze verschilscores voor het gemiddelde en de variantie zijn zeer nuttig in bedrijfstoepassingen. Ze worden vaak gebruikt om een portfolio te ontwikkelen. Beleggingsbeheerders leveren aanzienlijke inspanningen om beleggingsportefeuilles te ontwikkelen die bestaan uit een reeks financiële instrumenten die elk een rendement hebben dat wordt bepaald door een kansverdeling. Deze portefeuilles worden gebruikt om een gecombineerde belegging te verkrijgen met een gegeven verwacht rendement (het gemiddelde; verwachte waarde) en risico (de variantie). Over het algemeen wenst men een hoog rendement (dus een hogere verwachte waarde) en een laag risico (dus een lagere variantie). De marktwaarde van de portefeuille wordt aangegeven door W en wordt gegeven door de lineaire functie:

\[ W = aX + bY \]

waarbij a het aantal aandelen in voorraad A is en b het aantal aandelen in voorraad B. De gemiddelde waarde voor W kan als volgt worden berekend:

\[ \mu_{W} = E[W] = E[aX + bY] = a\mu_{X} + b\mu_{Y} \]

en de variantie voor W kan als volgt worden berekend:

\[ \sigma^{2} = a^{2}\sigma^{2}_{X} + b^{2}\sigma^{2}_{Y} + 2abCov(X,Y) \]

of, via de correlatie, als volgt:

\[ \sigma^{2} = a^{2}\sigma^{2}_{X} + b^{2}\sigma^{2}_{Y} + 2aborr(X,Y)\sigma_{x}\sigma_{Y} \]

 

In het vorige hoofdstuk hebben we het concept waarschijnlijkheid geïntroduceerd om situaties met onzekere uitkomsten weer te geven. In dit hoofdstuk gebruiken we die ideeën om kansmodellen te construeren voor discrete willekeurige variabelen. In het volgende hoofdstuk zullen we die ideeën gebruiken om dergelijke waarschijnlijkheids modellen te construeren voor continue willekeurige variabelen. Waarschijnlijkheids modellen worden breed toegepast op verschillende bedrijfsproblemen. Stel bijvoorbeeld dat u uit eerdere ervaringen weet dat 30% van de mensen die een autoverhuurwinkel binnenkomen, een busje willen huren. Vandaag heb je drie busjes beschikbaar. Vijf volledig niet-verwante (willekeurige) mensen komen de huurwinkel binnen. Wat is de kans dat deze vijf mensen in totaal vier of vijf busjes willen huren? Om deze vraag te beantwoorden, zijn waarschijnlijkheids modellen nuttig.

 

 

Hoe kun je kansmodellen gebruiken voor continue willekeurige variabelen? - Chapter 5

 

 

In het vorige hoofdstuk hebben we besproken hoe we kansmodellen kunnen gebruiken voor discrete willekeurige variabelen. In dit hoofdstuk breiden we de kansconcepten uit naar continue willekeurige variabelen. Veel maatregelen in de economie en het bedrijfsleven vallen in deze categorie van continue willekeurige variabelen, bijvoorbeeld verkoop, investeringen, consumptie en kosten. Daarom zijn deze waarschijnlijkheidsmodellen voor continue willekeurige variabelen erg belangrijk en bieden ze een uitstekend hulpmiddel voor zakelijke en economische toepassingen.

Welke kansverdelingsfunctie wordt gebruikt voor continue willekeurige variabelen?

De kansverdelingsfunctie die wordt gebruikt voor continue willekeurige variabelen wordt de cumulatieve verdelingsfunctie genoemd, aangeduid met F(X). De cumulatieve verdelingsfunctie is analoog aan de waarschijnlijkheidsverdelingsfunctie die wordt gebruikt voor discrete willekeurige variabelen. Het drukt de waarschijnlijkheid uit dat variabele X de waarde van x niet overschrijdt, als een functie van x. In de formule is dat:

\[F(x) = P(X \leq x) \]

Als we geïnteresseerd zijn in de waarschijnlijkheid dat een continue willekeurige variabele X binnen een specifiek bereik valt, zoeken we het verschil tussen de cumulatieve waarschijnlijkheid aan de bovenkant van dit bereik en de cumulatieve waarschijnlijkheid aan de onderkant van dit bereik. De waarschijnlijkheid van het bereik ligt dan tussen deze twee waarden. In de formule is dat:

\[ P(a < X < b) = F(b) - F(a) \]

Stel bijvoorbeeld dat we geïnteresseerd zijn in de waarschijnlijkheid dat een continue willekeurige variabe X tussen 250 en 750 valt. Verder wordt er voorzien dat X uniform wordt verdeeld in het bereik van 0 tot 1.000. De cumulatieve verdelingsfunctie is dan: F (x) = 0.001x. Daarom is de kans dat de waarschijnlijkheid tussen 250 en 750 daalt: P (250
Om een grafische interpretatie van de waarschijnlijkheidsstructuur voor continue willekeurige variabelen te verkrijgen, kunnen we de waarschijnlijkheidsdichtheidsfunctie gebruiken. De kansdichtheidsfunctie, f (x) van een continue willekeurige variabele X heeft de volgende eigenschappen:

  1. f (x) > 0 voor alle waarden van x.
  2. Het gebied onder de waarschijnlijkheidsdichtheidsfunctie, f (x) over alle waarden van de willekeurige variabele X - binnen zijn bereik (!) - is gelijk aan 1,0. Met andere woorden, het totale oppervlak onder de curve f(x) is 1.
  3. Het gebied onder de curve f(x) links van x0 is F (x0), waarbij x0 verwijst naar elke waarde die de willekeurige variabele X kan aannemen. Met andere woorden, de cumulatieve verdelingsfunctie F(x0) is het gebied onder de waarschijnlijkheidsdichtheidsfunctie f(x) tot x0, waarbij xm de minimumwaarde is van de willekeurige variabele X.
    \[ F(x_{0}) = \int^{x_{0}}_{x_{m}} f(x)dx \]
  4. Laat a en b twee mogelijke waarden zijn van de continue willekeurige variabele X met a \[ P(a \leq X \leq b) = \int_{a}^{b} f(x)dx \]

Voor elke uniforme willekeurige variabele gedefinieerd over het bereik a tot b, wordt de kansdichtheidsfunctie (in het Engels: probability density function) als volgt gegeven:

\[ f(x) = \frac{1}{b-a} \hspace{3mm} for \hspace{3mm} a \leq x \leq b \]
met f(x) = 0 in alle andere gevallen (dat wil zeggen, als x niet tussen a en b valt).

Hoe kun je de verwachte waarden voor continue willekeurige variabelen berekenen?

In het vorige hoofdstuk introduceerden we het concept van verwachte waarden voor discrete willekeurige variabelen. In dit hoofdstuk breiden we dat concept uit tot het geval van continue willekeurige variabelen. Omdat de waarschijnlijkheid van een verwachte waarde 0 is voor een continue willekeurige variabele, worden de verwachte waarden voor continue willekeurige variabelen berekend met behulp van integrale calculus. De verwachte waarde wordt aangegeven door symbool E[X] en kan als volgt worden verkregen:

\[E[g(x)] = \int_{x} g(x)f(x)dx \]

Het gemiddelde van een continue willekeurige variabele X wordt gedefinieerd als de verwachte waarde van X, dat wil zeggen: μX = E[X]. De variantie van X kan worden verkregen als de verwachting van de gekwadrateerde afwijking, dat wil zeggen: σ2 = E[(X - μX)2] of, via een alternatieve uitdrukking: σ2 = E[X]2 - μX2. De standaardafwijking van X wordt zoals altijd verkregen door de vierkantswortel van de variantie te nemen.

Uniforme distributie

Voor een uniforme distributie gelden de volgende eigenschappen:

  1. \[ f(x) = \frac{1}{b - a} \hspace{3mm} a \leq X \leq b \]
  2. \[ \mu_{x} = E[X] = \frac{a +b}{2} \]
  3. \[ \sigma^{2}_{x} = E[(X - \mu_{x})^{2}] = \frac{(b - a)^{2}}{12} \]

Het gemiddelde en de standaarddeviatie worden ook wel respectievelijk het eerste en tweede moment genoemd.

Lineaire functies

In hoofdstuk 4 hebben we laten zien hoe we de middelen en varianties kunnen verkrijgen voor lineaire functies van discrete willekeurige variabelen. Dit zijn dezelfde voor continue willekeurige variabelen, omdat de afleidingen gebruik maken van de verwachte waarde-operator. Daarom kunnen dezelfde formules worden gebruikt om de middelen en varianties te verkrijgen.

Dat wil zeggen, beschouw het geval voor een lineaire functie van een willekeurige variabele met behulp van de lineaire functie: Y = a + bX. Dat wil zeggen, wanneer een willekeurige variabele X een specifieke waarde x aanneemt, moet Y de waarde a + bX aannemen. Het gemiddelde van Y kan als volgt worden afgeleid:

\[ \mu_{Y} = Ea + bX] = a + b\mu_{x} \]

Met variantie:

\[ \sigma^{2}_{Y} = Var(a + bX) = b^{2}\sigma^{2}_{X} \]

En de standaarddeviatie:

\[ \sigma_{Y} = |b| \sigma_{x} \]

Een belangrijk speciaal geval hiervan is de gestandaardiseerde willekeurige variabele die gemiddelde 0 en variantie 1 heeft:

\[ Z = \frac{X - \mu_{X}}{\sigma_{X}} \]

Hoe kun je de normaalverdeling gebruiken?

De normale kansverdeling (in het Engels: probability density distribution), aangeduid met X ~ N(μ, σ2) is de kansverdeling die het meest wordt gebruikt voor economische en zakelijke toepassingen. Er zijn veel redenen voor de populariteit van de normale distributiefunctie. Ten eerste benadert het nauw de waarschijnlijkheidsverdelingen voor een breed scala van willekeurige variabelen. Ten tweede benaderen verdelingen van steekproefmiddelen een normale verdeling gegeven een "grote" steekproefomvang. Ten derde is de berekening van waarschijnlijkheden direct en elegant. Ten vierde, de belangrijkste reden, heeft de normale kansverdeling geleid tot goede zakelijke beslissingen voor verschillende toepassingen. Formeel wordt de kansdichtheidsfunctie voor een normaal verdeelde willekeurige variabele X gegeven door:

\[f(x) = \frac{1}{\sqrt{2\pi\sigma^{2}}} e^{-(x - \mu)^{2 / \sigma^{2}}} \]

De normale kansverdeling vertegenwoordigt een grote familie van distributies, elk met een unieke specificatie voor de twee parameters (gemiddelde en variantie). Deze parameters hebben een zeer convenient-interpretatie. Meer precies, de normale verdeling is symmetrisch. Vandaar dat centrale tendensen worden aangegeven door het gemiddelde. De variantie geeft daarentegen de verdelingsbreedte aan. Door vaues te selecteren voor het gemiddelde en de variantie, stellen we een grote reeks waarschijnlijkheidsdichtheidsfuncties samen. Elk is symmetrisch, maar met een andere waarde voor de centrale neiging (gemiddelde) en verdelingsbreedte (variantie).

De cumulatieve verdelingsfunctie voor de normale verdeling wordt als volgt gegeven:

\[ F(x_ {0}) = P(X \leq x_ {0}) \]

Zoals voor elke dichtheidsfunctie, is het totale oppervlak onder de curve gelijk aan -1.

Standaard normaalverdeling

Elke normale verdeling kan worden omgezet in de standaard normaalverdeling, dat wil zeggen een normale verdeling met gemiddelde 0 en variantie 1. De standaardverdeling is erg handig, omdat deze gemakkelijk kan worden geïnterpreteerd voor mensen, ongeacht de schaal van de onbewerkte variabelen. De standaard normale verdeling wordt aangegeven met Z ~ (0,1), wat betekent dat het gemiddelde gelijk is aan één en de variantie (en standaarddeviatie) gelijk is aan 1. De formele relatie tussen de standaardscore, Z en de ruwe score X wordt gegeven door:

\[Z = \frac {X - \mu} {\sigma} \]

waarbij X een normaal verdeelde willekeurige variabele X ~ N(μ, σ2) is. Met de standaardscore Z kunnen we de standaardstandaard-tabel gebruiken om kansen te berekenen die zijn gekoppeld aan een normaal verdeelde willekeurige variabele. Deze tabel staat in de bijlage, tabel 1, en wordt ook verstrekt tijdens het examen. De tabel geeft waarden van F (z) = P (Z
Het meest gebruikte kansmodel is het normale kansdiagram. In deze grafiek geeft de horizontale as de gegevenspunten aan in volgorde van de kleinste tot de grootste. De verticale as vertegenwoordigt de cumulatieve normale waarschijnlijkheden van de gerangschikte gegevenssnelheden als de steekproefgegevens werden verkregen van een populatie waarvan de willekeurige variabelen een normale verdeling volgen. Als de geplotte waarden dicht bij een rechte lijn liggen, zelfs aan de boven- en ondergrens, kunnen we concluderen dat de resultaten solide bewijs leveren dat de gegevens een normale verdeling hebben. Als de gegevenspunten afwijkingen van een rechte lijn vertonen, bijvoorbeeld grote afwijkingen bij de extreem hoge en lage waarden, kunnen we concluderen dat de verdeling scheef is. Een scheve verdeling is een grote zorg in de statistiek, omdat statistische inferentie vaak gebaseerd is op de veronderstelling afgeleid van een (standaard) normale verdeling.

Wanneer kan de normaalverdeling worden gebruikt als schatter van de binomiale verdeling?

Soms, als er geen tabellen beschikbaar zijn, kan de binomiale verdeling worden benaderd met de normale verdeling. In deze sectie laten we zien hoe deze benadering werkt. Door de normale verdeling te gebruiken in plaats van de binomiale verdeling, kunnen we het aantal verschillende statistische procedures verminderen dat je moet weten om zakelijke problemen op te lossen.

Een manier om te beoordelen of de binomiale verdeling kan worden geschat via een normale verdeling, is door middel van grafieken. Een plot kan visueel bewijs leveren dat de verdeling dezelfde vorm heeft als de normale verdeling. Meer in het bijzonder is een benaderingsregel ontwikkeld voor wanneer de normale verdeling als benadering van de verdeling moet worden gebruikt. Dat wil zeggen: als het aantal proeven n groot is, zodat nP (1-P)> 5, dan kan de benadering van de verdeling van de willekeurige variabele worden geschat door de standaard normale verdeling. Merk op dat nP (1-P) gelijk is aan de variantie van de binomiale verdeling. Als deze waarde kleiner is dan 5, moet de binomiale verdeling worden gebruikt om de kansen te bepalen. Als deze waarde 5 overschrijdt, kan de normale verdeling als benadering worden gebruikt.
Verhoudingen van willekeurige variabelen

Bij verschillende toegepaste problemen moeten we waarschijnlijkheden berekenen voor verhoudingen of percentage-intervallen. Deze kunnen worden verkregen door een directe uitbreiding van de normale distributiebenadering voor de binomiale verdeling te gebruiken. Laat P de proportie van een willekeurige variabele zijn, X het aantal successen en n de steekproefgrootte (totaal aantal proeven). Vervolgens geldt:

\[ P = \frac{X}{n} \]

Vervolgens kunnen het gemiddelde en de standaarddeviatie als volgt worden berekend:

\[ \mu = P \]

\[ \sigma^{2} = \frac{P(1 - P)}{n} \]

Het resulterende gemiddelde en de variantie kunnen met de normale verdeling worden gebruikt om de gewenste kansen te berekenen.

Hoe kun je de exponentiële verdeling gebruiken?

De exponentiële verdeling is zeer nuttig gebleken voor wachtrij- en wachtrijproblemen. De exponentiële verdeling verschilt op twee belangrijke manieren van de standaard normale verdeling: (1) Het is beperkt tot willekeurige variabelen met positieve waarden; en (2) de verdeling is niet symmetrisch.

De exponentiële willekeurige variabele T(t > 0), waarvan wordt gezegd dat deze de exponentiële waarschijnlijkheidsverdeling volgt, heeft de volgende waarschijnlijkheidsdichtheidsfunctie:
\[ f(t) = \lambda e^{-\lambda t} \hspace{3mm} for \hspace{3mm} t > 0 \]
waarbij λ verwijst naar het gemiddelde aantal onafhankelijke aankomsten per tijdseenheid, t verwijst naar het aantal tijdseenheden tot de volgende aankomst, en e = 2.71828. De verdeling heeft een gemiddelde van 1 / λ en een variantie van 1 / λ2.

De cumulatieve verdelingsfunctie is als volgt:
\[ F(t) = 1 - e^{-\lambda t} \hspace{3mm} for \hspace{3mm} t > 0 \]
De waarschijnlijkheid dat de tijd tussen aankomsten ta of minder is, wordt als volgt berekend:
\[ P(T \leq t_{a}) = (1 - e^{-\lambda t_{a}}) \]
De kans dat de tijd tussen aankomsten tussen tb en ta ligt, wordt als volgt berekend:
\[P(t_{b}) \leq T \leq t_{a} = (1 - e^{-\lambda t_{a}}) - (1 - e^{-\lambda t_{b}}) = e^{-\lambda t_{b}} - e^{-\lambda t_{a}} \]
Om dit te illustreren gebruiken we een voorbeeld. Stel dat de willekeurige variabele T de tijdsduur vertegenwoordigt tot het einde van een diensttijd of tot de volgende aankomst, beginnend op een willekeurig tijdstip 0. De modelaannames zijn dezelfde als die voor de Poisson-verdeling. Houd er echter rekening mee dat de Poisson-verdeling de kans op X-successen of aankomsten tijdens een tijdseenheid biedt. De exponentiële verdeling daarentegen geeft de waarschijnlijkheid dat een succes of aankomst zal optreden gedurende een tijdsinterval t. Nu heeft de kansdichtheidsfunctie λ - 0,2. De waarschijnlijkheid dat een aankomst plaatsvindt tussen tijd 10 en 20 kan als volgt worden berekend:
\[ P(t_{10} \leq T \leq t_{20}) = (1 - e^{-0.2t_{20}}) - (1 - e^{-0.2t_{10}}) = 0.1353 - 0.0183 = 0.1170 \]

Hoe kun je gezamenlijk verdeelde continue willekeurige variabelen modelleren?

In het vorige hoofdstuk is het concept van gezamenlijk verdeelde variabelen geïntroduceerd voor discrete willekeurige variabelen. In dit hoofdstuk laten we zien dat veel van deze concepten en resultaten ook van toepassing zijn op continue willekeurige variabelen. Gezamenlijk gedistribueerde willekeurige variabelen komen veel voor in de economie en het bedrijfsleven. De marktwaarden van verschillende aandelenkoersen worden bijvoorbeeld regelmatig gemodelleerd als gezamenlijke willekeurige variabelen.

Laat X1, X2, ..., XK continue willekeurige variabelen zijn. Hun gezamenlijke cumulatieve verdeling F( X1, X2, ..., XK) verwijst naar de waarschijnlijkheid dat X1 tegelijkertijd kleiner is dan x1, X2 kleiner is dan x2 enzovoort. In de formule is dat: F (x1, x2, ..., xk) = P(X1 1 ∩ X2 2 ∩ ... ∩ XK k). Verder worden de cumulatieve verdelingsfuncties - F( X1, X2, ..., XK)- van de individuele willekeurige variabelen hun marginale verdelingen genoemd. Voor elke waarde van i, F(xi) is de kans dat de willekeurige variabele Xi de specifieke waarde xi niet overschrijdt. Ten slotte zijn de willekeurige variabelen onafhankelijk als en alleen als F( X1, X2, ..., XK) = F(x1) F(x2) ... F(x3). Houd er rekening mee dat het begrip onafhankelijkheid hetzelfde is als voor discrete variabelen. Onafhankelijkheid van een set willekeurige variabelen impliceert dat de waarschijnlijkheidsverdeling van een van deze variabelen niet wordt beïnvloed door de waarden die door anderen worden genomen. De bewering dat opeenvolgende dagelijkse veranderingen in de prijs van een aandeel van gewone aandelen onafhankelijk van elkaar zijn, houdt bijvoorbeeld in dat informatie over de prijswijzigingen in het verleden geen waarde heeft bij de beoordeling van wat waarschijnlijk de volgende dag zal gebeuren.

Vergelijkbaar met het geval van discrete willekeurige variabelen, hebben we het concept van variantie, dat wordt gebruikt om lineaire relaties tussen paren van willekeurige variabelen te beoordelen. Bovendien kan hetzelfde concept van correlatie worden gebruikt om de sterkte (en richting) van de relatie tussen twee continue willekeurige variabelen te beoordelen.

In het vorige hoofdstuk hebben we al de gemiddelden en varianties voor sommen en verschillen van discrete willekeurige variabelen gepresenteerd. Hier geldt hetzelfde voor continue willekeurige variabelen, omdat resultaten worden vastgesteld met behulp van verwachtingen en daarom niet worden beïnvloed door de voorwaarde dat ze discreet of continu zijn.

In het vorige hoofdstuk bespraken we hoe je het gemiddelde en de variantie kunt berekenen voor lineaire combinaties van discrete willekeurige variabelen. Deze berekeningen zijn ook van toepassing op continue willekeurige variabelen. Nogmaals, dit is het geval omdat hun ontwikkeling is gebaseerd op operaties met verwachte waarden en dus niet afhankelijk is van bepaalde kansverdelingen. Deze lineaire combinaties worden vaak gebruikt voor beleggingsportefeuilles. Bedenk dat het risico van een belegging rechtstreeks verband houdt met de variantie van de beleggingswaarde. Houd er rekening mee dat, als de waarden van de twee aandelenkoersen positief gecorreleerd zijn, de resulterende portefeuille een grotere variantie en een hoger risico zal hebben. Maar als de twee aandelenkoersen negatief gecorreleerd zijn, zal de resulterende portefeuille een kleinere variantie hebben en dus een lager risico. Dit fenomeen wordt vaak hedging genoemd.

 

In het vorige hoofdstuk hebben we besproken hoe we kansmodellen kunnen gebruiken voor discrete willekeurige variabelen. In dit hoofdstuk breiden we de kansconcepten uit naar continue willekeurige variabelen. Veel maatregelen in de economie en het bedrijfsleven vallen in deze categorie van continue willekeurige variabelen, bijvoorbeeld verkoop, investeringen, consumptie en kosten. Daarom zijn deze waarschijnlijkheidsmodellen voor continue willekeurige variabelen erg belangrijk en bieden ze een uitstekend hulpmiddel voor zakelijke en economische toepassingen.

 

 

Hoe kun je een goede steekproef uit de populatie verkrijgen? - Chapter 6

 

 

De rest van dit boek richt zich op verschillende procedures voor het gebruik van statistische steekproefgegevens om conclusies te trekken over statistische populaties. Voordat we deze procedures kunnen uitvoeren, moeten we echter eerst een goede steekproef van de bevolking verkrijgen. Dit proces wordt ook sampling (steekproeftrekking) genoemd en zal in dit hoofdstuk centraal staan.

Wat is een eenvoudige willekeurige steekproef?

Een eenvoudige willekeurige steekproef, ook gewoon bekend als willekeurige steekproef, wordt gekozen door een proces dat een steekproef van n objecten uit een populatie zo selecteert dat elk lid van de populatie dezelfde kans heeft om te worden geselecteerd. Willekeurige steekproeven zijn ideaal; ze bieden verzekering tegen persoonlijke vooroordelen die het selectieproces kunnen beïnvloeden.

Wat zijn de drie voordelen van een eenvoudige steekproef?

Over het algemeen wordt een grotere nauwkeurigheid verkregen door een willekeurige steekproef van de populatie te gebruiken in plaats van de middelen te besteden om elk item te meten. Daar zijn drie redenen voor. Ten eerste is het vaak erg moeilijk om elk item in een populatie te verkrijgen en te meten, en zelfs als het mogelijk zou zijn, zouden de kosten extreem hoog zijn voor een grote populatie. Ten tweede kunnen correct geselecteerde steekproeven worden gebruikt om gemeten schattingen van populatiekenmerken te verkrijgen die vrij dicht bij de werkelijke populatiewaarden liggen. Ten derde kunnen we door de kansverdeling van steekproefkenmerken te gebruiken de fout bepalen die verband houdt met onze schattingen van populatiekarakteristieken.

Hoe kun je conclusies trekken over de populatie?

Om conclusies te trekken over de populatie, moeten we de steekproefverdeling van de waarnemingen en de berekende steekproefstatistieken kennen. De steekproefverdeling van het steekproefgemiddelde is de waarschijnlijkheidsverdeling van de steekproefgemiddelden verkregen van alle mogelijke steekproeven met hetzelfde aantal waarnemingen uit de populatie. Met behulp van deze steekproefverdeling kunnen we conclusies trekken over het populatiegemiddelde.

Stel dat we de willekeurige variabele X hebben. Op dit punt kunnen we de vorm van de steekproefverdeling niet bepalen, maar we kunnen wel het gemiddelde en de variantie van de steekproefverdeling bepalen. Merk op dat het gemiddelde van de steekproefverdeling van de steekproefgemiddelden het populatiegemiddelde is. Laten de willekeurige variabelen X 1 , X 2 , ..., X n een willekeurige steekproef van een populatie aangeven. De gemiddelde steekproefwaarde van deze willekeurige variabelen wordt als volgt verkregen:

\[ \bar{X} = \frac{1}{n} = \sum^{n}_{i = 1} X_{i} \]

Merk op dat het gemiddelde van de steekproefverdeling gelijk is aan de verwachte waarde van de steekproefverdeling. Dat is:

\[ E[\bar{X}] = \mu \]

Nadat we hebben vastgesteld dat de verdeling van de steekproefgemiddelden gecentreerd is rond het populatiegemiddelde, willen we de variantie van de verdeling van de steekproefgemiddelden bepalen. Als de populatie erg groot is in vergelijking met de steekproefgrootte, zijn de verdelingen van de afzonderlijke onafhankelijke willekeurige steekproefobservaties hetzelfde. Aan de andere kant, als de steekproefomvang n geen kleine fractie is van de populatiegrootte N , worden de afzonderlijke steekproefleden niet onafhankelijk van elkaar verdeeld en kan worden aangetoond dat de variantie van de steekproefgemiddelden als volgt is:

\[ Var(\bar{X}) = \frac{\sigma^{2}}{n} * \frac{N - n}{N - 1} \]

De term (N - n) / (N-1) is ook bekend als de eindige populatiecorrectiefactor (in het Engels: finite population correction factor). Deze term is opgenomen voor de volledigheid, omdat bijna alle echte steekproefstudies grote populaties gebruiken. We weten dat we de uitdrukkingen voor het gemiddelde en de variantie van de steekproefverdeling van het gemiddelde van X hebben ontwikkeld. Vaak bepalen het gemiddelde en de variantie de steekproefverdeling.

Ten slotte, als de ouderpopulatieverdeling normaal verdeeld is, en daarom de steekproefverdeling van de steekproefgemiddelden ook normaal verdeeld is, kan de willekeurige variabele Z als volgt worden verkregen:

\[Z = \frac{X - \mu}{\sigma_{\bar{X}}} \]

die een standaard normale verdeling heeft met gemiddelde 0 en variantie 1.

Vaak willen we graag weten binnen welk bereik waarschijnlijk steekproefgemiddelden zullen voorkomen. Hiervoor kunnen we acceptatie-intervallen gebruiken. Een acceptatie-interval is een interval waarbinnen een steekproefgemiddelde een hoge waarschijnlijkheid heeft om op te treden, aangezien we het populatiegemiddelde en de variantie kennen. Als het steekproefgemiddelde binnen dat interval lijkt te liggen, kunnen we de conclusie accepteren dat de willekeurige steekproef afkomstig was van de populatie met het bekende gemiddelde en de variantie. Daarom bieden acceptatie-intervallen een werkregel voor toepassingen voor procesbewaking. Deze acceptatie-intervallen zijn gebaseerd op het gemiddelde en de variantie en gebruiken de normale verdeling. Dus, ervan uitgaande dat we het populatiegemiddelde en de variantie kennen, respectievelijk aangegeven met μ en σ 2 , kunnen we een symmetrisch acceptatie-interval als volgt construeren:

\[ \mu ∓ z_{\alpha/2\sigma_{\bar{x}}} \]

Doorgaans is α erg klein (dat wil zeggen α <.01). Vaak is in toepassingen een kleine variantie gewenst. Als het steekproefgemiddelde buiten het acceptatie-interval ligt, geeft dit aan dat het populatiegemiddelde niet μ mag zijn . In een typisch project passen ingenieurs het proces aan zodat de variantie klein is. Nadat het proces zodanig is aangepast dat de variantie klein is, wordt een acceptatie-interval voor het steekproefgemiddelde (dat een controle-interval wordt genoemd ) vastgesteld in de vorm van een controlekaart. Als het steekproefgemiddelde zich dan binnen het controle-interval bevindt, kunnen we concluderen dat het proces correct werkt en dat er geen verdere actie nodig is.

Wat is de centrale limietstelling?

In de vorige paragraaf is al aangegeven dat het steekproefgemiddelde voor een willekeurige steekproef van grootte n, getrokken uit een populatie met een normale verdeling met gemiddelde μ en variantie σ 2 , ook normaal wordt verdeeld met gemiddelde μ en variantie σ 2 / n. De centrale limietstelling (in het Engels: central limit theorem) toont aan dat, als de steekproefgrootte groot genoeg is, het gemiddelde van een willekeurige steekproef uit een populatie met een waarschijnlijkheidsverdeling ongeveer normaal verdeeld zal zijn met gemiddelde μ en variantie σ2 / n. Dit is een belangrijk resultaat, waardoor we de normale verdeling kunnen gebruiken om kansen te berekenen voor steekproefgemiddelden die worden verkregen uit veel verschillende populaties. Hoewel in de toegepaste statistiek de kansverdeling voor de populatie vaak onbekend is, en er met name geen manier is om zeker te zijn dat de onderliggende verdeling normaal is, biedt deze centrale limietstelling een handige manier om deze situaties te modelleren en een goede benadering van de echte verdeling.

Een concept dat nauw verwant is met de centrale limietstelling is dat van de wet van grote getallen. Deze wet stelt dat, gegeven een willekeurige steekproef van grootte n uit een populatie, het steekproefgemiddelde het populatiegemiddelde zal benaderen naarmate de steekproefomvang n groot wordt, ongeacht de onderliggende kansverdeling.

Hoe gebruik je de steekproef proporties om conclusies te trekken over de populatieverhouding?

In hoofdstuk 4 hebben we de binomiale verdeling geïntroduceerd als de som van n onafhankelijke Bernoulli willekeurige variabelen, elk met de waarschijnlijkheid van succes aangegeven door P. Om de verdeling te karakteriseren, hebben we een waarde van P. nodig. In deze sectie geven we daarom aan hoe we gebruik het steekproefaandeel om conclusies te trekken over het bevolkingsaandeel.

Laat X het aantal successen zijn in een binomiale steekproef met n observaties. Laat P verder de parameter zijn: het aandeel van de populatieleden dat de kenmerken van interesse heeft. De steekproefverhouding wordt als volgt gedefinieerd:

\[ \hat{p} = \frac{X}{n} \]

Dat wil zeggen, p-hat is het gemiddelde van een reeks onafhankelijke willekeurige variabelen. De resultaten die we in de vorige paragrafen voor voorbeeldgemiddelden hebben ontwikkeld, zijn van toepassing op deze statistiek. Bovendien kan de centrale limietstelling worden gebruikt om te beweren dat de kansverdeling voor p-hat kan worden gemodelleerd als een normaal verdeelde willekeurige variabele. De steekproefverhouding van succes nadert P naarmate de steekproefomvang toeneemt. Daarom kunnen we met dit steekproefaandeel conclusies trekken over het bevolkingsaandeel en wordt het steekproefaandeel nauwkeuriger naarmate onze steekproefomvang toeneemt. Het verschil tussen het verwachte aantal steekproefsuccessen (de steekproefgrootte vermenigvuldigd met P) en het aantal successen in de steekproef kan echter wel toenemen en de steekproefgrootte neemt toe.

De steekproefverdeling van p-hat heeft gemiddelde P. In de formule is dat:

\[ E[\hat{p}] = P \]

en standaardafwijking:

\[ \sigma_{\hat{p}} = \sqrt{ \frac{P(1 - P)}{n} } \]

En, als de steekproefgrootte groot genoeg is, de willekeurige variabele:

\[ Z = \frac{ \hat{p} - P }{\sigma_{\hat{p}}} \]

is ongeveer normaal verdeeld. Deze benadering is goed als nP (1 - P) > 5.

Net als eerder kunnen we zien dat de standaardfout van de steekproefverhouding (p-hat) afneemt naarmate de steekproefgrootte toeneemt, waardoor de verdeling meer geconcentreerd wordt. Dit is te verwachten, omdat de steekproefverhouding een steekproefgemiddelde is. Naarmate de steekproefomvang groter wordt, verbeteren onze conclusies over de populatieparameter. Uit de centrale limietstelling weten we dat de binomiale verdeling kan worden benaderd door een normale verdeling met bijbehorend gemiddelde en variantie. Dat resultaat geldt ook voor (steekproef) verhoudingen.

Hoe kun je steekproefverdelingen voor steekproefverschillen te verkrijgen?

Nu we steekproefverdelingen voor steekproefgemiddelden en variantie hebben ontwikkeld, is het tijd om steekproefverdelingen voor steekproefverschillen te overwegen. Afwijkingen zijn belangrijk in veel zakelijke en economische toepassingen. Vaak ligt de nadruk in de industrie op het produceren van producten die voldoen aan de kwaliteitsnormen van de klant. Daarbij is het nodig om populatievariantie te meten en te verminderen. Hoe groter het bereik van de resultaten (variantie), hoe groter de kans dat het resulteert in meer individuele producten die onder een acceptabele norm presteren. Daarom is er een wens om een ​​lage variantie te verkrijgen.

Laat x 1 , x 2 , ..., x n een willekeurige steekproef zijn van waarnemingen van een populatie. De hoeveelheid

\[ s^{2} = \frac{1}{n - 1} \sum^{n}_{i = 1} (x_{i} - \bar{x})^{2}) \]

wordt de steekproefvariantie genoemd . De vierkantswortel van de steekproefvariantie, aangeduid met s , wordt de standaarddeviatie van de steekproef genoemd . Gegeven een specifieke willekeurige steekproef, kunnen we de steekproefvariantie berekenen. De steekproefvariantie zal verschillen voor elke willekeurige steekproef, vanwege verschillen in steekproefwaarnemingen.

Wanneer de werkelijke steekproefgrootte n een klein deel van de populatiegrootte N is , dan: E[s2] = σ2 . De conclusie dat de verwachte waarde van de steekproefvariantie gelijk is aan de populatievariantie is vrij algemeen. Maar voor statistische inferentie zouden we graag meer willen weten over de steekproefverdeling. Als we kunnen aannemen dat de onderliggende populatieverdeling normaal is, kan worden aangetoond dat de steekproefvariantie en de populatievariantie gerelateerd zijn via een waarschijnlijkheidsverdeling die bekend staat als de chi-kwadraatverdeling . Dat wil zeggen, gegeven een willekeurige steekproef van n waarnemingen van een normaal verdeelde populatie met populatievariantie σ 2 en resulterende steekproefvariantie s 2 , kan worden aangetoond dat:

\[ \chi^{2}_{(n-1)} = \frac{(n - 1)s^{2}}{\sigma^{2}} = \frac{\sum^{n}_{i = 1} (x_{i} - \bar{x})^{2} }{\sigma^{2}} \]

heeft een chikwadraatverdeling ( χ2 ) met n - 1 vrijheidsgraden. De verdeling is alleen gedefinieerd voor positieve waarden, omdat varianties niet negatief kunnen zijn. We kunnen een bepaald lid van de familie van chikwadraatverdelingen karakteriseren door een enkele parameter die de vrijheidsgraden wordt genoemd, aangeduid met het symbool v . Een chikwadraatverdeling met v vrijheidsgraden wordt aangeduid met χ2v . Het gemiddelde en de variantie van deze verdeling zijn respectievelijk gelijk aan het aantal vrijheidsgraden (v) en tweemaal het aantal vrijheidsgraden (2v). In de formule is dat:

\[E[X^{2}_{v}] = v \hspace{3mm} and \hspace{3mm} Var(X^{2}_{v}) = 2v \]

Met behulp van deze resultaten voor het gemiddelde en de variantie van de chikwadraatverdeling, zien we dat:

\[ E[s^{2}] = \sigma^{2} \]

Verder hangt de variantie van de steekproefverdeling van s2 af van de onderliggende populatieverdeling. Als die populatieverdeling normaal is, dan

\[ Var(s^{2}) = \frac{2 \sigma^{4}}{(n - 1)} \]

 

De rest van dit boek richt zich op verschillende procedures voor het gebruik van statistische steekproefgegevens om conclusies te trekken over statistische populaties. Voordat we deze procedures kunnen uitvoeren, moeten we echter eerst een goede steekproef van de bevolking verkrijgen. Dit proces wordt ook sampling (steekproeftrekking) genoemd en zal in dit hoofdstuk centraal staan.

 

 

Hoe kun je schattingen verkrijgen voor een enkele populatie? - Chapter 7

 

 

Wat is het verschil tussen een schatter en een schatting?

Om conclusies te trekken over de bevolking hebben we steekproefstatistieken nodig. Hierbij is het belangrijk om een onderscheid te maken tussen de termen schatter en schatting. Een schatter van een populatieparameter is een willekeurige variabele die afhankelijk is van de steekproefinformatie. De waarde van een schatter geeft een benadering van de onbekende parameter. Een schatting is een specifieke waarde van die willekeurige variabele. Met andere woorden, een schatter is een functie van een willekeurige variabele en een schatting is een enkel getal. Het is een onderscheid tussen een proces (schatter) en het resultaat van dat proces (schatting).

Om de schatting van een onbekende parameter te overwegen, zijn er twee mogelijkheden. Ten eerste kon een enkel getal uit de steekproef worden berekend als meest representatief voor de onbekende populatieparameter. Dit enkele getal wordt ook wel de puntschatting genoemd. Merk op dat de functie die hiermee overeenkomt de puntschatter wordt genoemd . Houd er rekening mee dat er geen enkel mechanisme bestaat om onder alle omstandigheden een unieke "beste" puntschatter te bepalen. In plaats daarvan is een set criteria beschikbaar waaronder bepaalde schatters kunnen worden geëvalueerd. Ten tweede kan een betrouwbaarheidsinterval worden verkregen dat enige mate van vertrouwen geeft dat de parameter binnen een gespecificeerd bereik valt.

Met welke twee eigenschappen moet rekening worden gehouden bij het zoeken naar een schatter van een populatieparameter?

Bij het zoeken naar een schatter van een populatieparameter moet rekening worden gehouden met twee eigenschappen.

1. Onpartijdigheid

De eerste eigenschap die een schatter zou moeten bezitten, is onpartijdigheid (in het Engels: unbiasedness ). Er wordt gezegd dat een puntschatter een onpartijdige schatter van een populatieparameter is als de verwachte waarde gelijk is aan die van de parameter, dat wil zeggen als

\[ E[\hat {\theta}] = \theta \]

dan is de puntschatter (theta hat) een onpartijdige schatter van de populatieparameter (theta). Merk op dat onpartijdigheid niet betekent dat een bepaalde (enkele) waarde van theta-hoed precies de juiste waarde van theta moet zijn. In plaats daarvan kan een objectieve schatter de populatieparameter gemiddeld correct inschatten . De gemiddelde puntschatter is dus een correcte schatting van de parameter.

Hieruit volgt dat de afwijking in de puntschatter wordt gedefinieerd als het verschil tussen het gemiddelde en de populatieparameter. Dat is:

\[ bias(\hat{\theta}) = E(\hat{\theta}) - \theta \]

Merk op dat de afwijking (in het Engels: bias) van een onpartijdige schatter altijd nul is.

2. Meest efficiënt

Onpartijdiheid is niet de enige gewenste eigenschap van een schatter. De tweede eigenschap heeft betrekking op efficiëntie. Dat wil zeggen, als er meerdere onbevooroordeelde schatters van een populatieparameter zijn, wordt gezegd dat de onbevooroordeelde schatter met de kleinste variantie de meest efficiënte schatter is . Dit wordt ook de minimale variantie onpartijdige schatter genoemd . Stel dat er twee onpartijdige schatters van Θ zijn . Beide zijn gebaseerd op hetzelfde aantal monsterobservaties. Dan wordt gezegd dat Θ 1 efficiënter is dan Θ 2 is dat de variantie van de eerste kleiner is dan de variantie van de tweede schatter. Bovendien is de relatieve efficiëntie van Θ 1 ten opzichte van Θ 2 de verhouding van hun varianties, dat wil zeggen:

\[ relative \hspace{1mm} efficiency = \frac{Var(\hat{\theta}_{2})}{Var(\hat{\theta}_{1})} \]

Wanneer we overwegen welke maat de meest efficiënte schatter van het populatiegemiddelde is, benadrukken we het belang van het gebruik van een normale kansplot. Een normale kansplot wordt gebruikt om te bepalen of er aanwijzingen zijn voor non-conformiteit. Dat wil zeggen, als de populatie afwijkt van een normale verdeling, is het steekproefgemiddelde misschien niet de meest efficiënte schatter van het populatiegemiddelde. Vooral wanneer uitbijters de populatieverdeling sterk beïnvloeden, is het steekproefgemiddelde minder efficiënt dan andere metingen, zoals de mediaan. Eigenschappen van geselecteerde puntschatters zijn samengevat in Tabel 1.

Tabel 1. Eigenschappen van puntschatters
Populatie parameterPuntschatterEigenschappen
Gemiddelde (μ)\[ \hat{X} \]Onpartijdig, meest efficiënt (uitgaande van normaliteit)
Gemiddelde (μ)\[ Median \]Onpartijdig (wanneer normaliteit wordt aangenomen) maar niet het meest efficiënt
Proportie (P)\[ \hat{p} \]Onpartijdig, meest efficiënt
Variantie (σ2)\[ s^{2} \]Onpartijdig, meest efficiënt (uitgaande van normaliteit)

Een probleem dat in de praktijk vaak voorkomt, is hoe je een geschikte puntenschatter voor een populatieschatter kunt kiezen. Dit lijkt een moeilijk probleem te zijn. Hoewel het aantrekkelijk is om de meest efficiënte van alle onbevooroordeelde schatters te kiezen, zijn er soms schattingsproblemen waarvoor geen onbevooroordeelde schatter zeer bevredigend is, of er zijn gevallen waarin het niet mogelijk is om een ​​minimale variantie onbevooroordeelde schatter te vinden. Voor deze situaties is het selecteren van de beste puntschatter niet eenvoudig en vereist substantiële wiskundige integriteit, die het bereik van dit boek te buiten gaat. Daarom is het voor u voldoende om te weten dat vaak de beste puntschatter kan worden gekozen door de meest efficiënte van alle onpartijdige schatters te kiezen .

Hoe kan het betrouwbaarheidsinterval voor het gemiddelde van een normale verdeling worden geschat?

Populatievariantie bekend

Overweeg eerst de situatie waarin we aannemen dat een willekeurige steekproef wordt genomen uit een populatie die normaal wordt verdeeld met een onbekend gemiddelde en een bekende variantie. Merk op dat dit scenario onrealistisch lijkt, omdat men zelden de populatievariantie kende.

Een betrouwbaarheidsintervalschatter voor een populatieparameter is een regel voor het bepalen van een interval dat waarschijnlijk de parameter bevat (op basis van voorbeeldinformatie). De bijbehorende schatting wordt een schatting van het betrouwbaarheidsinterval genoemd . Een betrouwbaarheidsinterval van 95% kan als volgt worden geïnterpreteerd: "Als de populatie herhaaldelijk wordt bemonsterd en intervallen dienovereenkomstig worden berekend, zou op de lange termijn 95% van de intervallen de werkelijke waarde van de onbekende parameter bevatten". De hoeveelheid 100 (1 - α )% wordt het betrouwbaarheidsniveau van het interval genoemd. In het hier genoemde voorbeeld is het betrouwbaarheidsniveau 95%. Merk op dat dit ook het meest gebruikte betrouwbaarheidsinterval is in veel wetenschappelijke disciplines.

Stel dat een willekeurige steekproef van n waarnemingen wordt getrokken uit een normale verdeling met gemiddelde μ en variantie σ 2 . Als het steekproefgemiddelde x̅ is, dan wordt een betrouwbaarheidsinterval van 100 (1 - α )% voor het populatiegemiddelde met bekende variantie gegeven door:

\[ \bar{x} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \hspace{3mm} of x \pm ME \]

waarbij ME de foutmarge is (ook bekend als steekproeffout ) gegeven door:

\[ z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]

De breedte is dan gelijk aan tweemaal de foutmarge, dat wil zeggen: w = 2 (ME).

In tabel 2 worden de meest gebruikte betrouwbaarheidsniveaus en hun overeenkomstige waarden van z α / 2 gegeven. Deze hoeveelheid z α / 2 wordt ook wel de betrouwbaarheidsfactor genoemd . Het is handig om de getallen in deze tabel uit het hoofd te kennen.

Tabel 2. Betrouwbaarheidsinterval en corresponderende waarden voor zα/2
Betrouwbaarheidsinterval90%95%98%99%
α
zα/2
0.10
1.645
0.05
1.96
0.02
2.33
0.01
2.58

Populatievariantie onbekend

Ten tweede, overweeg de situatie waarin we aannemen dat een willekeurige steekproef wordt genomen van een populatie die normaal wordt verdeeld met een onbekend gemiddelde en een onbekende variantie. Dit is een realistischer scenario, omdat we in de praktijk vaak niet precies weten wat de populatievariantie is. In plaats van de z-verdeling te gebruiken, als de populatievariantie onbekend is, gebruiken we de Student's t-verdeling. Hierbij gebruiken we in plaats van Z te berekenen de volgende vergelijking:

\[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} \]

Zoals hierboven gezegd, volgt deze willekeurige variabele geen standaard normale verdeling. In plaats daarvan is de distributie lid van een familie van distributies genaamd Student's t. Elk specifiek lid van deze familie van distributies wordt gekenmerkt door het aantal vrijheidsgraden dat wordt geassocieerd met de berekening van de standaardfout. De vrijheidsgraden worden aangegeven met het symbool v. De vorm van de Student's t-verdeling lijkt sterk op die van de normale verdeling. Beide verdelingen hebben een gemiddelde gelijk aan nul. Beide waarschijnlijkheidsdichtheidsfuncties zijn symmetrisch rond hun gemiddelde. Ze verschillen echter in de spreiding: de dichtheidsfunctie van de t-verdeling heeft een bredere spreiding, wat wordt weerspiegeld in een grotere variantie, dan de standaard normale verdeling. Deze bredere spreiding is het gevolg van de extra onzekerheid die wordt veroorzaakt door de bekende standaardafwijking van de populatie te vervangen door de steekproefschatter. Merk op dat, naarmate het aantal vrijheidsgraden toeneemt, de t-verdeling steeds meer overeenkomt met de standaard normale verdeling .

Voor elke willekeurige variabele die de Student's t verdeling volgt, kunnen we de betrouwbaarheidsfactor als volgt berekenen :

\[ P(t_{v} > t_{v,\alpha/2} ) = \alpha/2 \]

Net als bij de z-verdeling kunnen we het betrouwbaarheidsinterval voor het populatiegemiddelde met onbekende variantie als volgt berekenen :

\[ \bar{x} \pm t_{n-\alpha/2} \frac{s}{\sqrt{n}} \]

met wederom het laatste deel de foutmarge , dat wil zeggen:

\[ ME = t_{n-\alpha/2} \frac{s}{\sqrt{n}} \]

Hoe kan de foutenmarge worden verminderd?

Er zijn drie factoren die de foutmarge beïnvloeden:

  1. De populatiestandaarddeviatie
  2. De steekproefgrootte n
  3. Het betrouwbaarheidsinterval

Deze drie factoren kunnen dus worden gemanipuleerd om de foutmarge te verkleinen. Ten eerste: als alle andere factoren constant worden gehouden, hoe lager de standaarddeviatie van de populatie, hoe kleiner de foutmarge. Soms kan de standaardafwijking van de populatie echter niet worden verminderd. Ten tweede, hoe hoger de steekproefgrootte, hoe kleiner de foutmarge. Hoe meer informatie van een populatie wordt verkregen, des te nauwkeuriger is onze conclusie over de relevante populatieparameter. Ten derde: als alle andere factoren constant worden gehouden, hoe lager het betrouwbaarheidsinterval (1 - α ), hoe lager de foutmarge. Merk echter op dat dit een vermindering van de waarschijnlijkheid inhoudt dat het interval de waarde van de werkelijke populatieparameter omvat. Met andere woorden, het verkleinen van het betrouwbaarheidsinterval vermindert de foutmarge, maar vermindert tegelijkertijd de waarschijnlijkheid dat het interval de waarde van de ware populatieparameter omvat.

Hoe het betrouwbaarheidsinterval voor populaties in te schatten?

Van welk percentage van de Nederlandse studenten wordt een doctoraat verwacht? Hoeveel procent van de studenten wordt geacht te slagen voor het volgende statistiekexamen? Welk aandeel volwassenen is getrouwd? In elk van deze scenario's is het aandeel bevolkingsleden dat een bepaald kenmerk bezit, van belang. In deze paragraaf richten we ons op het vaststellen van betrouwbaarheidsintervallen voor het bevolkingsaandeel.

Voor grote steekproefgroottes, dat wil zeggen als nP (1 - P)> 5, wordt een betrouwbaarheidsinterval van 100 (1 - α )% voor het populatiepercentage geleverd door:

\[ \hat{p} \pm z_{\alpha/2} \sqrt{ \frac{\hat{p}(1 - \hat{p})}{n} } \]

of, equivalent:

\[ \hat{p} \pm ME \]

waarbij MIJ de foutmarge is , gegeven door:

\[ ME = z_{\alpha/2} \sqrt{ \frac{\hat{p}(1 - \hat{p})}{n} } \]

Vergelijkbaar met de foutmarge voor het gemiddelde, wanneer alle andere dingen gelijk worden gehouden, hoe groter de steekproefgrootte ( n ), hoe kleiner het betrouwbaarheidsinterval. Dit toont de toenemende nauwkeurigheid van de informatie over de verkregen parameter naarmate de steekproefgrootte groter wordt.

Hoe krijg ik een schatting van het betrouwbaarheidsinterval voor de variantie van een normale verdeling?

Als de populatie normaal verdeeld is (en dit is geverifieerd, dan is de willekeurige variabele

\[ \chi^{2}_{n-1} = \frac{(n - 1) s^{2}}{\sigma^{2}} \]

volgt een chikwadraatverdeling met v = n - 1 vrijheidsgraden. Stel bijvoorbeeld dat we geïnteresseerd zijn in het getal dat met waarschijnlijkheid 0,05 wordt overschreden door een chikwadraat willekeurige variabele met 6 vrijheidsgraden. Dat wil zeggen, we zijn geïnteresseerd in het volgende:

\[ P(\chi^{2}_{6} > \chi^{2}_{6, 0.05} ) = 0.05 \]

Vervolgens kunnen we met behulp van Bijlage Tabel 7 vaststellen dat:

\[ \chi^{2}_{6, 0.05} = 12.592 \]

Het betrouwbaarheidsinterval voor de populatievariantie wordt dus gegeven door:

\[ LCL = \frac{(n - 1) s^{2}}{\chi^{2}_{n - 1,\alpha/2} } \hspace{3mm} en \hspace{3mm} UCL = \frac{(n - 1) s^{2}}{\chi^{2}_{n - 1,1 - \alpha/2} } \]

waarin LCL de ondergrens aangeeft en UCL de bovengrens van het betrouwbaarheidsinterval. Houd er rekening mee dat het betrouwbaarheidsinterval verschilt van de gebruikelijke vorm (dat wil zeggen: steekproefpuntschatter +/- de foutmarge). Houd er ten slotte rekening mee dat het gevaarlijk is om deze procedure te volgen wanneer de populatieverdeling afwijkt van de normale verdeling. De geldigheid van de intervalschatter voor de populatievariantie hangt sterk af van de veronderstelling van normaliteit, zelfs meer dan die van de intervalschatter voor het populatiegemiddelde.

Hoe betrouwbaarheidsintervallen voor eindige populaties te schatten?

In dit gedeelte bekijken we hoe we de betrouwbaarheidsintervallen voor eindige populaties kunnen schatten. In een eindige populatie (in het Engels: finite population) is het aantal steekproefleden geen verwaarloosbaar deel van het aantal populatieleden. In plaats daarvan wordt de steekproefomvang als relatief groot beschouwd in vergelijking met de populatiegrootte. Meer precies, als n > 0,05 N. In woorden: als de steekproefomvang ten minste 5% van de populatiegrootte is. Als aan deze veronderstelling wordt voldaan, nemen we aan dat de steekproef voldoende groot is en dat de centrale limietstelling van toepassing is. Bovendien moet de populatiecorrectiefactor (fpc) , (N - n) / (N - 1) worden gebruikt.

Schatting van het populatiegemiddelde

Het steekproefgemiddelde is een onpartijdige schatting van het populatiegemiddelde ( μ ). De puntschatting van dit gemiddelde is:

\[ \bar{x} = \frac{1}{n} \sum^{n}_{i = 1} x_{i} \]

De onpartijdige puntschatting voor de variantie van het steekproefgemiddelde wordt gegeven door:

\[ \hat{\sigma}^{\frac{2}{x}} = \frac{s^{2}}{n} (\frac{N - n}{N - 1}) \]

Ten slotte wordt een betrouwbaarheidsinterval van 100 (1 - α )% voor het populatiegemiddelde gegeven door:

\[ \bar{x} \pm t_{n - 1,\alpha/2} \hat{\sigma}_{\bar{x}} \]

Schatting van het populatietotaal

Het populatietotaal, aangeduid met N μ voor een eindige populatie, kan als volgt worden geschat via een puntschatting Nx ̄ :

\[ N\hat{\sigma}_{\bar{x}} = \frac{Ns}{\sqrt{n}} \sqrt{ (\frac{N - n}{N - 1}) } \]

Een 100(1 - α )% betrouwbaarheidsinterval voor het populatietotaal, N μ, kan als volgt worden verkregen:

\[ N\bar{x} \pm t_{n - 1,\alpha/2} N \hat{\sigma}_{\bar{x}} \]

Schatting van de populatie proportie

Ten slotte kan de populatie proportie voor eindige steekproeven (in het Engels: finite samples) worden berekend. De steekproefproportie (deel) is een onpartijdige inschatting van de populatie. Vervolgens wordt de puntschatting voor een onbevooroordeelde schattingsprocedure voor de variantie van een populatiepercentage gegeven door:

\[ \hat{\sigma}^{2}_{\hat{p}} = \frac{\hat{p} (1 - \hat{p}}{n - 1} ( \frac{N - n}{N - 1} ) \]

Wanneer de steekproefgrootte groot is, kan het 100 (1 - α )% betrouwbaarheidsinterval voor het populatiepercentage als volgt worden berekend:

\[ \hat{p} \pm z_{\alpha/2} \hat{\sigma}_{\hat{p}} \]

waarbij de foutmarge (ME) wordt gegeven door:

\[ z_{\alpha/2} \hat{\sigma}_{\hat{p}} \]

Hoe kies je een geschikte steekproefgrootte voor grote populaties?

Tot nu toe hebben we betrouwbaarheidsintervallen voor populatieparameters ontwikkeld op basis van informatie die door een steekproef is verstrekt. Na dit proces kunnen we geloven dat het resulterende betrouwbaarheidsinterval te breed is, wat een ongewenste hoeveelheid onzekerheid oplevert over de parameter die van belang is. Een (handige) manier om een ​​smaller betrouwbaarheidsinterval met een vast betrouwbaarheidsniveau te verkrijgen, is door een grotere steekproef te nemen. In dit gedeelte bekijken we hoe een geschikte steekproefgrootte kan worden geselecteerd voor twee intervalschattingsproblemen. Deze vergelijkingen zijn afgeleid van basisalgebra (het transformeren van de rechter- en linkerkant van de vergelijking).

Steekproefgrootte voor het populatiegemiddelde

Ten eerste is de steekproefgrootte voor het gemiddelde van een normaal verdeelde populatie met bekende populatievariantie:

\[ n = \frac{z^{2}_{\alpha/2}\sigma^{2}}{ME^{2}} \]

Merk op dat, als n geen geheel getal is, de resulterende waarde naar boven moet worden afgerond op het volgende gehele getal om te garanderen dat het betrouwbaarheidsinterval de vereiste breedte niet overschrijdt.

Steekproefgrootte voor de populatie proportie

Ten tweede kan de vereiste steekproefgrootte voor de populatie proportie als volgt worden berekend:

\[ n = \frac{0.25 (z_{\alpha/2})^{2}}{(ME)^{2}} \]

Hoe kies je een geschikte steekproefgrootte voor eindige populaties?

Vaak stellen de middelen die de onderzoeker ter beschikking staan ​​(in termen van tijd en geld) beperkingen aan wat kan worden bereikt. Daarom worden we in veel real-life studies geconfronteerd met een eindige populatie. In dit gedeelte breiden we de kwestie van het selecteren van een geschikte steekproefgrootte uit naar de situatie van eindige populaties. Merk op dat, om te compenseren voor non-respons of ontbrekende gegevens (wat zeer waarschijnlijk is in echte experimenten), artsen een bepaald percentage (bijvoorbeeld 10%) kunnen toevoegen aan de steekproefomvang n bepaald door de vergelijkingen in deze sectie.

Steekproefgrootte voor populatiegemiddelde

De vereiste steekproefomvang om het populatiegemiddelde te schatten via eenvoudige willekeurige steekproeven is:

\[ n = \frac{N \sigma^{2}}{(N - 1) \sigma^{\frac{2}{x}} + \sigma^{2}} \]

of, equivalent:

\[ n = \frac{n_{0} N }{n_{0} + (N - 1) } \]

waar n0 gelijk is aan:

\[ n_{0} = \frac{z^{2}_{\alpha/2} \sigma^{2} }{ME^{2}} \]

Merk op dat het vaak handiger is om direct de breedte van de betrouwbaarheidsintervallen voor het populatiegemiddelde te specificeren in plaats van de gewenste variantie van het steekproefgemiddelde (σ2/x). Dit wordt vaak gemakkelijk verkregen, omdat bijvoorbeeld een betrouwbaarheidsinterval van 95% voor de populatie zich zal uitstrekken tot ongeveer 1,96σx ̄ aan elke kant van het steekproefgemiddelde. Evenzo, als het beoogde object het populatietotaal is, strekt de variantie van de steekproefschatter van deze hoeveelheid en een betrouwbaarheidsinterval van 95% zich uit over ongeveer 1,96Nσx ̄ aan elke zijde van Nx̄.

Steekproefgrootte voor populatie proportie

Het vereiste populatie proprotie (P) van individuen in een populatie kan als volgt worden berekend:

\[ n = \frac{NP(1 - P)}{(N - 1) \sigma^{2}_{\hat{p}} + 0.25 } \]

De grootst mogelijke waarde voor deze uitdrukking (nmax), ongeacht de waarde van P, wordt gegeven door:

\[ n_{max} = \frac{0.25N}{(N - 1) \sigma^{2}_{\hat{p}} + 0.25 } \]

Hoe kun je parameters schatten voor twee populaties? - Chapter 8

 

In het vorige hoofdstuk hebben we besproken hoe parameters voor een populatie kunnen worden geschat. In dit hoofdstuk breiden we die concepten uit om bepaalde parameters voor twee populaties te schatten. Een veel voorkomende toepassing van statistiek betreft de vergelijking van het verschil tussen twee gemiddelden van normaal verdeelde populaties, of de vergelijking van het verschil tussen twee verhoudingen van grote populaties. Een voorbeeld: een campagnebeheerder van een presidentskandidaat wil misschien de populariteit van deze kandidaat in twee verschillende regio's van het land vergelijken. Of een chemisch bedrijf ontvangt zendingen van twee leveranciers en wil het onzuiverheidsniveau van de twee partijen vergelijken.

Hoe kun je een betrouwbaarheidsinterval ontwikkelen voor het verschil in gemiddelde tussen twee normaal verdeelde populaties(voor afhankelijke steekproeven)?

Voor afhankelijke steekproeven worden de waarden in de ene steekproef beïnvloed door de waarden in de andere steekproef. Er zijn twee soorten afhankelijke steekproeven: gematchte paren of twee keer hetzelfde individu of object meten (bijvoorbeeld voor en na een interventie). Dit laatste wordt ook wel herhaalde metingen (in het Engels: repeated measures) genoemd. Het idee van een matched pairs-steekproef is dat, afgezien van de onderzochte factor, de leden van deze paren zo veel mogelijk op elkaar lijken zodat de vergelijking van de interesse direct kan worden gemaakt. In klinische onderzoeken kan het bijvoorbeeld interessant zijn om de effectiviteit van twee medicijnen te vergelijken. Daarom kunnen afhankelijke steekproeven worden geselecteerd en kunnen de leden van elke steekproef op verschillende factoren worden afgestemd, zoals leeftijd of gewicht.

Stel dat er een willekeurige steekproef is van n gematchte paren waarnemingen uit twee normale verdelingen met μx en μy. Laat verder x1, x2, ..., xn de waarden van de waarnemingen van de populatie met gemiddelde μx aangeven en laat y1, y2, ..., yn de overeenkomende steekproefwaarden van de populatie met gemiddelde μy aangeven. Laat d bar en sd het waargenomen steekproefgemiddelde en de standaarddeviatie voor de n verschillen di = xi - yi. Als nu wordt aangenomen dat de populatieverdeling van de verschillen normaal is, wordt een betrouwbaarheidsinterval van 100 (1 - α)% voor het verschil tussen twee gemiddelden met afhankelijke monsters (μd = μx - μy) als volgt gegeven:

\[ \bar{d} \pm t_{n-1,a/2} \frac{s_{d}}{\sqrt{n}} \]

of, equivalent:

\[ \bar{d} \pm ME \]

met de margin of error (ME):

\[ ME = t_{n-1,a/2} \frac{s_{d}}{\sqrt{n}} \]

De standaarddeviatie van het verschil (sd) wordt gegeven door:

\[ s_{d} = \sqrt{ \frac{\sum (d_{i} - \bar{d})^{2}}{n - 1}} \]

waarbij tn-1,a/2 het getal is waarvoor geldt:

\[ P(t_{n-1} > t_{n-1,\alpha/2}) = \frac{\alpha}{2} \]

De willekeurige variabele tn-1 heeft een Student's t-verdeling met (n - 1) vrijheidsgraden.

Een voorbeeld zal worden gebruikt om de berekeningen te illustreren. Stel dat we een klinische studie hebben uitgevoerd om het verschil in effectiviteit van twee geneesmiddelen voor het verlagen van het cholesterolgehalte te vergelijken. Laten we deze medicijnen respectievelijk medicijn X en medicijn Y noemen. Hoewel klinische onderzoeken vaak worden uitgevoerd met grote steekproeven met vele honderden of zelfs duizenden deelnemers, illustreren we hier eenvoudig de procedure voor afhankelijke steekproeven in een zeer kleine willekeurige steekproef van bijpassende paren. De verzamelde gegevens zijn samengevat in tabel 8.1.

Tabel 8.1. Waarden van cholesterol reductie voor twee typen medictie (X en Y)
PaarMedicijn XMedicijn YVerschilscore (di = xi - yi)
1
2
3
4
5
6
7
8
9
29
32
31
32
30
32
29
31
30
26
27
28
27

30
26
33
36

3
5
3
5

2
3
-2
-6

Uit Tabel 8.1 is af te leiden dat er bepaalde gegevens ontbreken (de waarde van medicijn Y ontbreekt voor deelnemer 5). Ontbrekende gegevens (in het Engels: missing data / missing values) komen veel voor in enquêtes, klinische onderzoeken en andere soorten onderzoek. Misschien heeft het individu er gewoon voor gekozen zich terug te trekken uit de studie en daarom de klinische proef niet te voltooien. Misschien heeft de onderzoeker een fout gemaakt en de gegevens "verloren". Er zijn veel mogelijke redenen voor het missen van gegevens. Hier, in deze studie van afhankelijke monsters, hebben we besloten om eerst de waarneming (en) met ontbrekende waarden te verwijderen. Omdat we te maken hebben met een gekoppeld paar, is het resultaat dat we achterblijven met acht paar in plaats van negen paar waarnemingen. Uit de tabel kunnen we het steekproefgemiddelde en de standaardafwijking van de steekproef berekenen:

\[ \bar{d} = 1.625 \hspace{3mm} en \hspace{3mm} = 3.777 \]

Stel nu dat we het betrouwbaarheidsinterval van 99% willen berekenen. Uit de distributietabel van de Student (zie Bijlage van het boek) volgt daaruit: tn-1, a / 2 = t7,0.005 = 3.499. Vervolgens wordt het betrouwbaarheidsinterval als volgt berekend:

Het resulterende betrouwbaarheidsinterval heeft ondergrens -3.05 en bovengrens 6.30, dat wil zeggen: [-3.05; 6.30]. Omdat het betrouwbaarheidsinterval de waarde nul bevat, kunnen we niet concluderen dat het ene medicijn effectiever is dan het andere. Om precies te zijn, er zijn drie mogelijkheden: (1) de verschilscore μx - μy kan positief zijn, wat suggereert dat medicijn A effectiever is; (2) de verschilscore μx - μy kan negatief zijn, wat suggereert dat medicijn B effectiever is; (3) de verschilscore μx - μy kan nul zijn, wat suggereert dat medicijn X en medicijn Y even effectief zijn. Bedenk op basis van statistische statistische conclusie dat we hier niet kunnen concluderen dat er geen verschil is; men kan nooit de nulhypothese aanvaarden. We kunnen alleen stellen dat er op basis van deze gegevens onvoldoende bewijs is om te concluderen dat het ene medicijn effectiever is dan het andere.

Hoe kun je een betrouwbaarheidsinterval ontwikkelen voor het verschil in gemiddelde tussen twee normaal verdeelde populaties (voor onafhankelijke steekproeven)?

In deze sectie gaan we verder met de ontwikkeling van een betrouwbaarheidsinterval voor de situatie waarin twee steekproeven onafhankelijk van twee normaal verdeelde populaties worden getrokken. Dit houdt in dat het lidmaatschap van de ene steekproef niet wordt beïnvloed door het lidmaatschap van een andere steekproef. Daarbij worden drie situaties beschouwd: (1) beide populatievarianties zijn bekend; (2) beide populatievarianties zijn onbekend, maar worden als gelijk beschouwd; (3) beide populatievarianties zijn onbekend en kunnen niet als gelijk worden beschouwd.

Scenario 1: beide populatievarianties zijn bekend

Overweeg het scenario waarin twee onafhankelijke monsters, niet noodzakelijkerwijs van gelijke grootte, zijn genomen van twee normaal verdeelde populaties. De grootte van deze monsters wordt aangegeven met nx en ny. De steekproeven worden getrokken uit twee normaal verdeelde populaties en de populatiegemiddelden worden aangegeven door μx en μy. De populatievarianties zijn σ2x en σ2y. Laat de respectievelijke steekproefgemiddelden worden aangegeven door x̅ en ȳ. Vervolgens wordt het 100 (1 - α)% betrouwbaarheidsinterval voor het verschil tussen de twee gemiddelden van onafhankelijke steekproeven en bekende populatievarianties als volgt gegeven:

\[ (\bar{x} - \bar{y}) \pm z_{\alpha/2} + \sqrt{\frac{\sigma^{2}_{x}}{n_{x}} + \frac{\sigma^{2}_{y}}{n_{y}}} \]

waarbij het gedeelte achter het plus- of minteken ook de foutmarge wordt genoemd.

Scenario 2: populatievarianties zijn onbekend, maar worden verondersteld gelijk te zijn

Het gezond verstand zegt ons dat het redelijk is dat, als we de populatiegemiddelden niet weten, we waarschijnlijk ook de populatievarianties niet kennen. Soms kunnen we echter aannemen dat de onbekende populatievarianties gelijk zijn. Ze worden verondersteld een gemeenschappelijke (onbekende) variantie te hebben, zodat σ2 = σ2x = σ2y. Onder deze omstandigheden wordt het betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden, van onafhankelijke steekproeven, met onbekende populatievarianties waarvan wordt aangenomen dat ze gelijk zijn, gegeven door:

\[ (\bar{x} - \bar{y}) \pm t_{n_{x} + n_{y} - 2, a/2} + \sqrt{\frac{s^{2}_{p}}{n_{x}} + \frac{s^{2}_{p}}{n_{y}}} \]

waar s2p de gepoolde steekproefvariantie is, die wordt gegeven door:

\[ s^{2}_{p} = \frac{ (n_{x} - 1)s^{2}_{x} + (n_{y} - 1)s^{2}_{y} }{n_{x} + n_{y} - 2} \]

Merk op dat hier, omdat de populatievarianties onbekend zijn, we de t-verdeling van de student gebruiken in plaats van de standaard normale verdeling, met vrijheidsgraden (df) gelijk aan: df = nx + ny - 2.

Scenario 3: populatievarianties zijn onbekend en kunnen niet worden verondersteld gelijk te zijn

Ten slotte kan het ook zijn dat de populatievariaties onbekend zijn en dat deze ook niet als gelijk kunnen worden beschouwd. In dat geval wordt het betrouwbaarheidsinterval voor het verschil tussen twee gemiddelden gegeven door:

\[ (\bar{x} - \bar{y}) \pm t_{v,a/2} \sqrt{\frac{s^{2}_{x}}{n_{x}} + \frac{s^{2}_{y}}{n_{y}}} \]

waarbij wederom het deel achter het plus- of minteken de foutmarge (margin of error) is. De vrijheidsgraden worden aangegeven door v.

Hoe kun je een betrouwbaarheidsinterval ontwikkelen voor het verschil tussen twee populatie proporties (voor grote steekproeven)?

In hoofdstuk 7 hebben we besproken hoe een betrouwbaarheidsinterval voor een enkele populatie kan worden ontwikkeld. Hier breiden we die benadering uit tot de situatie van twee bevolkingsverhoudingen. Vaak is men geïnteresseerd in het vergelijken van twee populaties. Het is bijvoorbeeld mogelijk om het aandeel inwoners in een stad dat aangeeft op een bepaalde presidentskandidaat te stemmen, te vergelijken met het aandeel inwoners in een andere stad dat aangeeft op dezelfde kandidaat te stemmen. In het geval van vergelijking van twee populaties, kan een betrouwbaarheidsinterval (voor grote steekproeven) als volgt worden verkregen:

\[ (\hat{p}_{x} + \hat{p}_{y}) \pm ME \]

waarbij de margin of error (ME) als volgt kan worden verkregen:

\[ ME = z_{\alpha/2} = \sqrt{ \frac{ \hat{p}_{x} (1 - \hat{p}_{x} ) }{n_{x}} + \frac{ \hat{p}_{y} (1 - \hat{p}_{y} ) }{n_{y}} } \]

 

In het vorige hoofdstuk hebben we besproken hoe parameters voor een populatie kunnen worden geschat. In dit hoofdstuk breiden we die concepten uit om bepaalde parameters voor twee populaties te schatten. Een veel voorkomende toepassing van statistiek betreft de vergelijking van het verschil tussen twee gemiddelden van normaal verdeelde populaties, of de vergelijking van het verschil tussen twee verhoudingen van grote populaties. Een voorbeeld: een campagnebeheerder van een presidentskandidaat wil misschien de populariteit van deze kandidaat in twee verschillende regio's van het land vergelijken. Of een chemisch bedrijf ontvangt zendingen van twee leveranciers en wil het onzuiverheidsniveau van de twee partijen vergelijken.

 

 

Hoe kun je hypothesen opstellen voor een enkele populatie? - Chapter 9

 

 

In dit hoofdstuk wordt besproken hoe procedures voor het testen van hypothesen kunnen worden ontwikkeld om de geldigheid van een vermoeden of bewering over een populatie te testen met behulp van steekproefgegevens.

Wat zijn de centrale concepten van hypothesetesten?

We beginnen dit hoofdstuk met een algemeen kader om hypothesen te testen. Eerst moeten we twee alternatieven definiëren die alle mogelijke uitkomsten dekken: de nulhypothese en de alternatieve hypothese. Hypothesetesten begint altijd met de nulhypothese , dat is een hypothese over de parameter die van belang is. Deze nulhypothese wordt gehandhaafd, tenzij er sterk bewijs is tegen de nulhypothese. Als we de nulhypothese verwerpen, dan is de tweede hypothese, de alternatieve hypothese genoemd, wordt geaccepteerd. Houd er rekening mee dat de nulhypothese nooit kan worden geaccepteerd (!), Maar alleen kan worden afgewezen of gehandhaafd. Met andere woorden: als we de nulhypothese niet afwijzen, dan is de nulhypothese correct of de alternatieve hypothese correct, maar de testprocedure lijkt niet sterk genoeg om de nulhypothese te verwerpen.

Zowel de nul- als de alternatieve hypothese kunnen een enkele waarde specificeren. Een nulhypothese kan bijvoorbeeld zijn: H0 : μ = 100. Een dergelijke hypothese wordt ook een eenvoudige hypothese genoemd . Dit kan als volgt worden geïnterpreteerd: de nulhypothese is dat de populatieparameter μ gelijk is aan een specifieke waarde, in dit geval 100. Voor dit voorbeeld zou een mogelijke alternatieve hypothese kunnen zijn dat het populatiegemiddelde groter is dan 16, dat wil zeggen: H1 : μ > 0. Dit is een voorbeeld van een eenzijdige samengestelde alternatieve hypothese . Een andere mogelijkheid zou zijn om te testen dat de nulhypothese verschilt van 100 (ongeacht of deze hoger of lager is). Een dergelijke hypothese wordt een tweezijdige samengestelde alternatieve hypothese genoemd. In dit voorbeeld zou dat zijn: H1 : μ ≠ 16.

Na het specificeren van de nulhypothese en de alternatieve hypothese en het verzamelen van steekproefgegevens moet een beslissing worden genomen met betrekking tot de nulhypothese. De nulhypothese kan worden afgewezen of niet worden afgewezen. Nogmaals, de nulhypothese kan nooit worden aanvaard! Om vele redenen zeggen statistici liever 'we falen de nulhypothese te verwerpen' in plaats van 'we accepteren de nulhypothese'. Wanneer we de nulhypothese verwerpen, maar in feite is de nulhypothese waar, dit wordt een type I- fout genoemd. De kans dat de nulhypothese wordt afgewezen, terwijl de nulhypothese in feite waar is, is α . Deze α wordt ook wel het significantieniveau van een test genoemd en kan vooraf door de onderzoeker worden opgegeven. Omgekeerd wordt de kans om de nulhypothese niet te verwerpen terwijl de nulhypothese waar is (dus de juiste beslissing nemen) gegeven door 1 - α. Verder, als we er niet in slagen de nulhypothese te verwerpen en, in feite, de nulhypothese onjuist is, wordt dit een type II-fout genoemd. De kans dat de nulhypothese niet wordt verworpen, terwijl de nulhypothese in feite onjuist is, is β. Omgekeerd wordt de kans om de nulhypothese te verwerpen, terwijl de nulhypothese inderdaad onjuist is, gegeven door 1 - β. De mogelijke beslissingen met betrekking tot de nulhypothese en de ware aard zijn samengevat in Tabel 9.1

Tabel 9.1 Beslissingen over de nulhypothese en bijbehorende realiteit
Beslissing betreffende H0H0 is waarH0 is niet waar
Nieet verwerpen H0Correcte beslissing(1 - α)Type II error (β)
Verwerpen H0Type I error (α)Correcte beslissing (1 -β)

Ten slotte is een ander belangrijk concept dat wordt gebruikt bij het testen van hypothesen de power van een test. De power is de kans van het verwerpen H0 wanneer H1 waar. Dit komt overeen met de cel rechtsonder in Tabel 9.1. Power is dus gelijk aan 1 - β. Merk op dat het power dus wordt berekend voor een bepaalde waarde van μ. Meestal is het power verschillend voor elke verschillende waarde van μ.

Hoe kun je het gemiddelde van een normale verdeling met bekende populatievariantie testen?

In deze sectie bespreken we hoe hypothesen kunnen worden getest met betrekking tot het gemiddelde van een normale verdeling, wanneer de populatievariantie bekend is. Stel dat we willen weten of universitaire studenten gemiddeld een hoger IQ hebben dan het gemiddelde in de populatie, dat is 100. In dit geval zouden we onze nulhypothese vermelden als: H0 : μ = μ 0 = 100. De alternatieve hypothese is: H1 : μ > μ 0 = 100. De volgende stap is het specificeren van het significantieniveau (α). Om het populatiegemiddelde te testen, gebruiken we het steekproefgemiddelde x̅. Als het steekproefgemiddelde aanzienlijk groter is dan μ0 = 100, dan verwerpen we de nulhypothese. Om een ​​juiste beslissing te nemen, gebruiken we het feit dat de gestandaardiseerde willekeurige variabele

\[ Z = \frac{\bar{X} - \mu_{0}}{\sigma/\sqrt{n}} \]

heeft een standaard normale verdeling met gemiddelde 0 en variantie 1, gegeven het feit dat de nulhypothese waar is. Als α de waarschijnlijkheid van een type I-fout is en Z groot is zodat P (Z> zα) = α , kunnen we de nulhypothese testen met behulp van de volgende beslissingsregel:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \frac{\bar{x} - \mu_{0}}{\sigma / \sqrt{n}} > z_{\alpha} \]

Uit deze vergelijking volgt dat het significantieniveau α de waarschijnlijkheid is dat de nulhypothese wordt afgewezen, terwijl de nulhypothese in feite waar is. Zoals we eerder vermeldden, kan de onderzoeker vooraf het significantieniveau specificeren. Het is belangrijk om dit te doen voordat de hypothesetestprocedure daadwerkelijk wordt uitgevoerd, omdat het kan voorkomen dat een bepaalde nulhypothese wordt verworpen op een significantieniveau van bijvoorbeeld 0,05, maar niet zou zijn afgewezen op het lagere 0,01 significantieniveau. Over het algemeen houdt het verminderen van het significantieniveau in dat de kans wordt verkleind dat een echte nulhypothese wordt afgewezen.

Een andere procedure voor het testen van hypothesen is gerelateerd aan de p-waarde. De p-waarde is de waarschijnlijkheid van het verkrijgen van een waarde van de teststatistiek even extreem als of extremer dan de werkelijke waarde verkregen wanneer de nulhypothese waar is. Met andere woorden, de p-waarde is het kleinste significantieniveau waarop de nulhypothese kan worden verworpen gezien de waargenomen steekproefstatistiek. Bij gebruik van de p-waarde moet de volgende beslissingsregel worden toegepast: afwijzen H0 is p-waarde < α . Over het algemeen resulteert deze beslissingsregel in dezelfde beslissing als het volgen van de eerder beschreven procedure. De p-waarde voor een test wordt als volgt berekend:

\[ p-waarde = P( \frac{\bar{x} - \mu_{0}}{\sigma / \sqrt{n}}) \geq z_{p} | H_{0}: \mu = \mu_{0} ) \]

waarbij z p verwijst naar de standaard normale waarde die is geassocieerd met het kleinste significantieniveau waarop de nulhypothese kan worden verworpen. De p-waarde wordt gewoonlijk berekend door praktisch elk statistisch computerprogramma. Het is een zeer populair hulpmiddel voor veel statistische toepassingen. Houd er echter rekening mee dat de p-waarde een waargenomen willekeurige variabele is die verschillend zal zijn voor elke willekeurige steekproef die voor een statistische test wordt verkregen. Om die reden kunnen twee verschillende onderzoekers met hun eigen steekproeven en steekproefgemiddelden een andere p-waarde berekenen. Dit kan leiden tot verschillende conclusies (wanneer de p-waarde dicht bij het statistische significantieniveau ligt).

Hoe kun je het gemiddelde van een normale verdeling testen met onbekende populatievariantie?

In deze sectie bespreken we hoe het gemiddelde van een normale verdeling kan worden getest in geval van onbekende populatievariantie. Bedenk uit hoofdstuk 7 dat we de t-verdeling van de student moeten gebruiken wanneer de populatievariantie onbekend is. Verder hangt deze verdeling af van de vrijheidsgraden. Hier zijn de vrijheidsgraden: df = n - 1. Voor steekproefgroottes groter dan 100 kan de normaal verdeling worden gebruikt om de t-verdeling van de Student te benaderen. Hier is de beslissingsregel voor een eenzijdige alternatieve hypothese (meer specifiek: H1 : μ > μ 0 ) als volgt:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} t = \frac{\bar{x} - \mu_{0}}{s / \sqrt(n)} > t_{n-1,\alpha} \]

of equivalent:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \bar{x} > \bar{x}_{c} = \mu_{0} + t_{n-1,\alpha} s/\sqrt{n} \]

Merk op dat het ">" -teken verandert in een "<" -teken als we de alternatieve hypothese testen dat een bepaalde waarde lager is dan de waarde gespecificeerd door de nulhypothese. Voor een tweezijdige alternatieve hypothese testen we zowel ">" als "<" met significantieniveau α / 2. Verder worden de p-waarden voor deze tests op dezelfde manier berekend als voor de hypothesetests met bekende populatievariantie, behalve dat de Student's t-waarde wordt gebruikt in plaats van de normale Z-waarde.

Hoe kun je de populatie proportie (voor grote steekproeven) testen?

Een ander belangrijk en veel voorkomend probleem bij zakelijke en economische problemen betreft de populatie proportie. Bedrijfsleiders zijn bijvoorbeeld geïnteresseerd in het procentuele marktaandeel voor hun producten. Verder zijn overheidsfunctionarissen geïnteresseerd in het percentage mensen dat een voorgesteld nieuw programma steunt. Daarom besteden we deze paragraaf aan het testen van hypothesen voor populaties. Bedenk uit hoofdstuk 5 en 6 dat we de normale verdeling kunnen gebruiken als een vrij nauwkeurige benadering van de verdeling van de steekproef proportie. Laat P de populatie-proportie zijn. Vervolgens kunnen de volgende hypotheses worden geformuleerd: H0 : P = P0 en H1 = P> P0 . Hieruit volgt dat de beslissingsregel voor een bevolkingsaandeel als volgt is:

\ [verwerp \ hspace {1mm} H_ {0} \ hspace {1mm} als \ hspace {1mm} \ frac {\ hat {p} - p_ {0}} {\ sqrt {P_ {0} (1 - P_ { 0}) / n}} <-z _ {\ alpha} \]

Dit wordt geïllustreerd met een voorbeeld. Stel dat een bepaald bedrijf wil weten of shoppers gevoelig zijn voor de prijzen van artikelen die in de winkel worden verkocht. Een willekeurige steekproef van 802 shoppers wordt verkregen. Het lijkt erop dat 378 van deze shoppers de juiste prijs op een artikel konden vermelden direct nadat ze het in hun winkelwagentje hadden gestopt. Nu willen we op een significantieniveau van 7% de nulhypothese testen dat ten minste de helft van alle shoppers de juiste prijs kan onthouden.

Formuleer eerst de nulhypothese en alternatieve hypothese: H0 : P > P0 = 0,50 en H1 : P < 0,50. Vervolgens verkrijgen we voor dit voorbeeld de volgende voorbeeldstatistieken: n = 802 en p (dakje) = 378/802 = 0.471. De teststatistiek wordt als volgt berekend:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \frac{ \hat{p} - p_{0} }{\sqrt{P_{0} (1 - P_{0}) /n}} < -z_{\alpha} \]

Op een significantieniveau van 7% (α = 0,07) vinden we de volgende z-waarde: zα = -1.474. Omdat de teststatistiek van -1,64 lager is dan -1,474, kunnen we de nulhypothese op dit significantieniveau van 7% verwerpen en concluderen dat minder dan de helft van de shoppers de prijs correct kan terugroepen onmiddellijk nadat ze een artikel in hun supermarktkar hebben geplaatst.

Wat zijn de vijf eigenschappen van de powerfunctie?

Voor alle hypothesetests die we tot nu toe hebben besproken, hebben we bepaalde beslissingsregels ontwikkeld voor het verwerpen van de nulhypothese ten gunste van een alternatieve hypothese. Daarbij hebben we herhaaldelijk benadrukt dat het niet verwerpen van de nulhypothese niet betekent dat de nul- of de alternatieve hypothese waar is. Het feit dat de nulhypothese niet wordt verworpen, geeft de onderzoeker in feite veel onzekerheid. Daarom kan de macht (1 - β ) worden gebruikt als een maat voor de mate van zekerheid dat de nulhypothese zal worden afgewezen als de nulhypothese in feite onjuist is. Door de power van een test te berekenen voor alle waarden van μ die zijn opgenomen in de alternatieve hypothese, kan een powerfunctie worden gegenereerd. Een dergelijke powerfunctie heeft verschillende nuttige eigenschappen. Ten eerste, hoe verder het ware gemiddelde van het gehypothetiseerde gemiddelde is, hoe groter de power (ervan uitgaande dat al het andere gelijk is). Ten tweede, hoe kleiner het significantieniveau ( α ) van de test, hoe kleiner het power (opnieuw aangenomen dat al het andere gelijk is). Ten derde, hoe groter de populatievariantie, hoe lager de power van de test (opnieuw aangenomen dat al het andere gelijk is). Ten vierde, hoe groter de steekproefgrootte, hoe groter de power van de test (opnieuw, ervan uitgaande dat al het andere gelijk is). Ten vijfde en ten slotte het power van de test bij de kritische waarde gelijk aan 0,5, omdat de kans dat een steekproefgemiddelde boven x ̅ c is logischerwijze 0,50.

Hoe kun je de variantie van een normaal verdeelde populatie testen?

Naast het testen van het populatiegemiddelde, kunnen we ook hypothesetests uitvoeren met betrekking tot de populatievariantie. Dit is vooral van belang bij modern kwaliteitscontrolewerk, omdat een dergelijk proces defecte items kan produceren als er een aanzienlijk grote variantie bestaat. De testprocedures voor σ 2 zijn logischerwijs gebaseerd op de steekproefvariantie, dat is s2 . Het is belangrijk om te weten dat de chikwadraatverdeling wordt gebruikt voor hypothesetests met betrekking tot de variantie. De chikwadraatverdeling voor een enkele populatie heeft df = (n - 1) vrijheidsgraden. De nul- en alternatieve hypothesen kunnen bijvoorbeeld zijn: H0 : σ2 = σ20 en H1 : σ2 > σ20. Hieruit volgt dat de beslissingsregel als volgt is geformuleerd:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \frac{(n - 1)^{2} s^{2}}{\sigma^{2}_{0}} > \chi^{2}_{n-1,\alpha} \]

 

In dit hoofdstuk wordt besproken hoe procedures voor het testen van hypothesen kunnen worden ontwikkeld om de geldigheid van een vermoeden of bewering over een populatie te testen met behulp van steekproefgegevens.

 

 

Welke testprocedures zijn er voor het verschil tussen twee populaties? - Chapter 10

 

 

In het vorige hoofdstuk is besproken hoe hypothesen kunnen worden geformuleerd voor toetsen die betrekking hebben op een enkele populatie. In dit hoofdstuk worden deze concepten uitgebreid tot het scenario van het testen van de verschillen tussen twee populatiegemiddelden, proporties en varianties. Op dit punt wordt aangenomen dat de lezer bekend is met de in hoofdstuk 9 ontwikkelde procedures voor het testen van hypothesen en de belangrijkste concepten die verband houden hiermee (zoals de nulhypothese, alternatieve hypothese en eenzijdige en tweezijdige samengestelde alternatieve hypothesen).

Hoe test je het verschil in gemiddelde tussen twee normaal verdeelde populaties (met afhankelijke steekproeven)?

Er zijn verschillende toepassingen in het bedrijfsleven en de economie waarbij we conclusies willen trekken over het verschil tussen twee populatiemiddelen, in plaats van conclusies te trekken over de absolute niveaus van de gemiddelden. Men zou bijvoorbeeld de output van twee verschillende productieprocessen kunnen willen vergelijken zonder de populatiegemiddelden te kennen. Of men zou willen weten of de ene aandelenmarktstrategie resulteert in een hogere winst dan de andere zonder de winst van beide strategieën in de populatie te kennen. Dergelijke vragen kunnen effectief worden behandeld door verschillende procedures voor het testen van hypothesen. Deze verschillende procedures zijn gebaseerd op verschillende assumpties die vrij veel lijken op wat in het vorige hoofdstuk is besproken.

Stel, er wordt een willekeurige steekproef van n gematchte paren (in het Engels: matched pairs) waarnemingen verkregen uit twee populaties met respectievelijk μ x en μy. Als er daarnaast wordt aangenomen dat de gematchte paren positief gecorreleerd zijn, dan zal de variantie van het verschil tussen de steekproefgemiddelden

\[ \bar {d} = \bar{x} - \bar{y} \]

lager zijn in vergelijking met het gebruik van onafhankelijke steekproeven, omdat sommige van de karakteristieken van de paren vergelijkbaar zijn. Als gevolg daarvan wordt een deel van de variabiliteit verwijderd uit de totale variabiliteit van de verschillen tussen de gemiddelden. Dit idee wordt geïllustreerd met een voorbeeld. Stel dat we menselijk gedrag bestuderen. Gewoonlijk zijn de verschillen tussen tweelingen (gematchte paren) kleiner dan de verschillen tussen twee willekeurig geselecteerde mensen (onafhankelijke steekproeven). Om dit in algemene bewoordingen te stellen, zouden we, indien mogelijk, liever gepaarde waarnemingenparen gebruiken in plaats van onafhankelijke steekproeven bij het vergelijken van metingen uit twee populaties, omdat de variantie van het verschil kleiner zal zijn. Bovendien vergroot een kleinere variantie de kans om de nulhypothese te verwerpen wanneer de nulhypothese feitelijk onjuist is.

Het testen van de hypothese is redelijk vergelijkbaar met de procedure die in het vorige hoofdstuk is besproken. Dat wil zeggen, de nulhypothese is: H0: μ x - μ y = 0, of: H0 : μx - μy < 0. Dit wordt getoetst tegen een alternatieve hypothese, bijvoorbeeld: H1 : μx - μy > 0. De beslisregel is als volgt geformuleerd:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \frac{\bar{d}}{s_{d} / \sqrt{n} } > t_{n-1,a} \]

voor een eenzijdige alternatieve hypothese . Als de eenzijdige alternatieve hypothese linkszijdig is, zodat H1 : μ x - μ y < 0 , krijgen we de volgende beslisregel:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} a+s \hspace{1mm} \frac{\bar{d}}{s_{d} / \sqrt{n} } < -t_{n-1,a} \]

Merk op dat het teken ">" verandert in een teken "<" en dat de waarde t negatief wordt. Ten slotte is de beslisregel voor een tweezijdige alternatieve hypothese ( H1 : μ x - μ y ≠ 0 ) als volgt geformuleerd:

\[ verwerp\hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \frac{\bar{d}}{s_{d} / \sqrt{n} } < t_{n-1,a/2} or \frac{\bar{d}}{s_{d} / \sqrt{n} } > t_{n-1,a/2} \]

Voor al deze hypothesetests is t n-1 een willekeurige variabele die de Student’s t verdeling volgt met (n - 1) vrijheidsgraden. Bovendien kunnen we voor al deze hypothesetests p-waarden verkrijgen die kunnen worden geïnterpreteerd als de kans op het krijgen van een waarde die minstens zo extreem is als de waarde die is verkregen op basis van de nulhypothese.

Hoe kun je het verschil in gemiddelden tussen twee normaal verdeelde populaties (met in afhankelijke steekproeven) testen?

Net als in het vorige hoofdstuk zijn er drie belangrijke scenario's voor onafhankelijke steekproeven: (1) bekende populatievarianties; (2) populatievarianties onbekend, maar aangenomen gelijk te zijn; en (3) populatievarianties onbekend en niet gelijk geacht.

Scenario 1: populatievarianties bekend

Wanneer de twee populatievarianties bekend zijn, kunnen hypothesetests van het verschil tussen de twee populatiegemiddelden op dit resultaat worden gebaseerd, met behulp van dezelfde procedures als eerder besproken. Daarnaast gelden, als gevolg van de centrale limiet stelling, de resultaten voor grote steekproeven, zelfs als de populaties niet normaal verdeeld zijn. Als de steekproefgrootten groot zijn (dat wil zeggen: n > 100), dan is de benadering voldoende goed wanneer de steekproefvarianties worden gebruikt voor populatievarianties. Net als bij andere hypothesetests kunnen we p-waarden verkrijgen die kunnen worden geïnterpreteerd als de kans op het krijgen van een waarde die minstens zo extreem is als de waarde die is verkregen gezien de nulhypothese. Merk op dat, omdat de populatievarianties bekend zijn, we de standaard normale verdeling kunnen gebruiken in plaats van de Student's t-verdeling.

Scenario 2 : populatievarianties zijn onbekend, maar worden als gelijk verondersteld

Vaak zijn de populatievarianties onbekend. Als daarnaast de steekproefgroottes kleiner zijn dan 100, moeten we de Student’s t verdeling gebruiken. Er zijn echter enkele theoretische problemen bij het gebruik van de Student’s t-verdeling om verschillen tussen steekproefgemiddelden te testen. Gelukkig kunnen deze problemen worden opgelost met behulp van de procedure die ontstaat als we kunnen aannemen dat de populatievarianties gelijk zijn. In dat geval kan het een gepoolde schatter (in het Engels: pooled estimator) van de gelijke populatievariantie gebruiken, die als volgt kan worden berekend:

\[ s^{2}_{p} = \frac{ (n_{x} - 1) s^{2}_{x} + (n_{y} - 1) s^{2}_{y} }{ (n_{x} + n_{y} - 2) } \]

met de vrijheidsgraden gelijk aan: df = nx + ny - 2. Hieruit volgt dat de hypothesetests kunnen worden uitgevoerd met de Student’s t statistiek voor het verschil tussen de twee gemiddelden:

\[ t = \frac{ (\bar{x} - \bar{y} ) – ( \mu_{x} - \mu_{y} ) }{ \sqrt{ \frac{s^{2}_{p}}{n_{x}} + \frac{s^{2}_{p}}{n_{x}}} } \]

De vorm van de vergelijking is dus vrijwel gelijk aan die van de Z-statistiek, die wordt gebruikt wanneer de populatievarianties bekend zijn. Het enige verschil is dat de gepoolde schatter van de varianties wordt gebruikt in plaats van de (bekende) populatievarianties zelf. Afgezien van het gebruik van de Student’s t-verdeling en de gepoolde schatter van de varianties, is de testprocedure gelijk aan het scenario met bekende populatievarianties.

Scenario 3: populatievarianties zijn onbekend en kunnen niet gelijk verondersteld

Wanneer de populatievarianties onbekend zijn en ook niet kan worden aangenomen dat ze gelijk zijn, komen we uit bij vrij complexe situatie. Er zijn aanzienlijke complexiteiten bij het bepalen van de vrijheidsgraden voor de kritische waarde van de t-verdeling van de Student. Hoewel dit met de hand kan worden berekend, wordt dit vaak berekend door een statistisch computerprogramma. Voor de geïnteresseerde lezer verwijzen we naar pagina 401 van het boek. Nadat de vrijheidsgraden zijn verkregen, is de procedure vergelijkbaar met de testprocedure die we eerder hebben besproken. Het enige verschil is dat de steekproefvarianties worden gebruikt, in plaats van de populatievarianties of een gepoolde schatter van de varianties.

Hoe kun je het verschil in proporties tussen twee normaal verdeelde populaties (met grote steekproeven) testen?

In hoofdstuk 5 bespraken we dat, voor grote steekproeven (dat wil zeggen: nP0(1 - P 0 ) > 5), proporties kunnen worden benaderd als normaal verdeelde willekeurige variabelen. Als gevolg hiervan kan de standaard normale verdeling met z-scores worden gebruikt. Stel dat er twee onafhankelijke willekeurige steekproeven van grootte nx en ny zijn. Stel dat de proporties in de populaties onbekend zijn, maar er kan worden aangenomen dat de varianties gelijk zijn, dan kan de onbekende populatieverhouding P0 worden geschat met behulp van een gepoolde schatter die als volgt is gedefinieerd:

\[ \hat{p}_{0} = \frac{n_{x} \hat{p}_{x} + n_{y} \hat{p}_{y}}{n_{x} + n_{y}} \]

Hoe kun je de gelijkheid van de varianties tussen tweenormaal verdeelde populaties testen?

In het laatste deel van dit hoofdstuk wordt besproken hoe de gelijkheid van varianties tussen twee normaal verdeelde populaties kan worden getest. Gelijkheid in varianties kan bijvoorbeeld worden gebruikt om een ​​gepoolde schatter te berekenen voor de gemeenschappelijke variantie tussen twee steekproefvarianties (zoals eerder in dit hoofdstuk is besproken). Hiertoe is een procedure ontwikkeld om te testen of twee varianties gelijk zijn. Om deze test uit te voeren, wordt de F-distributie gebruikt. Stel dat er twee onafhankelijke willekeurige steekproeven zijn getrokken uit populatie X en Y. Vervolgens kan de willekeurige variabele F als volgt worden berekend:

\[ F = \frac{s^{2}_{x} / \sigma^{2}_{x}}{s^{2}_{y} / \sigma^{2}_{y}} \]

Deze willekeurige variabele volgt een verdeling die bekend staat als de F-verdeling. Net als Student’s t distributie, is deze F-verdeling eigenlijk een familie van verdelingen die wordt gekenmerkt door het aantal vrijheidsgraden. Anders dan de t-verdeling wordt de F verdeling gekenmerkt door vrijheidsgraden voor zowel de teller als vrijheidsgraden voor de noemer. Meer precies, de vrijheidsgraden voor de teller zijn gelijk aan (n x - 1) en de vrijheidsgraden voor de noemer zijn gelijk aan (n y - 1). De kritieke waarde voor een bepaalde F-waarde is te vinden in Appendix Tabel 9 (in het boek). Stel nu dat de vrijheidsgraden worden aangegeven met respectievelijk v1 en v2 . Vervolgens wordt de beslisregel voor een eenzijdige alternatieve hypothese (rechterkant kan als volgt worden geformuleerd:

\[ verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} F = \frac{s^{2}_{x}}{s^{2}_{y}} > F_{n_{x}-1, n_{y} – 1, \alpha} \]

Merk op dat α / 2 wordt gebruikt als de bovengrens voor een tweezijdige hypothesetest. Net als bij alle eerder besproken hypothesetests, kan een p-waarde worden berekend, waardoor de kans wordt verkregen om een ​​waarde te krijgen die minstens zo extreem is als degene die is verkregen gezien de nulhypothese. Omdat de F-distributie vrij complex is, worden de kritieke waarden meestal berekend met behulp van een statistisch software programma.

 

In het vorige hoofdstuk is besproken hoe hypothesen kunnen worden geformuleerd voor toetsen die betrekking hebben op een enkele populatie. In dit hoofdstuk worden deze concepten uitgebreid tot het scenario van het testen van de verschillen tussen twee populatiegemiddelden, proporties en varianties. Op dit punt wordt aangenomen dat de lezer bekend is met de in hoofdstuk 9 ontwikkelde procedures voor het testen van hypothesen en de belangrijkste concepten die verband houden hiermee (zoals de nulhypothese, alternatieve hypothese en eenzijdige en tweezijdige samengestelde alternatieve hypothesen).

 

 

Hoe werkt een enkelvoudige regressie? - Chapter 11

 

 

Tot nu toe hebben we ons gericht op de statistische analyse en de gevolgtrekking met betrekking tot een enkele variabele. In dit hoofdstuk gaan we verder met het analyseren van relaties tussen meerdere variabelen. Daarbij gaan we ervan uit dat de lezer bekend is met concepten als spreidingsdiagram, covariantie en correlatie (zie hoofdstuk 2). De relatie tussen variabelen wordt vaak gebruikt voor het analyseren van bedrijfsprocessen en economie. Men kan bijvoorbeeld geïnteresseerd zijn in het volgende: als een ontwikkelingsland zijn kunstmestproductie met een miljoen ton verhoogt, hoeveel toename van graanproducten kan dan worden verwacht? In het algemeen kunnen deze relaties worden uitgedrukt als Y = f(x) waarin de functie Y zowel lineaire als niet-lineaire vormen kan volgen. Voor nu richten we ons in dit hoofdstuk alleen op lineaire relaties met behulp van regressie met de kleinste kwadraten (in het Engels: least squares regression).

Wat wordt er bedoeld met een kleinste kwadraten regressie analyse?

Vaak kan een gewenste functionele relatie tussen twee variabelen X en Y worden geschat met behulp van een lineaire vergelijking, gegeven door:

\[ Y = \beta_{0} + \beta_{1}X \]

waarin Y de afhankelijke variabele is (ook bekend als endogene variabele) en X de onafhankelijke variabele is (ook bekend als exogene variabele). Verder is β0 het Y-intercept (waarbij de Y-waarde gelijk is aan nul) en β1 is de helling van de regressielijn (dat wil zeggen: de verandering in Y voor een eenheidsverandering in X). Deze hellingscoëfficiënt (β1) is erg belangrijk voor veel zakelijke en economische toepassingen, omdat het een indicatie geeft van de verandering in output (van de endogene variabele) voor elke eenheidsverandering in de input (van de exogene variabele). Om de beste schattingen van het intercept en de helling te verkrijgen, worden de beschikbare steekproef gegevens gebruikt. De schattingen zijn gedefinieerd als b0 en b1 en worden berekend met behulp van least squares regression, een techniek die op grote schaal wordt toegepast in veel statistische softwarepakketten. In deze regressievergelijking wordt aangenomen dat er voor elke waarde van X een overeenkomstige gemiddelde waarde van Y zal zijn die ontstaat vanwege de onderliggende lineaire relatie tussen X en Y.De least squares op basis van steekproefgegevens wordt gegeven door:

\[ \hat{y} = b_{0} + b_{1}x \]

waarbij b0 het y-intercept is, wat als volgt kan worden berekend:

\[ b_{0} = \bar{y} - b_{1}\bar{x} \]

en b1 de helling van de lijn is, die als volgt kan worden berekend:

\[ b_{1} = \frac{Cov(x,y)}{s^{2}_{x}} = r \frac{s_{y}}{s_{x}} \]

Hieruit volgt ook dat de correlatiecoëfficiënt als volgt kan worden berekend:

\[ r = \frac{Cov(x,y)}{s_{x}s_{y}} \]

Hoe ziet het lineare regressie model eruit voor de popuatie?

In de sectie hierboven zagen we dat regressie van de kleinste kwadraten een procedure is die een geschat model geeft van de lineaire relatie tussen een onafhankelijke (exogene) variabele en een afhankelijke (endogene) variabele. De egressie van de kleinste kwadraten is dus een schatting van het populatiemodel. Dit populatiemodel kan als volgt worden gespecificeerd:

\[ y_{i} = \beta_{0} + \beta_{1}x_{i} + \epsilon_{i} \]

waarbij β0 en β1 de populatiemodelcoëfficiënten zijn en εi een willekeurige foutterm (in het Engels: random error) is. Voor lineaire regressies worden vier veronderstellingen gedaan. Ten eerste wordt aangenomen dat de Y's lineaire functies van X zijn, plus een willekeurige foutterm. Ten tweede wordt aangenomen dat de x-waarden een vast getal zijn dat onafhankelijk is van de fouttermen. Ten derde worden de fouttermen verondersteld willekeurige variabelen te zijn met een gemiddelde van nul en een covariantie van σ2. Deze eigenschap staat ook wel bekend als homoscedasticiteit of uniforme variantie. Dit wordt later in dit hoofdstuk nader toegelicht. Verder zullen we later in dit hoofdstuk beschrijven dat de centrale limietstelling kan worden gebruikt om de veronderstelling van een normale verdeling te versoepelen. Ten vierde wordt aangenomen dat de willekeurige fouttermen niet met elkaar gecorreleerd zijn.

Lineaire regressie biedt twee belangrijke resultaten. Allereerst de voorspelde waarden (y dakje) van de afhankelijke (endogene) variabele als functie van de onafhankelijke (exogene) variabele. Ten tweede, de geschatte marginale verandering in de afhankelijke (endogene) variabele, b1, die het gevolg is van een wijziging van één eenheid in de onafhankelijke (exogene) variabele.

Het is belangrijk om te weten dat regressieresultaten de informatie in de gegevens samenvatten. Ze "bewijzen" niet dat een toename in X een toename in Y veroorzaakt. Om dergelijke conclusies te kunnen trekken, moet een goede statistische analyse worden gecombineerd met theorie.

Hoe kun je de schatters van de kleinste kwadaraten regressie verkrijgen?

Hoewel de populatieregressielijn een bruikbaar theoretisch construct is, kunnen we dit in de praktijk eigenlijk niet gebruiken, omdat we niet de gegevens hebben van alle mogelijke observaties in de populatie. In plaats daarvan moeten we een schatting van dit model bepalen met behulp van de beschikbare gegevens uit de steekproef. Zoals eerder vermeld, kan hiervoor de kleinste kwadraten regressieprocedure worden gebruikt. De kleinste kwadraten procedure verkrijgt schattingen van de lineaire vergelijkingscoëfficiënten door de som van de gekwadrateerde residuen εi te minimaliseren:

\[ SSE = \sum^{n}_{i = 1} e^{2}_{i} = \sum^{n}_{i = 1} (y_{i} - \hat{y}_{i})^{2} \]

Verder worden de coëfficiënten b0 en b1 zodanig gekozen dat de som van de gekwadrateerde residuen (SSE) wordt geminimaliseerd. Differentiële calculus wordt gebruikt om de coëfficiëntschatters te verkrijgen die de SSE minimaliseren. Voor de geïnteresseerde lezer verwijzen we naar de hoofdstukbijlage in het boek. Wat hieruit volgt zijn de volgende vergelijkingen voor de coëfficiëntschatter:

\[ b_{1} = r \frac{s_{Y}}{s_{X}} \]

en

\[ b_{0} = \bar{y} - b_{1}x \]

Omdat de berekening van de regressiecoëfficiënten behoorlijk uitdagend is, gebruiken we vaak statistische softwarepakketten om de regressiecoëfficiënten te berekenen. Hoewel de berekening vaak aan computers wordt toegewezen, blijft het onze taak om na te denken, te analyseren en aanbevelingen te doen. Deze schattingen worden gebruikt om een schatting van het onderliggende populatiemodel te verkrijgen. Om toch conclusies te kunnen trekken over de populatie, is het vereist dat aan de vier aannames wordt voldaan die in de vorige paragraaf zijn beschreven. Gegeven deze veronderstellingen kan worden aangetoond dat de schatters van de kleinste kwadratencoëfficiënt objectief zijn en een minimale variantie hebben.

Wat is de verklarende power van een lineaire regressie vergelijking?

In deze sectie gaan we verder met de verklarende power van een lineaire regressievergelijking. Welke maten zijn er beschikbaar om aan te geven hoe effectief de variabele X de verandering van Y verklaart? De totale variabiliteit in een regressieanalyse (SST) kan worden verdeeld in een component die wordt verklaard door de regressievergelijking (SSR) en een component die het gevolg is van een onverklaarbare fout (SSE). In de formule is dat: SST = SSR + SSE. Deze coëfficiënten kunnen als volgt worden bepaald:

\[ SST = \sum^{n}_{i = 1} (y_{i} - \bar{y})^{2} \]

met

\[ SSE = \sum^{n}_{i = 1} e^{2}_{i} \]

en

\[ SSR = b^{2}_{i} = \sum^{n}_{i = 1} (x_{i} - \bar{x})^{2} \]

Een veelgebruikte maat om de verklarende kracht van een lineaire regressievergelijking aan te geven, is de determinatiecoëfficiënt, aangegeven met R2. Deze coëfficiënt is een verhouding van de som van de kwadraten van de variantie die wordt verklaard door de regressievergelijking (SSR) gedeeld door de totale som van de kwadraten (SST) en geeft daarom een beschrijvende maat voor het aandeel of percentage van de totale variabiliteit dat wordt verklaard door het regressiemodel. Met andere woorden, het is de procentuele verklaarde variabiliteit. In de formule is dat:

\[ R^{2} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]

Deze coëfficiënt varieert van 0 tot 1, waarbij hogere waarden wijzen op een betere regressie (een groter deel van de totale variabiliteit die wordt verklaard door de regressie). Men moet echter voorzichtig zijn met het maken van algemene interpretaties van R2, omdat een hoge waarde kan voortvloeien uit een kleinere SSE, een grote SST of beide.

Er is een belangrijk verband tussen de correlatiecoëfficiënt en R2. Meer precies, de determinatiecoëfficiënt (R2) voor eenvoudige regressie is gelijk aan de eenvoudige gekwadrateerde correlatie: R2 = r2.

Ten slotte is de hoeveelheid SSE een maat voor de totale gekwadrateerde afwijking ten opzichte van de schattingsregressielijn en is ei de rest. De modelfoutvariantie kan als volgt worden geschat:
\[ \sigma^{2} = \frac{SSE}{n - 2} \]
Merk op dat de deling door (n - 2) is in plaats van (n - 1). Dit wordt gedaan omdat het eenvoudige regressiemodel twee geschatte parameters (b0 en b1) gebruikt in plaats van één parameter. In de volgende sectie zullen we zien dat deze variantieschatter de basis vormt voor statistische inferentie in regressiemodellen.

Hoe kunnen er conclusies worden getrokken over de populatie?

Nu we de coëfficiëntschatters hebben ontwikkeld, is het tijd om verder te gaan naar het trekken van conclusies over het populatiemodel. Daarbij volgen we de basisbenadering die in hoofdstuk 7-10 is besproken. Omdat yi normaal verdeeld is en b1 een lineaire functie is van onafhankelijke normale variabelen, impliceert de lineaire functie dat b1 ook normaal verdeeld is. Uit deze eigenschap kunnen we de populatievarianties en steekproefvarianties als volgt afleiden:

\[ \sigma^{2}_{b1} = \frac{\sigma^{2}}{ (n - 1) s^{2}_{x}} \]

en een onpartijdige steekproefvariatieschatter:

\[ s^{2}_{b1} = \frac{s^{2}_{e}}{ (n - 1) s^{2}_{x}} \]

Verder is het belangrijk om te zien dat de variantie van de hellingscoëfficiënt b1 afhankelijk is van twee grootheden: (1) de afstand van de punten tot de regressielijn gemeten door s2e waarvoor hogere waarden grotere variantie opleveren voor b1, en; (2) de totale afwijking van de X-waarden van het gemiddelde, die wordt gemeten door (n - 1)s2x, waarvoor hogere afwijkingen in de X-waarden en grotere steekproefgroottes een kleinere variantie voor de hellingscoëfficiënt impliceren. Hieruit volgt dat kleinere variantie-schatters van de hellingcoëfficiënt een beter regressiemodel impliceren. Met andere woorden, we willen dat de variantie van de beslissingsvariabele (X) zo klein mogelijk is.

Eerder in dit hoofdstuk hebben we besproken dat voor de vergelijking die de geschatte coëfficiënten voor b1 berekent, we aannemen dat de varianties van de fouttermen uniform of gelijk zijn over het gehele bereik van de onafhankelijke variabele (n). Deze eigenschap wordt homoscedasticiteit genoemd. Soms zijn de varianties van de fouttermen echter niet uniform. Dit kan bijvoorbeeld gebeuren bij de jaarlijkse consumptie van huishoudens, die over het algemeen toeneemt met het stijgende inkomen van de huishoudens, maar met hogere inkomens hebben huishoudens een grotere flexibiliteit tussen consumptie en sparen. Daarom zou een grafiek van de jaarlijkse consumptie van huishoudens versus het beschikbare inkomen aantonen dat de gegevens "rondwaaien" rond een lineaire trend naarmate het beschikbare inkomen toeneemt. Deze situatie van niet-uniforme fouttermen wordt ook wel heteroscedasticiteit genoemd.

Nu gaan we verder met de hypothesetests. Om te bepalen of er een lineair verband is tussen X en Y, kunnen we de volgende nulhypothese testen: H0: β1 = 0 tegen de alternatieve hypothese: H1: β1 ≠ 0. Gegeven dat b1 normaal verdeeld is, kunnen we deze hypothese testen met behulp van de Student's t distributie:

\[ t = \frac{b_{1} - \beta_{1}}{s_{b_{1}}} \]

met (n - 2) vrijheidsgraden. Verder kan de centrale limietstelling worden gebruikt om te concluderen dat dit resultaat ongeveer geldig is voor een breed scala van niet-normale distributies mits de steekproef groot genoeg is. Bovendien volgt uit deze teststatistiek de volgende beslissingsregel:

\[ Verwerp \hspace{2mm} H_{0} \hspace{2mm} als \hspace{2mm} \frac{b_{1} - \beta^{*}_{1}}{s_{b-{1}}} \geq t-{n-2,\alpha} \]
Als de nulhypothese wordt afgewezen, betekent dit dat er een verband is tussen X en Y.

Ten slotte is het handig om de volgende vuistregel te kennen: voor een tweezijdige test met α = 0,05 en n > 60 geeft een t teststatistiek met een absolute waarde groter dan 2.0 aan dat er een verband is tussen de twee variabelen X en Y.

Het betrouwbaarheidsinterval voor de populatie-regressiehelling (β1) wordt gegeven door:
\[ b_{1} - t_{ (n-2,\alpha/2) s_{b_{1}}} < \beta_{1} < b_{1} + t_(n-2,\alpha/2) s_{b_{1}} \]
waarbij wederom de willekeurige variabele tn-2 een Student's t-verdeling volgt met (n - 2) vrijheidsgraden.

F test voor een enkelvoudige regressie

Naast het testen van de helling van de regressie met behulp van de Student's t-verdeling, is het ook mogelijk om de F-verdeling te gebruiken voor deze hypothesetest. De F-verdeling zal uiteindelijk precies hetzelfde resultaat opleveren als de t-verdeling. Later zullen we in hoofdstuk 13 zien dat de F-verdeling ook de mogelijkheid biedt om de hypothese te testen dat verschillende populatiehellingscoëfficiënten gelijktijdig gelijk zijn aan nul. Voor nu is het echter voldoende om te weten dat F = t2b1 en dat de F-statistiek als volgt kan worden berekend:

\[ F = \frac{MSR}{MSE} = \frac{SSR}{s^{2}_{e}} \]

De beslissingsregel is als volgt geformuleerd:

\[ Verwerp \hspace{2mm} H_{0} \hspace{2mm} als \hspace{2mm} F \geq F_{1,n-2\alpha} \]

Hoe kan een regressiemodel worden gebruikt voor predictie?

Regressiemodellen zijn een handig hulpmiddel om voorspellingen voor de afhankelijke variabele te berekenen, gegeven een veronderstelde toekomstige waarde voor de onafhankelijke variabele. In grote lijnen zijn er twee verschillende interessante opties:

  1. Het schatten van de werkelijke waarde die zal resulteren voor een enkele waarneming, yn + 1.
  2. Het schatten van de voorwaardelijke verwachte waarde, dat wil zeggen de gemiddelde waarde van de afhankelijke variabele wanneer de onafhankelijke variabele is vastgesteld op xn + 1.

Voor de eerste optie, dat is het schatten van de werkelijke waarde die zal resulteren voor een enkele waarneming, kan het voorspellingsinterval als volgt worden berekend:

\[ \hat{y}_{n+1} \pm t_{n-2,\alpha/2} \sqrt{ [ 1 + \frac{1}{n} + \frac{ (x_{n+1} - \bar{x})^{2} }{ \sum^{n}_{i = 1} (x_{i} - \bar{x})^{2} } ] } s_{e} \]

En voor de tweede optie, die de voorwaardelijke verwachte waarde of het gemiddelde schat, is het betrouwbaarheidsinterval voor voorspellingen:

\[ \hat{y}_{n+1} \pm t_{n-2,\alpha/2} \sqrt{ [ \frac{1}{n} + \frac{ (x_{n+1} - \bar{x})^{2} }{ \sum^{n}_{i = 1} (x_{i} - \bar{x})^{2} } ] } s_{e} \]

Merk op dat de tweede vergelijking vergelijkbaar is met de eerste, met uitzondering van "1 +" in de wortel. Uit deze algemene vormen van voorspelling kunnen we zien dat hoe groter het interval, hoe groter de onzekerheid rondom het voorspellingspunt. Meer specifiek kunnen we vier observaties formuleren. Ten eerste geldt dat, wanneer alle overige condities gelijk blijven, hoe groter de steekproefgrootte (n), hoe smaller zowel het voorspellingsinterval als het betrouwbaarheidsinterval. Ten tweede, wanneer alle overige condities gelijk blijven, hoe groter s2e, hoe breder zowel het voorspellingsinterval als het betrouwbaarheidsinterval. Ten derde impliceert een grote spreiding dat er informatie is voor een breder bereik van waarden voor een variabele, waardoor preciezere schattingen van de populatieregressielijn en, overeenkomstig, kleinere betrouwbaarheidsintervallen en smallere voorspellingsintervallen mogelijk zijn. Ten vierde, hoe groter de waarde voor de hoeveelheid (xn+1 - x̅)2, hoe groter de betrouwbaarheidsintervallen en voorspellingsintervallen.

Hoe werkt een correlatie analyse?

Correlatiecoëfficiënten kunnen ook worden gebruikt om relaties tussen variabelen te bestuderen. In hoofdstuk 2 hebben we de correlatiecoëfficiënt al gebruikt om de relatie tussen variabelen te beschrijven. In hoofdstuk 4 en 5 hebben we de populatiecorrelatie besproken. In dit hoofdstuk bespreken we inferentieprocedures die de correlatiecoëfficiënt gebruiken om lineaire relaties tussen variabelen te bestuderen.

De steekproefcorrelatiecoëfficiënt r is een nuttig hulpmiddel omdat het een beschrijvende maat voor de sterkte van een lineaire relatie in een steekproef biedt. De correlatie kan ook worden gebruikt om de hypothese te testen dat er geen lineaire associatie is in de populatie tussen een paar willekeurige variabelen. Dat wil zeggen: H0: ρ = 0. Dit kan worden getoetst aan de alternatieve hypothese dat er een verband bestaat tussen het paar willekeurige variabelen. Dat wil zeggen: H1: ρ ≠ 0. De beslissingsregel is dan:

\[ Verwerp \hspace{2mm} H_{0} \hspace{2mm} als \hspace{2mm} \frac{r \sqrt{(n - 2)}}{\sqrt{(1 - r^{2})}} < -t_{n-2,\alpha} \hspace{2mm} of \hspace{2mm} \frac{r \sqrt{(n - 2)}}{\sqrt{(1 - r^{2})}} > t_{n-2,\alpha} \]

waarbij tn-2 de Student's t distributie volgt met (n - 2) vrijheidsgraden.

Als we tn-2, a/2 = 2.0 instellen, kan worden aangetoond dat voor het testen van de vorige hypothese dat de populatiecorrelatie nul is, geldt:

\[ |r| > \frac{2}{\sqrt{n}} \]

Wat wordt er bedoeld met de beta-coëfficiënt voor bedrijven?

Op financieel gebied zijn een aantal maatregelen ontwikkeld om beleggers te helpen bij het meten en beheersen van het financiële risico bij de ontwikkeling van beleggingsportefeuilles. Risico kan worden onderverdeeld in diversifieerbaar risico en niet-diversifieerbaar risico. Het eerste, diversifieerbare risico, is dat risico dat verbonden is aan specifieke bedrijven en industrieën en dat arbeidsconflicten, nieuwe concurrentie, veranderingen in de consumentenmarkt en verschillende andere factoren omvat. Diversifieerbaar risico kan worden beheerst door grotere portefeuillegroottes en door aandelen op te nemen waarvan het rendement een negatieve correlatie heeft. Het tweede, niet-diversifieerbare risico, is dat risico dat verband houdt met de hele economie. Voorbeelden zijn: verschuivingen in de economie als gevolg van conjunctuurcycli, internationale crisis, de veranderende energiebehoefte in de wereld. Dergelijke factoren beïnvloeden alle bedrijven, maar hebben niet exact hetzelfde effect op elke onderneming. Het effect hiervan op individuele bedrijven wordt gemeten met de beta-coëfficiënt. Meer specifiek is de beta-coëfficiënt voor een specifiek bedrijf de hellingscoëfficiënt die wordt verkregen wanneer het rendement voor een bepaald bedrijf wordt teruggedrongen op het rendement voor een brede index, zoals de S&P 500. Deze hellingcoëfficiënt geeft vervolgens aan hoe responsief het rendement voor een bepaald bedrijf zijn in vergelijking met het totale marktrendement. Gewoonlijk is de beta-coëfficiënt positief, maar in sommige beperkte gevallen zal het rendement van een bedrijf in de tegenovergestelde richting gaan van de algehele economie, wat een negatieve beta oplevert. Als het rendement van de onderneming exact de markt volgt, dan is de beta-coëfficiënt 1. Als de opbrengsten van de onderneming beter op de markt reageren, zal de beta groter zijn dan 1. En als de opbrengsten van de onderneming minder gevoelig zijn voor de markt, dan is de beta is minder dan 1.

Welke twee factoren kunnen de geschatte regressie vergelijking beïnvloeden?

Zowel extreme punten als uitbijters hebben een grote invloed op de geschatte regressievergelijking in vergelijking met andere waarnemingen. In elke toegepaste analyse maken deze ongebruikelijke punten deel uit van de gegevens die het bestudeerde proces vertegenwoordigen, of zijn ze dat niet. In het eerste geval moeten deze ongebruikelijke punten in de gegevensset worden opgenomen. In het laatste geval mogen deze ongebruikelijke punten niet in de gegevensset worden opgenomen. In elk geval moet de onderzoeker beslissen wat de aard van deze ongebruikelijke punten zijn. Meestal vereist deze beslissing een goed begrip van het proces en een goed oordeel. De afzonderlijke punten moeten we zorgvuldig onderzoeken en hun bron moet worden gecontroleerd. Zijn ze het resultaat van een meet- of opnamefout?

Over het algemeen worden extreme punten gedefinieerd als punten met X-waarden die aanzienlijk afwijken van de X-waarden voor de andere punten. Extreme waarden hebben een hoge leverage ofwel "lading" of "invloed" (hi), die als volgt is gedefinieerd:

\[ h_{i} = \frac{1}{n} + \frac{ (x_{i} - \bar{x})^{2} }{\sum^{n}_{i = 1} (x_{i} - \bar{x})^{2} } \]

Deze term hi verhoogt de standaarddeviatie van de verwachte waarde omdat data punten verder van het gemiddelde van X liggen en dus leiden tot een breder betrouwbaarheidsinterval. Er zijn verschillende afkapwaarden voor de hefboomwerking, maar een algemene regel is dat punten met hefboomwerking hi > 3 p / n worden geïdentificeerd als "hoge leverage" waarin p het aantal voorspellers is, inclusief de constante. De meeste softwarepakketten gebruiken deze regel, hoewel Excel een andere regel gebruikt.

Uitbijters worden gedefinieerd als die observaties die substantieel afwijken in de Y-richting van de voorspelde waarde. Meestal worden deze punten geïdentificeerd door de standaardrest als volgt te berekenen:

\[ e_{is} = \frac{e-{i}}{s_{e} \sqrt{1 - h_{i}} } \]

Bedenk dat punten met een hoge leverage een kleinere standaardfout van het residu hebben. Dit is het geval, omdat punten met een hoge hefboomwerking waarschijnlijk de locatie van de geschatte regressielijn beïnvloeden en daarom zullen de waargenomen en verwachte waarden van Y dichterbij zijn.

 

Tot nu toe hebben we ons gericht op de statistische analyse en de gevolgtrekking met betrekking tot een enkele variabele. In dit hoofdstuk gaan we verder met het analyseren van relaties tussen meerdere variabelen. Daarbij gaan we ervan uit dat de lezer bekend is met concepten als spreidingsdiagram, covariantie en correlatie (zie hoofdstuk 2). De relatie tussen variabelen wordt vaak gebruikt voor het analyseren van bedrijfsprocessen en economie. Men kan bijvoorbeeld geïnteresseerd zijn in het volgende: als een ontwikkelingsland zijn kunstmestproductie met een miljoen ton verhoogt, hoeveel toename van graanproducten kan dan worden verwacht? In het algemeen kunnen deze relaties worden uitgedrukt als Y = f(x) waarin de functie Y zowel lineaire als niet-lineaire vormen kan volgen. Voor nu richten we ons in dit hoofdstuk alleen op lineaire relaties met behulp van regressie met de kleinste kwadraten (in het Engels: least squares regression).

 

 

Hoe werkt een meervoudige regressie? - Chapter 12

 

 

In het vorige hoofdstuk werd de enkelvoudige regressie geïntroduceerd. Een enkelvoudige regressie is een procedure voor het verkrijgen van een lineaire vergelijking die een afhankelijke (endogene) variabele voorspelt als functie van een enkele onafhankelijke (exogene) variabele. In de praktijk is het echter vaak het geval dat meerdere onafhankelijke variabelen gezamenlijk een afhankelijke variabele beïnvloeden. Daarom wordt in dit hoofdstuk de meervoudige regressie besproken, wat een procedure is voor het verkrijgen van een lineaire vergelijking die een afhankelijke (endogene) variabele voorspelt als functie van meerdere onafhankelijke (exogene) variabelen.

Wat zijn belangrijke overwegingen bij het opstellen van een meervoudig regressiemodel?

Model specificatie

Een fundamentele stap van een meervoudige regressie is modelspecificatie: de selectie van de exogene variabelen en de functionele vorm van het model. Om de juiste onafhankelijke variabelen te selecteren, wordt vaak veel discussie gevoerd met mensen in het bedrijf om te bepalen welke variabelen mogelijk (het meest) van invloed zijn op de afhankelijke variabele.

Model doelstellingen

De strategie die wordt gebruikt voor modelspecificatie wordt beïnvloed door de model doelstellingen. In grote lijnen zijn er twee hoofddoelstellingen voor regressieanalyse: (1) voorspellen van veranderingen in de afhankelijke variabele als functie van de onafhankelijke variabelen, en; (2) schatten van het marginale effect van elke onafhankelijke variabele. Vaak in de economie en het bedrijfsleven is men geïnteresseerd in hoe prestatiematen worden beïnvloed door veranderingen in de onafhankelijke variabelen. Hoe verandert bijvoorbeeld de verkoop als gevolg van prijsstijgingen en advertentie-uitgaven? Hoe verandert output wanneer de hoeveelheden arbeid en kapitaal worden veranderd? Wordt de kindersterfte lager wanneer de uitgaven voor gezondheidszorg en plaatselijke sanitaire voorzieningen worden verhoogd? Merk op dat marginale verandering vaak moeilijker te schatten is, omdat de onafhankelijke variabelen niet alleen gerelateerd zijn aan de afhankelijke variabelen, maar ook aan elkaar. Als dit laatste het geval is, is het moeilijk om het individuele effect van elke onafhankelijke variabele op de afhankelijke variabele te bepalen. Soms zijn beide doelen (d.w.z. voorspelling en schatting) even belangrijk. Meestal zal echter één van de doelstellingen overheersen.

Model ontwikkeling

Vervolgens kan het regressiemodel worden geconstrueerd om de variabiliteit in de afhankelijke variabele van belang te verklaren. Om het model te bouwen, willen we de gelijktijdige en individuele invloeden van de verschillende onafhankelijke variabelen opnemen. De basisvorm van een meervoudig regressiepopulatiemodel is als volgt:
\[ y_{i} = \beta_{0} + \beta_{1}x_{1i} + \beta_{2}x_{2i} + ... + \beta_{K}x_{1K} + \epsilon_{i} \]
waar de βj-termen de coëfficiënten zijn (d.w.z. marginale effecten) van de onafhankelijke variabelen Xj zijn, waarbij j = 1, ..., K, gegeven de effecten van de andere onafhankelijke variabelen. Verder is εi de willekeurige foutterm met een gemiddelde van 0 en een variantie van σ2.

Net als bij de eenvoudige regressie, wordt het populatiemodel geschat door een steekproef geschat model, dat de volgende basisvorm heeft:
\[ y_{i} = b_{0} + b_{1}x_{1i} + b_{2}x_{2i} + ... + b_{K}x_{1K} + e_{i} \]
Kortom, enkelvoudige regressie is een speciale (gereduceerde) vorm van meervoudige regressie waarbij er slechts één voorspellende variabele is. Als gevolg van deze enkele voorspellende variabele wordt het vlak teruggebracht tot een lijn. In meervoudige regressie is dit vlak multidimensionaal. Soms (bijvoorbeeld wanneer er twee voorspellende variabelen zijn en - logisch gezien- één afhankelijke variabele) kan een drie-dimensionele grafische weergave een nuttig hulpmiddel zijn om de relatie tussen de variabelen te interpreteren.

Hoe kunnen regressiecoëfficiënten worden geschat?

Om de regressiecoëfficiënten te verkrijgen, wordt de procedure met de kleinste kwadraten opnieuw gebruikt (least squares regression procedure). De procedure met de kleinste kwadraten voor een meervoudige regressie is vergelijkbaar met die in het vorige hoofdstuk voor eenvoudige regressie, behalve dat de berekening van de schatters (de regressiecoëfficiënten) gecompliceerd is door de relaties tussen de verschillende onafhankelijke variabelen die gelijktijdig optreden met de relatie tussen de onafhankelijke variabelen en de afhankelijke variabele. Voor nu is het voldoende om te weten dat de schattingen van de coëfficiënten en hun varianties altijd worden verkregen met behulp van een computer. Je hoeft deze schattingen niet handmatig te kunnen berekenen.

Wat betreft de assumpties voor een standaard meervoudige regressie, kunnen we zien dat er in totaal vijf assumpties zijn. De eerste vier assumpties zijn in feite hetzelfde als die voor eenvoudige regressie. Voor meervoudige regressie wordt er echter een vijfde assumptie aan de set toegevoegd. De vijfde assumptie is dat er geen directe lineaire relatie is tussen de Xj onafhankelijke variabelen. Vaak zorgt juiste modelspecificatie ervoor dat de vijfde assumptie niet wordt geschonden.

Stel dat er twee onafhankelijke variabelen X1 en X2 zijn en dat de steekproefcorrelatie tussen X1 en de afhankelijke variabele Y bekend is (rx1y), evenals de steekproefcorrelatie tussen X2 en Y (rx2y) en de steekproefcorrelatie tussen de twee onafhankelijke variabelen (rx1x2). Verder kennen we de standaardafwijking van de steekproef voor X1 (sx1), de standaardafwijking de steekproef voor X2 (sx2) en de standaardafwijking van de steekproef voor Y (sy). In dat geval kunnen we de regressiecoëfficiënten als volgt verkrijgen:

\[ b_{1} = \frac{ s_{y} (r_{x1y} - r_{x1x2}r_{x2y} ) }{s_{x1} (1 - r^{2}_{x1x2}) } \]

\[ b_{2} = \frac{s_{y} (r_{x2y} - r_{x1x2} r_{x1y} ) }{s_{x2} (1 - r^{2}_{x1x2})} \]

\[ b_{0} = \bar{y} - b_{1}\bar{x}_{1} - b_{2}\bar{x}_{2} \]

Merk op dat de hellingscoëfficiënt (b1) niet alleen afhankelijk is van de correlatie tussen Y en X1, maar ook wordt beïnvloed door de correlatie tussen de onafhankelijke variabelen en de correlatie tussen X2 en Y. Als, om welke reden dan ook, de correlatie tussen de onafhankelijke variabelen zijn gelijk aan 1, de schatters van de coëfficiënten zijn niet gedefinieerd. Dit zal echter zelden happpen en zal waarschijnlijk alleen het gevolg zijn van een slechte modelspecificatie en schending van de vijfde veronderstelling dat er geen directe lineaire relatie is tussen de onafhankelijke variabelen.

Ten slotte is het belangrijk om op het volgende te letten. Bij meervoudige regressie zijn de regressiecoëfficiënten voorwaardelijke coëfficiënten. Dat wil zeggen dat de geschatte coëfficiënt bl afhankelijk is van de andere onafhankelijke variabelen die in het model zijn opgenomen. De enige uitzondering op deze regel is wanneer twee onafhankelijke variabelen een steekproefcorrelatie van exact nul hebben. Dit is echter een zeer onwaarschijnlijke gebeurtenis.

Hoe kun je de verklarende power van een meervoudige regressie berekenen?

Om de veranderingen van een bepaalde afhankelijke variabele te verklaren, worden verschillende onafhankelijke variabelen gebruikt in een meervoudige regressie. De lineaire functie van deze onafhankelijke variabelen verklaart gedeeltelijk de variabiliteit in de afhankelijke variabele. In deze sectie ontwikkelen we een maat voor het aandeel van de variabiliteit in de afhankelijke variabele dat kan worden verklaard door het meervoudige regressiemodel. Deze procedure lijkt erg op die voor een eenvoudig regressiemodel.

Net als bij een eenvoudig regressiemodel, kan de variabiliteit van het model in twee componenten worden verdeeld: SST (totaal) = SSR (regressie) + SSE (fout). Hier verwijst SST naar de som van de kwadraten van de totale steekproefvariabiliteit, SSR verwijst naar de som van de kwadraten van de variabiliteit die wordt verklaard door de regressie en SSE verwijst naar de onverklaarbare variabiliteit, dat wil zeggen de som van de kwadraten van de variabiliteit van de fout.

De bepalingscoëfficiënt, R2, van de regressievergelijking wordt, vergelijkbaar met eerder, gedefinieerd als het deel van de totale steekproefvariabiliteit dat wordt verklaard door de regressie. Deze coëfficiënt wordt begrensd tussen nul en één, waarbij hogere getallen wijzen op een beter regressiemodel (meer variabiliteit van de afhankelijke variabele die wordt verklaard door het regressiemodel).

\[ R^{2} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]

Net als voorheen moet men voorzichtig zijn bij het maken van conclusies uit deze coëfficiënt. De R2 kan groot zijn omdat SSE klein is (wat aangeeft dat de punten dicht bij de voorspelde punten liggen) of omdat SST groot is, of beide.

Net als bij eenvoudige regressie kennen we meestal geen fouten in het populatiemodel. Daarom kan een onpartijdige schatting van de errorvariantie als volgt worden berekend:

\[ s^{2}_{e} = \frac{\sum^{n}_{i = 1} e^{2}_{i}}{n - K - 1} = \frac{SSE}{n - K - 1} \]

waarbij K het aantal onafhankelijke variabelen in het regressiemodel is. Door de wortel van deze onpartijdige schatting van de foutenvariantie te nemen, verkrijgen we de standaardfout van de schatting.

Voor meervoudige regressie is er een potentieel probleem met het gebruik van deze bepalingscoëfficiënt als een algemene maat voor de kwaliteit van een meervoudige regressie. Naarmate aanvullende onafhankelijke variabelen worden toegevoegd aan een meervoudig regressiemodel, zal de verklaarde som van de kwadraten (SSR) in wezen alle toegepaste situaties toenemen, zelfs als de aanvullende onafhankelijke variabele geen belangrijke voorspellende variabele is. Daarom kan de R2 "vals" toenemen nadat een of meer voorspellende variabelen zijn toegevoegd aan het meervoudige regressiemodel. Onder die omstandigheden is de stijgende waarde van de R2 misleidend. Om dit probleem op te lossen, is de aangepaste bepalingscoëfficiënt ontwikkeld, die als volgt is gedefinieerd:

\[ \bar{R}^{2} = 1 - \frac{SSE/(n - K - 1)}{SST/(n - 1)} \]

Deze aangepaste bepalingscoëfficiënt corrigeert voor het feit dat niet-relevante onafhankelijke variabelen resulteren in een (kleine) vermindering van de SSE. Als gevolg hiervan biedt de aangepaste bepalingscoëfficiënt een betere vergelijking tussen meerdere regressiemodellen met verschillende aantallen onafhankelijke variabelen.

Ten slotte is de coëfficiënt van meervoudige correlatie een correlatiecoëfficiënt die de relatie aangeeft tussen de voorspelde waarde en de waargenomen waarde van de afhankelijke variabele. De coëfficiënt van meervoudige correlatie is gedefinieerd als:

\[ R = r(\hat{y},y) = \sqrt{R^{2}} \]

Zoals te zien is in de bovenstaande vergelijking, is de coëfficiënt van meervoudige correlatie gelijk aan de vierkantswortel van de meervoudige bepalingscoëfficiënt. Daarom kan R worden gebruikt als een andere maat voor de sterkte van de relatie tussen de afhankelijke variabele en de verschillende onafhankelijke variabelen. Het is vergelijkbaar met de correlatie tussen Y en X in een eenvoudige regressievergelijking.

Hoe kun je betrouwbaarheidsintervallen en hypothesetests voor individuele regressiecoëfficiënten berekenen?

Over het algemeen hangen de betrouwbaarheidsintervallen en hypothesetoetsen af van de variantie van de coëfficiënten en de kansverdeling van de coëfficiënten. De variantie van een coëfficiëntschatting wordt beïnvloed door: (1) de steekproefgrootte; (2) de spreiding van de onafhankelijke variabelen; (3) de correlaties tussen de onafhankelijke variabelen, en; (4) de model error term. Een hogere correlatie tussen de onafhankelijke variabelen vergroot de variantie van de coëfficiëntschatter. Een belangrijke conclusie hier is dat de variantie van de coëfficiëntschatter afhankelijk is van de volledige set van de onafhankelijke variabelen in het regressiemodel (naast de coëfficiëntschatter zelf).

Als de assumpties voor een standaard meervoudige regressie gelden en de fouttermen normaal worden verdeeld, kan de teststatistiek als volgt worden berekend:

\[ t_{bj} = \frac{b_{j} - \beta_{j}}{s_{b_{j}}} \]

met j = 1, 2, ..., K (waarbij K het aantal onafhankelijke variabelen is). Deze teststatistiek volgt een Student's t verdeling met (n - K - 1) vrijheidsgraden.

Vervolgens kunnen de betrouwbaarheidsintervallen voor de βj (voor een tweezijdige test) als volgt worden berekend:

\[ b_{j} - t_{n-K-1,\alpha/2s_{bj}} < \beta_{j} < b_{j} + t_{n-K-1,\alpha/2s_{bj}} \]

De meest geteste nulhypothese is: H0: βj = 0. Deze test wordt gebruikt om te bepalen of een specifieke onafhankelijke variabele voorwaardelijk belangrijk is in een meervoudig regressiemodel. Vaak wordt beweerd dat als we de voorwaardelijke hypothese dat de coëfficiënt 0 is, niet kunnen worden verworpen, we moeten concluderen dat de variabele niet moet worden opgenomen in het meervoudige regressiemodel. Doorgaans wordt de teststatistiek voor een tweezijdige hypothesetest berekend in de meeste regressieprogramma's en afgedrukt naast de schatting van de coëfficiëntvariantie. Bovendien is meestal een p-waarde opgenomen die de significantie van de hypothesetest aangeeft. Met behulp van deze p-waarde kan men concluderen of een bepaalde voorspellende variabele voorwaardelijk significant is gezien de andere variabelen in het regressiemodel. Merk echter op dat de voorgaande selectieprocedure de type II-fout negeert (dat wil zeggen: de populatiecoëfficiënt is niet gelijk aan 0, maar we negeren de nulhypothese niet). Dit kan bijvoorbeeld gebeuren vanwege een grote fout of een grote correlatie tussen onafhankelijke variabelen of beide.

Hoe kun je betrouwbaarheidsintervallen en hypothesetests voor multipele regressiecoëfficiënten berekenen?

In de vorige paragraaf is aangetoond hoe een conditionele hypothese moet worden geformuleerd en getest om te bepalen of een specifieke variabele coëfficiënt voorwaardelijk significant is in een regressie-schimmel. Soms zijn onderzoekers echter geïnteresseerd in het effect van de combinatie van verschillende variabelen. Deze kwestie zal in deze sectie worden besproken.
Als de nulhypothese is dat alle regressiecoëfficiënten gelijk zijn aan 0 en deze hypothese klopt, dan is de gemiddelde kwadratische regressie
\[ MSR = \frac{SSR}{K} \]
ook een maat voor fouten met K vrijheidsgraden. Hieruit resulteert de volgende F-ratio:
\[ F = \frac{SSR/K}{SSE/(n - K - 1)} = \frac{MSR}{s^{2}_{e}} \]
Deze verhouding volgt een F-verdeling met K vrijheidsgraden voor de teller en (n - K - 1) vrijheidsgraden voor de noemer. Als de nulhypothese waar is, geven zowel de teller als de noemer schattingen van de populatievariantie. Net als eerder wordt de berekende F-waarde vergeleken met de kritische F-waarde uit appendix Tabel 9. Als de berekende F-waarde de kritische F-waarde overschrijdt, kan de nulhypothese worden verworpen en kan worden geconcludeerd dat ten minste één coëfficiënt niet gelijk aan 0.

Inmiddels hebben we hypothesetests ontwikkeld voor individuele regressieparameters en voor alle regressieparameters samen. Vervolgens hebben we een hypothesetest ontwikkeld voor een subset van regressieparameters. Als in dat geval de nulhypothese waar is, geeft dit aan dat de Zj variabelen niet in het meervoudige regressiemodel moeten worden opgenomen, omdat ze geen aanvullende uitleg bieden met betrekking tot de wijzigingen van de afhankelijke variabele die verder gaan dan wat al door de Xj variabelen wordt uitgelegd.

Hoe kun je voorspellingen verkrijgen op basis van een meervoudige regressie?

Een belangrijke toepassing van regressiemodellen, eenvoudig of meervoudig, is het voorspellen of voorspellen van waarden van de afhankelijke variabele, gegeven waarden voor de onafhankelijke variabele (n). Voor eenvoudige regressiemodellen zagen we in hoofdstuk 11 dat het voorspellingsinterval de verwachte waarde van Y met waarschijnlijkheid 1 - α omvat. Voor meerdere regressiemodellen bevat het voorspellingsinterval daarentegen individuele voorspelde waarden (verwachte waarden van Y plus de willekeurige foutterm). Om deze intervallen te verkrijgen, moeten we schattingen van de standaardafwijkingen berekenen voor de verwachte waarde van Y en voor de afzonderlijke punten. Qua vorm zijn deze berekeningen vergelijkbaar zoals eerder getoond. Toch zijn de schattingsvergelijkingen veel gecompliceerder en vallen ze buiten het bestek van dit boek. Voorspelde waarden, betrouwbaarheidsintervallen en voorspellingsintervallen kunnen daarom direct worden berekend in bijvoorbeeld de Minitab-regressieroutine.

Hoe kunnen niet-lineaire regressiemodellen worden gewijzigd zodat het lineare regressie model kan worden toegepast?

Tot nu toe hebben we besproken hoe regressieanalyse kan worden gebruikt om lineaire relaties te schatten die een afhankelijke variabele voorspellen of schatten als functie van een of meer onafhankelijke variabelen. Soms zijn de relaties tussen variabelen echter niet strikt lineair. Daarom worden in deze sectie verschillende procedures besproken die kunnen worden gebruikt voor het wijzigen van bepaalde niet-lineaire modelformaten zodat meerdere regressieprocedures kunnen worden toegepast. Met zorgvuldige manipulatie van niet-lineaire modellen is het mogelijk om de least squares regressie te gebruiken.

Kwadratische transformaties

Laten we eerst eens kijken naar het geval van de kwadratische functie

\[ Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon \]

die kan worden omgezet in een lineair meervoudig regressiemodel door de volgende nieuwe variabelen te definiëren:

\[ z_{1} = x_{1} \]

\[ z_{2} = x^{2}_{1} \]

Vervolgens kan het model als volgt worden geformuleerd:

\[ y_{i} = \beta_{0} + \beta_{1}z_{1i} + \beta_{2}z_{2i} + \epsilon_{i} \]

Dit model is lineair in de getransformeerde variabelen. Deze getransformeerde kwadratische variabelen kunnen worden gecombineerd met andere variabelen in een meervoudig regressiemodel. Inferentieprocedures voor getransformeerde variabelen zijn gelijk aan die voor lineaire modellen, die we eerder hebben besproken. De coëfficiënten moeten worden gecombineerd voor interpretatie. Dat wil zeggen, als we een kwadratisch model hebben, wordt het effect van een onafhankelijke variabele X aangegeven door de coëfficiënten van zowel de lineaire als de kwadratische termen. Verder kan worden getest of het kwadratische of het originele lineaire model beter geschikt is voor de gegevens.

Logaritmische transformaties

Coëfficiënten voor exponentiële modellen met de vorm

\[ Y = \beta_{0} X^{\beta_{1}}_{1} X^{\beta_{2}}_{2} \epsilon \]

kunnen worden geschat door eerst de logaritme van beide zijden te nemen om een ​​vergelijking te verkrijgen die lineair is in de logaritmen van de variabelen. In de formule is dat:
\[ log(Y) = log(\beta_{0}) + \beta_{1} log(X_{1}) + \beta_{2} log(X_{2}) + log(\epsilon) \]

Houd er rekening mee dat deze schattingsprocedure vereist dat de willekeurige fouten multiplicatief zijn in het oorspronkelijke exponentiële model. Met andere woorden, de foutterm wordt uitgedrukt als een procentuele toename of afname in plaats van door het optellen of aftrekken van een willekeurige fout, zoals we hebben gezien voor lineaire regressiemodellen.

Hoe kunnen regressiemodellen worden toegepast bij dummy variabelen?

Tot dusverre zijn we er bij de bespreking van meervoudige regressiemodellen van uitgegaan dat de onafhankelijke variabelen vaste waarden zijn en dat deze waarden over een bereik van veel verschillende waarden bestaan. Het is echter mogelijk dat de onafhankelijke variabele een dummy variabele, dat is een variabele met slechts twee mogelijke waarden: 0 en 1. Stel nu dat we het volgende meervoudige lineaire regressiemodel hebben:

\[ Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} \]

Wanneer X2 = 0 in dit model, dan is de constante β0 maar wanneer X2 = 1, dan is de constante β0 + β2. Dit laat zien dat de dummy variabele de lineaire relatie tussen Y en X1 verschuift met de waarde van de coëfficiënt β2. Dummy variabelen worden daarom ook indicator variabelen genoemd.

Naast hun gebruik voor het testen van het intercept, kunnen dummy variabelen ook worden gebruikt om te testen op verschillen in de hellingscoëfficiënt. Dit wordt gedaan door een interactie variabele toe te voegen. Ten eerste moet het regressiemodel als volgt worden uitgebreid:

\[ Y = \beta_{0} + \beta_{2}X_{2} + (\beta_{1} + \beta_{3}X_{2}) X_{1} \]

Uit dit model blijkt dat de hellingscoëfficiënt van X1 twee componenten bevat: β1 en β3X2. Als X2 gelijk is aan 0, is de helling de gebruikelijke β1. Maar als X2 = 1, dan is de helling gelijk aan de algebraïsche som van β1 + β3. Om dit model te schatten, moeten we het voorbeeldschattingsmodel gebruiken, dat wordt gedefinieerd door:

\[ \hat{y} = b_{0} + b_{2}x_{2} + b_{1}x_{1} + b_{3}x_{2}x_{1} \]

De resulterende regressie vergelijking is nu lineair met drie variabelen. De nieuwe variabele (x1x2) wordt de interactie variabele genoemd. Wanneer de dummy variabele x2 = 0, dan is deze interactie variabele ook nul. Maar wanneer x2 = 1, dan heeft de interactie variabele de waarde van x1. De coëfficiënt b3 is vervolgens een schatting van het verschil in de coëfficiënt van x1 wanneer x2 = 1 vergeleken met wanneer x2 = 0. De Student's t test statistiek voor β3 kan worden gebruikt om de volgende hypothese te testen:

\[ H_{0}: \beta_{3} = 0 | \beta_{1} \neq 0, \beta_{2} \neq 0 \]

\[ H_{1}: \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0 \]

Als de nulhypothese wordt verworpen, kan worden geconcludeerd dat er een verschil is in de hellingscoëfficiënt tussen de twee subgroepen.

 

In het vorige hoofdstuk werd de enkelvoudige regressie geïntroduceerd. Een enkelvoudige regressie is een procedure voor het verkrijgen van een lineaire vergelijking die een afhankelijke (endogene) variabele voorspelt als functie van een enkele onafhankelijke (exogene) variabele. In de praktijk is het echter vaak het geval dat meerdere onafhankelijke variabelen gezamenlijk een afhankelijke variabele beïnvloeden. Daarom wordt in dit hoofdstuk de meervoudige regressie besproken, wat een procedure is voor het verkrijgen van een lineaire vergelijking die een afhankelijke (endogene) variabele voorspelt als functie van meerdere onafhankelijke (exogene) variabelen.

 

 

Welke andere onderwerpen zijn belangrijk in regressie analyse? - Chapter 13

 

 

Over het algemeen is het doel van een regressieanalyse om informatie over de onafhankelijke variabele (n) te gebruiken om het gedrag van de afhankelijke variabele te verklaren en voorspellingen over deze afhankelijke variabele af te leiden. Verder kunnen de model coëfficiënten ook worden gebruikt om de veranderingssnelheid van de afhankelijke variabele te schatten als het resultaat van veranderingen in een onafhankelijke variabele, afhankelijk van een bepaalde set van andere onafhankelijke variabelen die in het model zijn opgenomen en die vast blijven. In dit hoofdstuk zullen we een aantal alternatieve specificaties bespreken. Bovendien zullen we situaties beschouwen waarin de basale aannames van regressie worden geschonden.

Wat zijn de vier fasen van modelbouw?

We leven in een complexe wereld en eigenlijk gelooft niemand echt dat we de complexiteit van economie en zakelijk gedrag exact kunnen vastleggen in een of meer vergelijkingen. Zoals de beroemde statisticus George Box ooit zei: "Alle modellen kloppen niet, maar sommige zijn nuttig". De kunst van het modelbouwen erkent de onmogelijkheid om alle vele individuele invloeden op een afhankelijke variabele weer te geven en probeert de meest invloedrijke te selecteren. Dit proces van modelbouw is probleemspecifiek. Dat betekent dat het afhangt van wat bekend is over het gedrag van de onderzochte variabelen en welke gegevens beschikbaar zijn.

Modelbouw bestaat uit vier fasen:

  1. modelspecificatie
  2. coëfficiëntschatting
  3. modelverificatie
  4. interpretatie en gevolgtrekking

De eerste fase, modelspecificatie, omvat de selectie van de afhankelijke en onafhankelijke variabelen, evenals de selectie van de algebraïsche vorm van het model. Daarbij wordt gezocht naar een specificatie die een adequate weergave van het systeem en het proces van belang biedt. Theorie en verzamelde onderzoekservaringen bieden de context voor de modus. Literatuur moet zorgvuldig worden bestudeerd en deskundigen moeten worden geraadpleegd. In feite kan het nodig zijn om aanvullend onderzoek te doen en misschien anderen op te nemen die belangrijke inzichten hebben.

Nadat het model is gespecificeerd, omvat het meestal verschillende onbekende coëfficiënten of parameters. In de tweede fase worden deze coëfficiënten of parameters daarom geschat met behulp van voorbeeldgegevens. Daarbij worden betrouwbaarheidsintervallen opgebouwd rond de schattingen.

In de derde fase wordt het model geverifieerd. In feite komen vereenvoudigingen en veronderstellingen waarschijnlijk voor bij het vertalen van inzichten uit de modelspecificatie in algebraïsche vormen en bij het selecteren van gegevens voor modelschatting. Aangezien sommige van deze vereenvoudigingen en veronderstellingen onhoudbaar kunnen blijken, is het belangrijk om de toereikendheid van het model te controleren. Meer specifiek, na het schatten van een regressievergelijking, kunnen we vaststellen dat de schattingen niet kloppen, gezien wat we weten over het proces. Als dit het geval is, moeten de veronderstellingen, modelspecificatie en gegevens worden onderzocht. Dit kan ertoe leiden dat we een andere modelspecificatie overwegen. Daarom is een "feedback" -lus opgenomen in deze procedure met vier fasen, met een pijl van de derde fase terug naar de eerste fase.

In de vierde en laatste fase wordt het model geïnterpreteerd en worden conclusies getrokken over de populatie. Hier moet worden erkend dat er altijd het gevaar bestaat dat er verkeerde conclusies worden getrokken. Meer specifiek, hoe ernstiger specificaties of schattingsfouten, des te minder betrouwbare gevolgtrekkingen afgeleid van het geschatte model.

Hoe kunnen dummy variabelen worden gebruikt in experimentele designs?

Al jaren vormen experimentele studie designs een belangrijk gebied van statistisch onderzoek en praktijk. In dergelijke experimentele ontwerpmodellen biedt dummy variabele regressie een nuttig hulpmiddel. Als het experiment bijvoorbeeld een enkele uitkomstvariabele heeft die alle voorwaarden voor willekeurige fouten bevat. Elke experimentele uitkomst wordt vervolgens gemeten bij discrete combinaties van experimentele (onafhankelijke) variabelen Xj.

Experimentele designs verschillen op een heel belangrijke manier van de meeste modellen die we tot nu toe hebben besproken. Meer precies, het doel van een experimenteel ontwerp is om oorzaken voor de veranderingen in de afhankelijke variabele te identificeren. Het is dus sterk gericht op het causale verband, in plaats van eenvoudigweg een verband tussen afhankelijke en onafhankelijke variabelen te identificeren. Daarbij is het belangrijk om experimentele punten te kiezen, gedefinieerd door onafhankelijke variabelen, die minimale variantie-schatters bieden. De volgorde waarin de experimenten worden uitgevoerd, wordt willekeurig gekozen om vertekeningen door variabelen die niet in het experiment zijn opgenomen te voorkomen.

In een experimenteel ontwerp wordt de experimentele uitkomst (Y) gemeten op specifieke combinaties van niveaus voor behandeling en blokkeervariabelen. Een behandelingsvariabele is een variabele waarvan we het effect willen schatten met minimale variantie. We willen bijvoorbeeld graag weten welke van de vijf verschillende productiemachines de hoogste productiviteit per uur biedt. Voor dit voorbeeld is de behandelingsvariabele de productiemachine, vertegenwoordigd door een categorische variabele met vier niveaus. Een blokkerende variabele is een variabele die deel uitmaakt van de omgeving. Daarom kan het variabele niveau van een dergelijke variabele niet vooraf worden geselecteerd. We willen echter nog steeds het niveau van de blokkeervariabele in het model opnemen, zodat we de variabiliteit in de uitkomstvariabele (Y) kunnen verwijderen die te wijten is aan verschillende niveaus van de blokkeervariabele. Een behandelings- of blokkeervariabele met K-niveaus kan worden voorgesteld door K - 1 dummyvariabelen.

Wat wordt er bedoeld met een vertraagde waarde?

Wanneer tijdreeksen worden geanalyseerd (d.w.z. wanneer metingen in de loop van de tijd worden genomen) zijn vertraagde waarden van de afhankelijke variabele een belangrijk probleem. Vaak is in tijdreeksgegevens de afhankelijke variabele in tijdsperiode t gerelateerd aan de waarde die door deze afhankelijke variabele wordt genomen in een eerdere tijdsperiode, dat is yt-1. De vertraagde waarde is dan de waarde van de afhankelijke variabele in deze vorige periode.

Wat wordt er bedoeld met specificatiebias?

Het is een delicate en moeilijke taak om een ​​statistisch model adequaat te specificeren. Aanzienlijke afwijkingen van het model van de werkelijkheid kunnen leiden tot conclusies die ernstig onjuist zijn. Bij het formuleren van een regressiemodel nemen we impliciet aan dat de set van onafhankelijke variabelen alle grootheden bevat die de veranderingen van de afhankelijke variabele aanzienlijk beïnvloeden. In werkelijkheid zijn er echter waarschijnlijk aanvullende variabelen die ook de afhankelijke variabele beïnvloeden. De gezamenlijke invloed van deze factoren wordt vastgelegd met de foutterm. Er kan echter een serieus probleem optreden als een belangrijke variabele wordt weggelaten in de lijst met onafhankelijke variabelen. Dat wil zeggen, wanneer belangrijke voorspellende variabelen uit het model worden weggelaten, zijn de schattingen van de kleinste kwadraten (least squares) van de coëfficiënten in het model meestal bevooroordeeld (gebiased) en kunnen de gebruikelijke inferentiële uitspraken uit de hypothesetests of betrouwbaarheidsintervallen ernstig misleidend zijn. Bovendien wordt het effect van de ontbrekende variabelen in plaats daarvan vastgelegd in de foutterm, die daarom groter is. Alleen in het zeer zeldzame geval waarin de weggelaten variabelen volledig niet gecorreleerd zijn met de andere onafhankelijke variabelen, treedt deze afwijking in de schatting van coëfficiënten niet op.

Wat is multicollineariteit?

Als een lineair regressiemodel correct wordt gespecificeerd en aan alle veronderstellingen wordt voldaan, zijn de schattingen van de kleinste kwadraten de beste die kunnen worden bereikt. Soms is het model echter niet correct gespecificeerd of wordt niet aan alle veronderstellingen voldaan. Stel dat gegevens van een concurrerende productmarkt worden gebruikt om de relatie tussen de verkochte hoeveelheid en de prijs te schatten wanneer ook de prijs van de concurrent is inbegrepen. Omdat beide concurrenten op dezelfde markt actief zijn, hebben zij de neiging hun prijzen aan te passen wanneer de andere concurrent een prijsaanpassing uitvoert. In statistische termen illustreert dit voorbeeld de situatie waarin de geschatte coëfficiënten niet statistisch significant zijn en daarom misleidend kunnen zijn, zelfs wanneer het werkelijke effect van de onafhankelijke variabele op de afhankelijke variabele vrij sterk is. Dit voorbeeld verwijst naar multicollineariteit, wat een toestand is van zeer hoge intercorrelaties tussen de onafhankelijke variabelen. Het is een soort storing in de gegevens. Als multicollineariteit aanwezig is in de gegevens, zijn statistische inferenties over de populatie mogelijk niet betrouwbaar.

Er zijn een aantal indicatoren voor multicollineariteit. De eerste indicator is: regressiecoëfficiënten verschillen aanzienlijk van waarden die worden aangegeven door theorie of ervaring, inclusief een onjuist teken. De tweede indicator is: coëfficiënten van variabelen waarvan wordt aangenomen dat ze een sterke invloed hebben, hebben kleine Student's t statistieken die aangeven dat hun waarden niet van 0 verschillen. De derde indicator is: Alle coëfficiënt Student's t statistieken zijn klein, zonder enig individueel effect, en toch de algemene F-statistiek geeft een sterk effect aan voor het totale regressiemodel. En de vierde en laatste indicator is: hoge correlaties tussen individuele onafhankelijke variabelen of een of meer van de onafhankelijke variabelen hebben een sterke lineaire associatie met de andere onafhankelijke variabelen, of een combinatie van beide.

Er zijn drie benaderingen die kunnen worden gebruikt om te corrigeren voor multicollineariteit. Verwijder eerst een of meer van de sterk gecorreleerde onafhankelijke variabelen. Houd er echter rekening mee dat dit kan leiden tot een vertekening (bias) van de coëfficiëntschatting. Ten tweede, verander de modelspecificatie, inclusief mogelijk een nieuwe onafhankelijke variabele die een functie is van verschillende gecorreleerde onafhankelijke variabelen. En ten derde, verkrijg aanvullende gegevens die niet dezelfde sterke correlaties hebben tussen de onafhankelijke variabelen.

Wat is heteroscedasticiteit?

Eerder hebben we de verschillende assumpties voor lineaire regressie-analyse en de kleinste kwadratenmethode besproken. Wanneer aan deze assumpties wordt voldaan, biedt de least squares regressie een krachtige set statistische hulpmiddelen voor de analyse. Wanneer echter één of meer van deze veronderstellingen worden geschonden, kunnen de geschatte regressiecoëfficiënten inefficiënt zijn. En nog belangrijker, de hieruit getrokken conclusies kunnen onjuist en misleidend zijn.

In deze en de volgende paragraaf bespreken we de schending van twee van deze assumpties. Eerst zullen we in deze sectie de schending van uniforme variaties bespreken. Vervolgens zullen we in het volgende gedeelte de schending van niet-gecorreleerde foutvoorwaarden bespreken.

In empirische toepassingen is het niet zo onwaarschijnlijk dat de aanname van uniforme afwijkingen wordt geschonden. Stel bijvoorbeeld dat we geïnteresseerd zijn in de factoren die de output van een bepaalde industrie beïnvloeden. Om dit te onderzoeken, worden gegevens verzameld van verschillende bedrijven. Zowel outputmetingen als waarschijnlijke voorspellers worden beoordeeld. Als deze bedrijven verschillende groottes hebben, zal de totale output variëren. Bovendien is het waarschijnlijk dat de grotere bedrijven ook een grotere variantie in hun outputmaat zullen hebben in vergelijking met de kleinere bedrijven. Dit is te wijten aan het feit dat er in een groot bedrijf simpelweg meer factoren zijn die de fouttermen beïnvloeden dan in een klein bedrijf. Daarom wordt verwacht dat de fouttermen zowel in positieve als in negatieve zin groter zijn.

Van modellen waarin de fouttermen geen uniforme (d.w.z. gelijke) variantie hebben, wordt gezegd dat ze heteroscedasticiteit vertonen. Aan de andere kant, als de fouttermen in een model wel een uniforme variantie hebben, dan zeggen we dat het model homoscedasticiteit vertoont. Als heteroscedasticiteit aanwezig is (dus schending van de assumptie van uniforme variantie), dan is de least squares regressieprocedure voor het schatten van de regressiecoëfficiënten niet de meest efficiënte procedure. Bovendien zijn de gebruikelijke (standaard) procedures voor het testen van hypothesen en het afleiden van betrouwbaarheidsintervallen niet langer geldig.

Het is daarom belangrijk om een ​​procedure uit te voeren om te testen op mogelijke heteroscedasticiteit. Hiervoor zijn verschillende procedures. Veel gebruikelijke procedures controleren de aanname van constante foutafwijkingen ten opzichte van een plausibel alternatief. Het kan blijken dat de grootte van de foutvariantie direct gerelateerd is aan een van de onafhankelijke (voorspellende) variabelen. Een andere mogelijkheid is dat de variaties toenemen met de verwachte waarde van de afhankelijke variabele. Een ander nuttig hulpmiddel voor het controleren van heteroscedasticiteit is door grafieken te onderzoeken, bijvoorbeeld een spreidingsdiagram van de residuen versus de onafhankelijke variabelen en de voorspelde waarden uit de regressie. Als de stippen mooi verdeeld zijn over de horizontale lijn, is er geen (voldoende) bewijs voor heteroscedasticiteit. Als aan de andere kant de grootte van de fouttermen de neiging heeft toe te nemen (of af te nemen) met toenemende waarden van de onafhankelijke variabele, is dit een indicatie van heteroscedasticiteit. Een andere, meer formele procedure om heteroscedasticiteit te controleren, is door de nulhypothese te testen dat de fouttermen allemaal dezelfde variantie hebben ten opzichte van de alternatieve hypothese dat hun varianties afhankelijk zijn van de verwachte waarden. In deze herhaling is de afhankelijke variabele het kwadraat van de residuen (d.w.z. e2i) en is de onafhankelijke variabele de voorspelde waarde.

\[ e^{2}_{i} = a_{0} + a_{1} \hat{y}_{i} \]

Laat nu R2 de bepalingscoëfficiënt zijn voor deze hulpregressie. In die test, waarbij een significantieniveau van α wordt gebruikt, wordt de nulhypothese verworpen als nR2 groter is dan X21,a (wat de kritische waarde is van de chi-kwadraatvariabele met 1 vrijheidsgraad en significantielevel α en steekproefgrootte n).

Wat is de invloed van autocorrelatie in de fouttermen?

In dit gedeelte bespreken we de schending van de veronderstelling van niet-gecorreleerde foutvoorwaarden. Wat is het effect op het regressiemodel als de fouttermen gecorreleerd lijken aan de ene waarneming van een andere? Tot dit punt zijn we ervan uitgegaan dat de willekeurige fouten voor ons model onafhankelijk zijn. Dit kan echter niet het geval zijn. Vooral in tijdreeksgegevens is het vaak zo dat de willekeurige fouten in een model van elkaar afhankelijk zijn. Vaak is het gedrag van veel van de onderzochte factoren vrij gelijkaardig gedurende verschillende tijdsperioden, wat een hoge correlatie in de tijd oplevert. Deze correlaties tussen fouttermen uit aangrenzende tijdsperioden zijn heel gebruikelijk in modellen die zijn gebouwd met behulp van tijdreeksgegevens. Daarom is het belangrijk om in regressiemodellen met tijdreeksgegevens de hypothese te testen dat de fouttermen niet met elkaar gecorreleerd zijn. Correlaties tussen fouttermen van de eerste orde door de tijd heen worden autocorrelatiefouten genoemd. Overweeg de volgende vergelijking:

\[ Corr(\epsilon_{t}, \epsilon_{t-1}) = \rho \]

waarbij ρ de correlatiecoëfficiënt (bereik -1 tot +1) is tussen de fout in tijd t en de fout in het vorige tijdstip, dat is t - 1. Als ρ = 0 betekent dit dat er geen autocorrelatie is. Waarden rond ρ = 0,3 duiden op relatief zwakke autocorrelaties. Waarden rond ρ = 0,90 duiden op een vrij sterke autocorrelatie. Voor fouten die worden gescheiden door l-perioden, kan de autocorrelatie als volgt worden gemodelleerd:

\[ Corr(\epsilon_{t}, \epsilon_{t-l}) = \rho^{l} \]

Hieruit blijkt dat de correlatie snel vervalt naarmate het aantal scheidingsperioden groeit. Met andere woorden, de correlatie tussen fouten die in de tijd ver uit elkaar liggen, is relatief zwak, terwijl de correlatie tussen fouten die in de tijd dichter bij elkaar liggen mogelijk vrij sterk is. Als we nu aannemen dat de fouten allemaal dezelfde variantie hebben, is het mogelijk om aan te tonen dat de autocorrelatiestructuur gelijk is aan het volgende model:

\[ \epsilon_{t} = \rho \epsilon_{t - 1} + u_{t} \]

waarbij de willekeurige variabele ut gemiddelde 0 en constante variantie σ2 heeft en niet autocorrelatief is. Dit model wordt ook wel het eerste-orde autoregressieve model van autocorrelatiegedrag genoemd. Als we deze vergelijking nader bekijken, kan worden gezien dat de waarde van de fout op tijdstip t afhankelijk is van de waarde in het vorige tijdstip (de sterkte van die afhankelijkheid wordt bepaald door de correlatiecoëfficiënt ρ) en van een tweede willekeurige fout termijn μt.

De meest gebruikte teststatistiek om te testen op autocorrelatie is de Durbin-Watson-test, aangeduid met d. In deze test is de nulhypothese als volgt geformuleerd: H0: ρ = 0. Dit kan worden getoetst aan de alternatieve hypothese: H1: ρ > 0. De teststatistiek d wordt als volgt berekend:

\[ d = \frac{ \sum^{n}_{t = 2} (e_{t} - e_{t-1})^{2} }{\sum^{n}_{t=1} e^{2}_{t}} \]

waarbij de et de residuen zijn wanneer de regressievergelijking wordt geschat door de kleinste kwadraten. De beslissingsregels zijn als volgt: H0 weigeren als d> dL. Accepteer H0 als d > du. Test niet overtuigend als dL < d < dU. Hierin zijn dL en dU getabelleerd voor waarden van n en K en voor significantieniveaus van 1% en 5% in Bijlage Tabel 12.

Soms willen we de nulhypothese toetsen aan de alternatieve hypothese H1: ρ < 0. In dat geval zijn de beslissingsregels als volgt: Weigeer H0 als d > 4 - dL. Accepteer H0 als d < 4 - du. Test niet overtuigend indien 4 - dL> d > 4 - dU.

Ten slotte is er een eenvoudige procedure om de seriële correlatie te schatten, dat wil zeggen:
\[ r = 1 - \frac{d}{2} \]

 

Over het algemeen is het doel van een regressieanalyse om informatie over de onafhankelijke variabele (n) te gebruiken om het gedrag van de afhankelijke variabele te verklaren en voorspellingen over deze afhankelijke variabele af te leiden. Verder kunnen de model coëfficiënten ook worden gebruikt om de veranderingssnelheid van de afhankelijke variabele te schatten als het resultaat van veranderingen in een onafhankelijke variabele, afhankelijk van een bepaalde set van andere onafhankelijke variabelen die in het model zijn opgenomen en die vast blijven. In dit hoofdstuk zullen we een aantal alternatieve specificaties bespreken. Bovendien zullen we situaties beschouwen waarin de basale aannames van regressie worden geschonden.

 

 

Hoe kun je categorische data analyseren? - Chapter 14

 

 

Hebben klanten een voorkeur voor een bepaalde burger van MacDonald's? Zijn de voorkeuren van mensen voor een bepaalde politieke kandidaat afhankelijk van kenmerken, zoals leeftijd, geslacht of land van herkomst? Hebben studenten van een bepaalde universiteit een voorkeur voor een van de drie statistiekdocenten? Deze vragen zijn slechts enkele voorbeelden van de soorten vragen die we in dit hoofdstuk zullen behandelen. Meer specifiek wordt in dit hoofdstuk het onderwerp niet-parametrische tests besproken. Niet-parametrische tests zijn vaak de juiste procedure om statistische conclusies te trekken over kwalitatieve (d.w.z. nominale of ordinale) gegevens of numerieke gegevens waarin de veronderstelling van normaliteit niet kan worden gemaakt over de waarschijnlijkheidsverdeling van de populatie.

Welke test moet worden uitgevoerd wanneer gegevens worden gegenereerd door een volledig gespecificeerde kansverdeling?

Laten we eerst de situatie bekijken waarin gegevens worden gegenereerd door een volledig gespecificeerde kansverdeling. De meest eenvoudige test van dit type is de goodness-of-fit-test. In deze test specificeert de nulhypothese over de populatie de waarschijnlijkheden dat een steekproef observatie in elke mogelijke categorie valt. Vervolgens worden de steekproefobservaties zelf gebruikt om deze hypothese te controleren. Als de nulhypothese waar is, geeft dit aan dat de waargenomen gegevens in elke categorie dicht bij de waarde liggen van de verwachte getallen in elke categorie. In dat geval zouden de gegevens nauw aansluiten bij de veronderstelde populatieverdeling van kansen.

Om deze hypothese te testen, worden de waargenomen observaties (Oi) vergeleken met de verwachte observaties (Ei) met behulp van de volgende beslissingsregel:

\[ Verwerp \hspace{1mm} H_{0} \hspace{1mm} als \hspace{1mm} \sum^{K}_{i = 1} \frac{ (O_{i} - E_{i} )^{2}}{E_{i}} > \chi^{2}_{K-1, \alpha} \]

waarbij X2k-1,a het getal is waarvoor geldt:

\[ P(\chi^{2}_{K - 1} > \chi^{2}_{K - 1, \alpha} = \alpha ) \]

en de random variabele X2K-1 volgt een chikwadraatverdeling met K - 1 vrijheidsgraden. Hier is K het aantal categorieën van de variabele. Merk op dat deze hypothesetest alleen geldig is wanneer de steekproefgrootte groot genoeg is (that is, er moeten ten minste vijf verwachte waarnemingen in elke cel zijn).

Stel dat we geïnteresseerd zijn in de voorkeur die universitaire studenten hebben voor een van de drie statistiekdocenten op de faculteit. De nulhypothese is dat de studenten geen specifieke voorkeur hebben en dat de waarschijnlijkheid voor elk van de drie leraren gelijk is (dat is 1/3). Wij verkrijgen de volgende gegevens:

CategorieLeraar ALeraar BLeraar CTotaal
Geobserveerde frequenties75110115300
Kans (onder H0)1/31/31/31
Vereachte frequenties (onder H0)100100100300

Om de nulhypothese te testen, moeten we eerst de teststatistiek berekenen. Dit gebeurt als volgt:

\[ \chi^{2} = \sum^{3}_{i = 1} \frac{(O_{i} - E_{i})^{2} }{E_{i}} = \frac{ (75 - 100)^{2} }{100} + \frac{ (110 - 100)^{2} }{100} + \frac{ (115 - 100)^{2} }{100} = 9.50 \]

Omdat er drie categorieën zijn (leraar A, leraar B en leraar C), zijn er K - 1 = 2 vrijheidsgraden. De bijbehorende kritische waarde van deze test als we testen met een significantieniveau van 1% is: X22,0.01 = 9.210. Daarom overtreft de teststatistiek volgens de beslissingsregel de kritieke waarde en kan de nulhypothese dus worden afgewezen op een significantieniveau van 1%. De gegevens leveren daarom sterk bewijs tegen de hypothese dat de leraren even waarschijnlijk de voorkeur hebben van de universitaire studenten.

Hoe kun je goodness-of-fit testen toepassen wanneer de populatieparameters onbekend zijn?

In de vorige paragraaf gingen we ervan uit dat de gegevens werden gegenereerd door een volledig gespecificeerde kansverdeling. Daarbij geeft de nulhypothese in een dergelijke test de waarschijnlijkheid aan dat een monsterobservatie in een categorie valt. Het is echter vaak nodig om de hypothese te testen dat de gegevens worden gegenereerd door een bepaalde distributie, zoals de binomiale of de Poisson-verdeling, zonder aan te nemen dat de parameters van die verdeling bekend zijn. Als de populatieparameters onbekend zijn, is de juiste goodness-of-fit-test met geschatte populatieparameters vergelijkbaar met die ontwikkeld in de vorige sectie, behalve dat het aantal vrijheidsgraden voor de chi-square random variabele is (K - m - 1) waar K het aantal categorieën is en m het aantal onbekende populatieparameters.

Test voor Poisson-verdeling

Stel dat we testen of de gegevens worden gegenereerd door de Poisson-distributie. De volgende frequenties worden waargenomen:

Aantal gebeurtenissen0123+
Geobserveerde frequentie156632914

Bedenk nu dat als de Poisson-verdeling geschikt is, de kans op x gebeurtenissen is:

\[ P(x) = \frac{e^{-\lambda} \lambda^{x} }{x!} \]

waarbij λ het gemiddelde aantal gebeurtenissen is. Hoewel het populatiegemiddelde onbekend is, kunnen we het schatten door het steekproefgemiddelde te overwegen, dat is 0,66. Hieruit volgt dat we de waarschijnlijkheid voor een willekeurig aantal gevallen kunnen schatten onder de nulhypothese dat de populatieverdeling Poisson is. De kans op 2 gebeurtenissen wordt bijvoorbeeld als volgt berekend:
\[ P(2) = \frac{e^{-0.66} (0.66)^{2} }{2!} = \frac{(0.5169)(0.66)^{2}}{2} = 0.1126 \]
Wanneer we dit toepassen voor alle mogelijke gebeurtenissen, dan krijgen we de volgende resultaten:

Aantal gebeurtenissen0123+
Geobserveerde frequenties156632914
Verwachte frequenties onder H0135.489.429.57.7

Deze waargenomen en verwachte frequenties kunnen op dezelfde manier worden gebruikt als voorheen om de teststatistiek te berekenen voor het testen van de nulhypothese dat de populatieverdeling Poisson is.

Test voor normale verdeling

Stel nu dat we testen of de populatieverdeling normaal verdeeld is. Daarom kunnen we de Jarque-Bera-test voor normaliteit gebruiken, die als volgt kan worden berekend:

\[ JB = n [ \frac{(skewness)^{2}}{6} + \frac{ (kurtosis - 3)^{2}}{24} ] \]

waarbij de populatie scheefheid (in het Engels: skewness) als volgt kan worden geschat:

\[ Skewness = \frac{ \sum^{n}_{i=1} (x_{i} - \bar{x})^{3} }{ns^{3}} \]

en de populatie kurtosis wordt geschat door:

\[ kurtosis = \frac{ \sum^{n}_{i = 1} (x_{i} - \bar{x})^{4} }{ns^{4}} \]

Vaak zijn scheefheid en kurtosis al opgenomen in de standaardoutput van de meeste statistische softwarepakketten. Als het aantal steekproefobservaties erg groot wordt, is bekend dat de JB-statistiek (onder de nulhypothese dat de populatieverdeling normaal is) een chikwadraatverdeling met 2 vrijheidsgraden heeft. Net als bij alle andere hypothesetests wordt de nulhypothese verworpen voor grote waarden van de teststatistiek.

Welke test kun je gebruiken voor niet-parametrische testen met gepaarde of gematchte steekproeven?

De tekentest ("Sign Test")

De meest gebruikte niet-parametrische test bij het analyseren van gegevens uit gepaarde of gematchte steekproeven is de tekentest (in het Engels: Sign-test). Deze test wordt bijvoorbeeld gebruikt in marktonderzoek om te bepalen of consumenten de voorkeur geven aan een van twee producten. Omdat de consumenten alleen hun voorkeur noemen, zijn de gegevens nominaal en lenen zich voor niet-parametrische procedures. Bovendien is de tekentest ook nuttig voor het testen van de mediaan van een populatie.

De nulhypothese van de tekentest is als volgt geformuleerd: H0: P = 0,5. Hier is P het percentage niet-nulwaarnemingen in de populatie dat positief is. De teststaisic S voor de tekentest is eenvoudig het aantal paren met een positief verschil, waarbij S een binomiale verdeling heeft met P = 0,5 en n = het aantal verschillen tussen nul en nul. Deze waarde kan worden getoetst aan de cumulatieve binomiale waarschijnlijkheid voor die waarde, die te vinden is in Bijlage Tabel 3.

De Wilcoxon Signed Rank-test

Een nadeel van de tekentest is dat slechts een zeer beperkte hoeveelheid informatie in aanmerking wordt genomen. Het houdt namelijk alleen rekening met de tekenen van de verschillen. Het negeert de sterkte van de voorkeuren. Wanneer de steekproefgrootte klein is, is de tekentest daarom misschien niet het krachtigste hulpmiddel. In plaats daarvan kan de Wilcoxon Signed Rank-test worden gebruikt. Deze test biedt een methode voor het opnemen van informatie over de grootte van de verschillen tussen gepaarde paren. Daarbij is het nog steeds een distributievrije test. Het is echter gebaseerd op rangen van de waarnemingen. Eerst worden de paren waarvan het verschil 0 is, weggegooid. Vervolgens worden de resterende paren in oplopende volgorde gerangschikt, waarbij de banden het gemiddelde van de gelederen krijgen. Vervolgens wordt de som van de rangen die overeenkomen met positieve en negatieve verschillen berekend en de kleinere van deze bedragen is de door Wilcoxon ondertekende rangstatistiek T. In de formule is dat:

\[ T = min(T_{+},T_{-}) \]

waarbij T + de som van de positieve rangen is, T- de som van de negatieve rangen is en n het aantal niet-nulverschillen is. De nulhypothese wordt dan verworpen als T kleiner is dan of gelijk is aan de waarde in Bijlage Tabel 10.

Normale benadering van de tekentest

Dankzij de centrale limietstelling kan de normale verdeling worden gebruikt om de binomiale verdeling te benaderen als de steekproefgrootte groot genoeg is. Toch bestaat er geen consensus over de definitie van groot. Een veel voorkomende suggestie is om de normale benadering te gebruiken als de steekproefomvang groter is dan 20. Door een continuïteitscorrectiefactor in de teststatistiek te gebruiken, kunnen we compenseren voor het schatten van discrete gegevens met een continue verdeling en vervolgens een nader benaderen met de p-waarde. Op basis van de normale benadering van een binomiale verdeling leiden we het gemiddelde en de standaarddeviatie als volgt af:

\[ \mu = np = 0.5n \]

\[ \sigma = \sqrt{np(1 - p)} = \sqrt{0.25n} = 0.5 \sqrt{n} \]

Deze kunnen worden gebruikt bij het berekenen van de test statistiek:

\[ Z = \frac{S* - \mu}{\sigma} = \frac{S* - 0.5n}{0.5 \sqrt{n}} \]

waarbij S* de test statistiek is met continuïteitscorrectie, die als volgt wordt bepaald:

  • Voor een twee-zijdige test: S* = S + 0.5 (als S < μ) of S* = S - 0.5 (als S > μ)
  • Voor een eenzijdige test (>): S* = S - 0.5
  • Voor een eenzijdige test (<): S* = S + 0.5

Normale benadering van de Wilcoxon Signed Rank-test

Vergelijkbaar met de bovenstaande sectie, wanneer het aantal verschillen (n) van niet nul in de steekproef groot is (d.w.z. n > 20), geeft de normale verdeling een goede benadering van de door Wilcoxon Signed Ranktest statistische T op basis van de nulhypothese dat de populatieverschillen zijn gecentreerd op nul. Meer specifiek, volgens deze nulhypothese, heeft de Wilcoxon rangtest een gemiddelde en variantie gegeven door:

\[ E(T) = \mu_{T} = \frac{n(n + 1)}{4} \]

\[ Var(T) = \sigma^{2}_{T} = \frac{n(n + 1)(2n + 1)}{24} \]

Met behulp van deze informatie, voor grote n, is de verdeling van de willekeurige variabele Z ongeveer normaal en kan deze als volgt worden berekend:

\[ Z = \frac{T - \mu_{T}}{\sigma_{T}} \]

Deze testwaarde kan vervolgens worden vergeleken met de kritische waarde van de standaard normale verdeling die overeenkomt met het significantieniveau dat wordt gebruikt voor de hypothesetest.

Welke niet-parametrische tests kunnen worden gebruikt voor onafhankelijke willekeurige steekproeven?

In de vorige paragraaf hebben we niet-parametrische tests voor overeenkomende paren of afhankelijke monsters overwogen. In deze sectie gaan we verder met niet-parametrische tests voor onafhankelijke willekeurige steekproeven. Daarbij worden twee tests geïntroduceerd: de Mann-Whitney U-test en de Wilcoxon Rank Sum-test

Mann-Whitney U-test

Naarmate het aantal steekproef observaties toeneemt, nadert de verdeling van de Mann-Whitney U-statistiek snel de normale verdeling. De benadering vereist dat elke steekproef uit ten minste tien waarnemingen bestaat om een ​​(enigszins) adequate benadering te bieden. Met andere woorden, het is vereist dat n1 > 10 en n2 > 10. Verder, om de nulhypothese te testen dat de centrale locaties van de twee populatieverdelingen gelijk zijn, wordt aangenomen dat, afgezien van mogelijke verschillen in centrale locatie, de twee populatieverdelingen zijn identiek. De statistiek van de Mann-Whitney U-test kan als volgt worden gedefinieerd:

\[ U = n_{1}n_{2} + \frac{n_{1}(n_{1} + 1)}{2} - R_{1} \]

waarbij R1 de som van de rangen van de waarnemingen van de eerste populatie aangeeft.

Verder heeft de Mann-Whitney U het volgende gemiddelde en variantie:

\[ E(U) = \mu_{U} = \frac{n_{1}n_{2}}{2} \]

\[ Var(U) = \sigma^{2}_{U} = \frac{ n_{1}n_{2} (n_{1} + n_{2} + 1)}{12} \]

Ervan uitgaande dat beide steekproefgroottes ten minste uit tien waarnemingen bestaan, kunnen we de teststatistiek als volgt vinden:

\[ Z = \frac{U - \mu{U}}{\sigma_{U}} \]

Deze teststatistiek wordt geschat door de normale verdeling en kan worden afgezet tegen de kritische waarde in de tabel voor de standaard normale verdeling.

Wilcoxon Rank Sum Test

De Wilcoxon Rank Sum-test lijkt veel op de Mann-Whitney U-test en kan mogelijk zelfs tot dezelfde resultaten leiden. Soms heeft deze test de voorkeur vanwege het gemak. Net als eerder benadert de test de normale verdeling snel naarmate het aantal steekproef observaties toeneemt. Een steekproefgrootte van ten minste tien waarnemingen in elke steekproef is vereist voor een adequate benadering. Ervan uitgaande dat de nulhypothese waar is, heeft de Wilcoxon Rank Sum Test-statistiek T gemiddelde en variantie:

\[ E(T) = \mu_{T} = \frac{n_{1} (n_{1} + n_{2} + 1 ) }{2} \]

\[ Var(T) = \sigma^{2}_{T} = \frac{ n_{1}n_{2} ( n_{1} + n_{2} + 1 ) }{12} \]

Waarbij, voor grote steekproeven, de verdeling van de willekeurige (random) variabele

\[ Z = \frac{T - \mu_{T}}{\sigma_{T}} \]

kan worden geschat door de normale verdeling. Merk echter op dat voor een groot aantal banden de vergelijking van de variantie mogelijk niet correct is.

Hoe kan de Spearman Rank correlatie worden berekend?

De aanwezigheid van vreemde extreme waarnemingen of andere afwijkingen van de normaliteit kan de steekproefcorrelatiecoëfficiënt ernstig beïnvloeden. Meer specifiek vertrouwen veel testen op basis van correlatiemaatregelen voor hun validiteit op de veronderstelling van normaliteit. Soms wordt deze veronderstelling van normaliteit echter geschonden. Dan biedt de Spearman Rank correlatie een solide alternatief. De Spearman Rank correlatiecoëfficiënt is een niet-parametrische correlatiecoëfficiënt die is gebaseerd op de rangorde van de waarnemingen. De coëfficiënt kan als volgt worden berekend:

\[ r_{s} = 1 - \frac{6 \sum^{n}_{i = 1} d^{2}_{i} }{n (n^{2} - 1) } \]

waarbij di verwijst naar de verschillen tussen de gerangschikte paren. Stel dat we 17 waarnemingen hebben en deze zijn gerangschikt volgens variabele X en variabele Y. De eerste waarneming heeft rang 14 voor variabele X en rang 2 voor variabe Y. Dan is het verschil in rang voor deze waarneming 14 - 2 = 12. Soortgelijke berekeningen worden gedaan voor elk paar observaties en de som van al deze rangverschillen wordt vastgelegd in d. Zoals te zien is in de formule, wordt deze som vermenigvuldigd met 6. De testwaarde kan worden getoetst aan de kritische waarde, die te vinden is in Bijlage Tabel 11.

 

Hebben klanten een voorkeur voor een bepaalde burger van MacDonald's? Zijn de voorkeuren van mensen voor een bepaalde politieke kandidaat afhankelijk van kenmerken, zoals leeftijd, geslacht of land van herkomst? Hebben studenten van een bepaalde universiteit een voorkeur voor een van de drie statistiekdocenten? Deze vragen zijn slechts enkele voorbeelden van de soorten vragen die we in dit hoofdstuk zullen behandelen. Meer specifiek wordt in dit hoofdstuk het onderwerp niet-parametrische tests besproken. Niet-parametrische tests zijn vaak de juiste procedure om statistische conclusies te trekken over kwalitatieve (d.w.z. nominale of ordinale) gegevens of numerieke gegevens waarin de veronderstelling van normaliteit niet kan worden gemaakt over de waarschijnlijkheidsverdeling van de populatie.

 

 

Hoe werkt de analyse van variantie? - Chapter 15

 

 

Hoe wordt een eenweg variantieanalyse uitgevoerd?

Stel dat we geïnteresseerd zijn in de vergelijking van K populaties, waarvan wordt aangenomen dat elke populatie dezelfde variantie heeft. Uit deze populaties trekken we onafhankelijke willekeurige steekproeven met n1, n2, ..., nK-waarnemingen. Verder wordt het symbool xij gebruikt om te verwijzen naar de jde waarneming in de ide populatie. Nu wordt de procedure die we gebruiken om te testen op de gelijkheid van populatiegemiddelden in deze studie ook wel de eenweg variantieanalyse (ANOVA afgeluid van ANalysis Of VAriance) genoemd. Waarom het een eenweg variantieanalyse wordt, zal duidelijk worden wanneer we andere analyses van variantiemodellen bespreken.

In een ANOVA stelt de nulhypothese dat de K populatiegemiddelden allemaal gelijk zijn, gegeven de onafhankelijke willekeurige steekproeven. De alternatieve hypothese stelt dan dat ten minste één populatiegemiddelde verschilt van het andere populatiegemiddelde. In formele notatie is dat:

\[ H_{0} = \mu_{1} = \mu_{2} = ... = \mu_{K} \]

\[ H_{1} = \mu_{1} \neq \mu_{j} Voor \hspace{2mm} ten \hspace{2mm} minste \hspace{2mm} één \hspace{2mm} paar \hspace{2mm} \mu_{i}, \mu_{j} \]

Om deze hypothesen te testen, is de eerste stap het berekenen van de steekproefgemiddelden voor de k groepen van waarnemingen. De nulhypothese stelt dat alle populaties hetzelfde gemeenschappelijke gemiddelde hebben. Een logische volgende stap is daarom om een ​​schatting te maken van dit gemeenschappelijke populatiegemiddelde. Dit gemeenschappelijke gemiddelde kan eenvoudig worden verkregen als de som van alle monsterwaarden gedeeld door hun totale aantal. Met andere woorden, het is het gemiddelde van de steekproefgemiddelden.

De volgende stap is het testen van de gelijkheid van populatie gemiddelden. Deze test is gebaseerd op twee soorten variabiliteit: (1) de variabiliteit binnen de groep, en; (2) variabiliteit tussen groepen. De variabiliteit binnen de groep (between-groups variability) wordt berekend door de som van de kwadratische afwijkingen van alle waarnemingen van hun steekproefgemiddelde. Dit gebeurt voor elke steekproef. De som van al deze berekeningen is dan de totale variabiliteit binnen groepen. Op dezelfde manier wordt de variabiliteit tussen de groepen berekend door de som van de kwadratenafwijkingen van alle individuele groepsgemiddelden te nemen van het totale (gemeenschappelijke) gemiddelde. Bij het berekenen van de totale variabiliteit tussen groepen wordt een gewicht toegekend aan elke vierkante discrepantie. Dit gewicht is gebaseerd op het aantal steekproefobservaties in iedere groep. Daarom wordt het grootste gewicht gegeven aan de grootste steekproef. Ten slotte kunnen we ook de totale som van de kwadraten berekenen, wat de som is van de kwadratenverschillen van alle steekproefobservaties over hun totale gemiddelde (dus niet voor elk monster afzonderlijk).

In de formule verkrijgen we het volgende voor de variabiliteit binnen groepen (SSW), variabiliteit tussen groepen (SSG) en totale variabiliteit (SST):

\[ SSW = \sum^{K}_{i = 1} \sum^{n_{j}}_{j = 1} (x_{ij} - \bar{x}_{i} )^{2} \]

\[ SSG = \sum^{K}_{i = 1} n_{i} (\bar{x}_{i} - \bar{x} )^{2} \]

\[ SST = \sum^{K}_{i = 1} \sum^{n_{j}}_{j = 1} (x_{ij} - \bar{\bar{x}}_{i} )^{2} \]

\[ SST = SSW + SSG \]

Uit de laatste formule kan worden vastgesteld dat de totale som van vierkanten kan worden opgesplitst in twee componenten: (1) de som van de variabiliteit binnen groepen, en; (2) de variabiliteit tussen groepen. Dit vormt de basis voor de analyse van de variantie-test op gelijkheid van groepsgemiddelden. Meer precies, de ANOVA is gebaseerd op de veronderstelling dat de K-populaties dezelfde gemeenschappelijke variantie hebben. Als de nulhypothese dat de populatiegemiddelden allemaal hetzelfde zijn, waar is, kan elk van de sommen van kwadraten (SSW en SSG) worden gebruikt als basis voor een schatting van de algemene populatievariantie. Om deze schattingen te verkrijgen, moeten de vierkanten dus worden gedeeld door het juiste aantal vrijheidsgraden.

Eerst wordt een onpartijdige schatting van de populatievariantie verkregen door SSW te delen door (n - K). Deze schatting wordt het gemiddelde binnen de groepen (in het Engels: within-groups mean square) genoemd en wordt gegeven door:

\[ MSW = \frac{SSW}{n - K} \]

Ten tweede wordt een andere onpartijdige schatting van de populatie verkregen door SSG te delen door (K - 1). Deze schatting wordt het gemiddelde tussen de groepen (in het Engels: between-groups mean square) genoemd en wordt gegeven door:

\[ MSG = \frac{SSG}{K - 1} \]

Belangrijk is dat als de populatiegemiddelden NIET gelijk zijn, het gemiddelde tussen de groepen (MSG) GEEN onbevooroordeelde schatting geeft van de algemene populatievariantie. In plaats daarvan zal de verwachte waarde van de overeenkomstige willekeurige variabele de gemeenschappelijke populatievariantie overschrijden, omdat deze dan ook informatie oplevert over de kwadratische verschillen van de werkelijke populatiegemiddelden. Als de nulhypothese echter waar is, dan zijn zowel de MSW als de MSG onpartijdige schatters van de populatievariantie en het zou redelijk zijn om aan te nemen dat deze twee waarden vrij dicht bij elkaar liggen. Op basis van dit idee kunnen we de nulhypothese van gelijke populatievarianties testen door de verhouding van gemiddelde vierkanten te bekijken, gegeven door:

\[ F = \frac{MSG}{MSW} \]

Als deze F-ratio vrij dicht bij 1 ligt, is er weinig reden om te twijfelen aan de nulhypothese van gelijke populatievarianties. Als deze verhouding echter aanzienlijk groter is dan 1, vermoeden we dat de nulhypothese van gelijke populatievarianties niet waar is. Deze willekeurige variabele volgt een F-verdeling met (K - 1) vrijheidsgraden in de teller en (n - K) vrijheidsgraden in de noemer. Daarom kan formeel deze verhouding worden getest tegen de F-verdeling met overeenkomstige vrijheidsgraden. De kritische waarde kan worden opgezocht in Bijlage Tabel 9 van het boek. Merk op dat dit gebeurt in de veronderstelling dat de populatieverdelingen normaal zijn.

Al het bovenstaande is samengevat in de volgende tabel:

Bron van variantieSom van de kwadraten
(sum of squares)
VrijheidsgradenGemiddelde van de som van de kwadraten (mean squares)F ratio
Tussen groepenSSGK - 1MSG = SSG / (K - 1)MSG / MSW
Binnen groepenSSWn - KMSW = SSW / (n - K) 
TotaalSSTn - 1  

Hoe werkt de meervoudige vergelijkingsprocedure?

Als iemand een eenwegs variantieanalyse (ANOVA) uitvoert en een significant resultaat vindt, wordt de nulhypothese verworpen dat alle populatiegemiddelden gelijk zijn. Dit vertelt ons echter niet zoveel, omdat het geen informatie geeft over welke populatiemiddelen van elkaar verschillen. Daarom rijst de vraag welke subgroepmiddelen verschillen van anderen. Er zijn verschillende procedures ontwikkeld om deze kwestie van meervoudige vergelijkingsvraagstukken aan te pakken. In essentie gaat het allemaal om het ontwikkelen van intervallen die enigszins breed zijn dan die voor het geval met twee subgroepen. Een dergelijke procedure is ontwikkeld door John Tukey. Hij gebruikte een uitgebreide vorm van de Student's t distributie. De teststatistiek is het minimale significante verschil tussen de K subgroepen, die als volgt kan worden berekend:

\[ MSD(K) = Q \frac{s_{p}}{\sqrt{n}} \]

waar de factor Q te vinden is in Appendix Tabel 13 met behulp van het juiste significantieniveau. Verder is sp de vierkantswortel van MSW, dat wil zeggen: sp = √(MSW). De resulterende MSD waarde kan worden gebruikt om aan te geven welke subgroepgemiddelden verschillen, en daarom biedt deze statistiek een zeer nuttige screeningverdeling die kan worden gebruikt om de resultaten van de eenrichtingsvariantieanalyse uit te breiden.

Hoe werkt de Kruskal-Wallis test?

De Kruskall-Wallis-test is een niet-parametrisch alternatief voor de ANOVA. Net als de meeste niet-parametrische tests, is de Kruskal-Wallis-test gebaseerd op de rangen van de steekproef observaties. De voorbeeldwaarden worden samengevoegd en vervolgens in oplopende volgorde gerangschikt. Vervolgens worden de sommen van de rangen voor de K steekproeven berekend, wat R1, R2, ..., RK oplevert. De teststatistiek W kan als volgt worden berekend:

\[ W = \frac{12}{n(n + 1)} \sum^{k}_{i = 1} \frac{R^{2}_{i}}{n_{i}} - 3(n + 1) \]

Deze teststatistiek is een willekeurige variabele die de chikwadraatverdeling volgt met (K - 1) vrijheidsgraden. De teststatistiek kan worden vergeleken met de kritische waarde, die te vinden is in Appendix Tabel 7 met behulp van de overeenkomstige vrijheidsgraden en significantieniveau.

Hoe kun je een tweeweg-variantieanalyse uitvoeren?

In sommige toepassingen zijn niet één maar twee factoren van belang. Stel bijvoorbeeld dat er drie soorten auto's zijn (bijvoorbeeld A, B en C) waarvan we de brandstofbesparingen willen vergelijken. We ontwikkelen een experiment waarin zes proeven moeten worden uitgevoerd met elk type auto. Als deze proeven worden uitgevoerd met zes bestuurders, die elk een auto van alle drie de typen besturen, is het mogelijk om uit de resultaten informatie over de bestuurdersvariabiliteit te halen, evenals informatie over de verschillen tussen de drie soorten auto's, omdat elk type auto is getest door elke bestuurder. De extra variabele (hier: stuurprogramma's) wordt een blokkeervariabele genoemd. Er wordt gezegd dat het experiment in blokken is gerangschikt. In dit voorbeeld bestaat het experiment uit zes blokken, één voor elke bestuurder. Als we willekeurig één stuurprogramma selecteren om type A te besturen, één stuurprogramma om type B te besturen en één stuurprogramma om type C te besturen, enzovoort, wordt dit type experimenteel ontwerp ook wel gerandomiseerd blokkenontwerp genoemd.

Als we in feite twee variabelen hebben die we tegelijkertijd willen vergelijken, kunnen we een variantieanalyse in twee richtingen uitvoeren. Daarbij kan de totale som van vierkanten in niet twee, maar drie componenten worden ontleed: (1) sum of squares tussen blokken; (2) sum of squares tussen groepen, en; (3) sum of squares van de foutenterm (error). Vervolgens is SST = SSG + SSB + SSE. Twee hypothesetoetsen kunnen worden uitgevoerd, één voor de nulhypothese dat de populatiegroepgemiddelden allemaal hetzelfde zijn en één voor de nulhypothese dat de blokgemiddelden allemaal hetzelfde zijn. Alles is samengevat in de onderstaande tabel.

Bron van variantieSSVrijheidsgradenMSF-ratio
Tussen groepenSSGK - 1MSG = SSG / (K - 1)MSG / MSE
Tussen blokkenSSBH - 1MSB = SSB / (H - 1)MSB / MSE
Fout (error)SSE(K - 1) (H - 1)MSE = SSE / ((K - 1) (H - 1)) 
TotaalSSTn - 1  

Ten slotte, als er meer waarnemingen per cel zijn, breiden we deze benadering uit met het symbool m om het aantal waarnemingen per cel aan te geven. Bovendien zal de twee-weg variantie-analyse worden uitgebreid met m-waarnemingen per cel, wat de volgende tabel oplevert:

Bron van variantieSSVrijheidsgradenMSF-ratio
Tussen groepenSSGK - 1MSG = SSG / (K - 1)MSG / MSE
Tussen blokkenSSBH - 1MSB = SSB / (H - 1)MSB / MSE
InteractieSSI(K - 1)(H - 1)MSI = SSI / ((K - 1) (H - 1))MSI / MSE
Fout (error)SSEKH (m - 1)MSE = SSE / KH (m - 1) 
TotaalSSTn - 1  

Hoe kun je data met metingen in de loop van de tijd analyseren? - Chapter 16

 

Wat is een tijdreeks?

In dit hoofdstuk bespreken we hoe we datasets kunnen analyseren die metingen in de loop van de tijd voor verschillende variabelen bevatten. Dergelijke gegevens met metingen in de tijd worden ook tijdreeksen (in het Engels: time series) genoemd. Een tijdreeks is een reeks metingen, geordend in de tijd, voor een bepaalde variabele van interesse. In een tijdreeks is de volgorde van waarnemingen belangrijk. Dit is anders dan transversale (cross-sectionele) gegevens, waarvoor een reeks waarnemingen niet belangrijk is.

Wat zijn de componenten van een tijdreeks?

De meeste tijdreeksen bestaan ​​uit vier componenten:

  1. Tt: trend component
  2. St: seizoensgebonden component
  3. Ct: Cyclische component
  4. It: Onregelmatige component

De trend component verwijst naar de neiging (tendens) die veel tijdreeksen in de loop van de tijd hebben om te moeten stijgen of dalen in plaats van stabiel te blijven. Vaak stopt een dergelijke trend op een bepaald tijdstip, en wanneer dat zich voordoet, blijkt dat dit een belangrijk onderdeel is voor het ontwikkelen van voorspellingen. De seizoensgebonden component is uniek gedefinieerd voor elke tijdreeks. De behandeling van seizoensinvloeden hangt af van de doelstellingen van het onderzoek. Als we bijvoorbeeld geïnteresseerd zijn in de kwartaalwinst, kunnen we de verschillende kwartalen vergelijken en de kwartaalperiode opnemen als seizoenscomponent in ons model. Aan de andere kant is seizoensinvloeden soms een hinder. Het kan bijvoorbeeld zijn dat de analist een beoordeling van de algehele meting in een tijdreeks nodig heeft, die niet wordt beïnvloed door de invloed van seizoensfactoren.

Met behulp van deze vier componenten kunnen we een tijdreeks definiëren als een additief model bestaande uit de som van deze componenten:

\[ X_{t} = T_{t} + S_{t} + C_{t} + I_{t} \]

In andere omstandigheden kan het tijdreeksmodel worden gedefinieerd door een multiplicatief model, vaak weergegeven als een logaritmisch additief model:

\[ X_{t} = T_{t} * S_{t} * C_{t} * I_{t} \]

\[ ln(X_{t}) = ln(T_{t}) + ln(S_{t}) + ln(C_{t}) + ln(I_{t}) \]

Wat zijn voortschrijdende gemiddelden?

Het kan gebeuren dat de onregelmatige component in een tijdreeks zo groot is dat het onderliggende component effect wordt belemmerd. In dat geval is elke visuele interpretatie van de tijdplot extreem moeilijk, omdat de werkelijke plot er nogal "gekarteld" uitziet. Daarom kan het voordelig zijn om de plot vloeiend te maken om een duidelijker beeld te krijgen. Dit afvlakken kan worden gedaan met behulp van een voortschrijdend gemiddelde. De methode voor het verplaatsen van gemiddelden is gebaseerd op het idee dat elke grote onregelmatige component op elk tijdstip een kleiner effect zal hebben als we het punt gemiddelde maken met zijn directe buren. De eenvoudigste procedure om een dergelijk voortschrijdend gemiddelde te verkrijgen, is door een eenvoudig, gecentreerd (2m + 1) voortschrijdend gemiddelde te gebruiken. Dit betekent dat we elke waarneming (xt) vervangen door het gemiddelde van zichzelf en zijn buren:

\[ x*{t} = \frac{1}{2m + 1} \sum^{m}_{j = -m} x_{t + j} \]

met (t = m + 1, m + 2, ..., n - m). Gewoonlijk wordt dit voortschrijdend gemiddelde berekend door een statistisch softwareprogramma, zoals Minitab.

Deze voortschrijdende gemiddelden kunnen op hun beurt worden gebruikt om de seizoenscomponent te berekenen. Meer specifiek, laat xt (t = 1, 2, ..., n) een seizoensgebonden tijdreeks zijn van periode s (s = 4 voor kwartaalgegevens en s = 12 voor maandelijkse gegevens). Een gecentreerde s-punt voortschrijdende gemiddelde reeks, x*t wordt verkregen door de volgende stappen, waarbij wordt aangenomen dat s gelijk is:

Stap 1. Vorm de s-punt bewegende gemiddelden:

\[ \frac{ \sum^{s/2}_{j = - (s/2) + 1} x_{t + j} }{s} \]

Step 2. Vorm de gecentreerde s-punt bewegende gemiddelden:

\[ x^{*}_{t} = \frac{x^{*}_{t-0.5} + x^{*}_{t + 0.5} }{2} \]

De reeks gecentreerde s-punts voortschrijdende gemiddelden kan worden gebruikt om een beschrijvend inzicht in de structuur van een tijdreeks te verkrijgen. Omdat het grotendeels vrij is van seizoensinvloeden en een afvlakking van de onregelmatige component omvat, is het goed geschikt voor het identificeren van een trend en / of cyclische component.

Er is een seizoensaanpassingsbenadering die is gebaseerd op de impliciete veronderstelling van een stabiel seizoenspatroon in de tijd. Deze procedure wordt ook wel de seizoensindexmethode genoemd. In deze procedure wordt ervan uitgegaan dat voor elke seizoensperiode (bijvoorbeeld maand, kwartaal, jaar) het effect van seizoensinvloeden is om de reeks met hetzelfde percentage te verhogen of te verlagen. Dit wordt geïllustreerd aan de hand van een voorbeeld met kwartaalgegevens. Om de invloed van seizoensinvloeden te beoordelen, wordt de oorspronkelijke reeks uitgedrukt als een percentage van het gecentreerde 4-punts. Stel dat we voor het derde kwartaal van het eerste jaar xt = 0.345 en x*t = 0.5075 vinden. Vervolgens kan het volgende worden verkregen:

\[ 100 (\frac{x_{3}}{x*_{3}}) = 100 ( \frac{0.345}{0.5075} ) = 67.98 \]

Deze percentages kunnen op hun beurt worden gebruikt om de seizoensindex te berekenen. Dit wordt als volgt gedaan: deel de totale seizoensindex door de mediaan en vermenigvuldig die waarde met die verkregen in de bovenstaande vergelijking. Ten slotte kunnen we de aangepaste waarde verkrijgen door 100 te delen door de seizoensindex en die waarde te vermenigvuldigen met de oorspronkelijke waarde. De laatste krijgt een proportionele waarde variërend van 0 tot 1 waarin hogere waarden een indicatie zijn voor meer seizoensinvloeden.

Wat wordt er bedoeld met exponentiële afvlakking?

Eenvoudig exponentieel afvlakken is een voorspellingsmethode, die behoorlijk effectief presteert in een verscheidenheid aan voorspellingsapplicaties en de basis vormt voor enkele meer uitgebreide voorspellingsmethoden. Exponentiële afvlakking is geschikt wanneer de tijdreeksen niet-seizoensgebonden zijn en geen stijgende of dalende trend hebben. De afgevlakte reeks kan als volgt worden verkregen:

\[ \hat{x}_{t} = (1 - \alpha) \hat{x}_{t - 1} + \alpha x_{t} \]

waar α een afvlakkingsconstante is waarvan de waarde is vastgesteld tussen 0 en 1. Als we tijd n beschouwen, kunnen we als volgt voorspellingen van toekomstige waarden xn + h van de serie verkrijgen:

\[ \hat{x}_{n + h} = \hat{x} \]

Hoe werkt de Holt-Winters-methode: niet-seriële reeksen?

Een andere voorspellingsmethode is de Holt-Winters-methode: niet-seriële reeksen. Deze methode verloopt als volgt. Verkrijg eerst schattingen van het niveau en de trend Tt als volgt:

\[ \hat{x}_{2} = x_{2} \hspace{2mm} T_{t} = x_{2} - x_{1} \]

\[ \hat{x}_{t} = (1 - \alpha) (\hat{x}_{t} + T_{t - 1}) + \alpha x_{t} \]

\[ T_{t} = (1 - \beta) T_{t - 1} + \beta (\hat{x} - \hat{x}_{t - 1} ) \]

waar α en β constant zijn, waarvan de waarden tussen 0 en 1 liggen. Gezien tijdstip n, kan de voorspelling van toekomstige waarden als volgt worden verkregen:

\[ \hat{x}_{n + h} = \hat{x}_{n} + hT_{n} \]

waarbij h het aantal perioden in de toekomst is.

De Holt-Winters-methode voor niet-seizoensgebonden series wordt geïllustreerd aan de hand van een voorbeeld. Stel dat we de volgende gegevens verkrijgen voor het afvlakken van constanten α = 0,7 en β - 0,6:

txt\[ \hat{x}_{t} \]Tt
1
2
3
4
5
6
7
8
9
10
11
133
155
165
171
194
231
274
312
313
333
343
..

..

De eerste schattingen van niveau en trend in jaar 2 zijn:

\[ \hat{x} = x_{2} = 155 \]

\[ T = x_{2} - x_{1} = 155 - 133 = 22 \]

Omdat α = 0,7 en β - 0,6, verkrijgen we de volgende vergelijkingen:

\[ \hat{x}_{t} = 0.3 (\hat{x}_{2} +T_{2}) + 0.7x_{3} \]

\[ T_{t} = 0.4T_{t - 1} + 0.6( \hat{x}_{t} - \hat{x}_{t - 1}) \]

Met behulp van deze vergelijkingen kunnen we de volgende schattingen van niveau en trend voor jaar 3 verkrijgen:

\[ \hat{x}_{3} = 0.3( \hat{x}_{2} + T_{2} ) + 0.7x_{3} = (0.3)(155 + 22) + (0.7)(165) = 168.6 \]

\[ T_{3} = 0.4T_{2} + 0.6(\hat{x}_{3} - \hat{x}_{2} = (0.4)(22) + (0.6)(168.6 - 155) = 10.86 ) \]

De schattingen van niveau en trend voor jaar 4 worden op een vergelijkbare manier verkregen:

\[ \hat{x}_{4} = 0.3( \hat{x}_{3} + T_{3} ) + 0.7x_{4} = (0.3)(168.6 + 16.96) + (0.7)(171) = 175.4 \]

\[ T_{4} = 0.4T_{3} + 0.6( \hat{x}_{4} - \hat{x}_{3}) = (0.4)(16.96) + (0.6)(175.4 - 168.6) = 10.86 \]

t kan voor elk tijdstip worden berekend. De resultaten van al deze berekeningen zijn in de onderstaande tabel samengevat.

txt\[ \hat{x}_{t} \]Tt
1
2
3
4
5
6
7
8
9
10
11
133
155
165
171
194
231
274
312
313
333
343
155
169
175
192
223
266
309
324
338
347

22
1
11
14
25
36
40
25
18
13

Nu kunnen we de associaties voorspellen aan de hand van de volgende regels:
\[ \hat{x}_{n + 1} = \hat{x}_{n} + T_{n} \]
En voor het daaropvolgende tijdstip:
\[ \hat{x}_{n + 2} = \hat{x} + 2T_{n} \]
In meer algemene termen kunnen we stellen dat:
\[ \hat{x}_{n + h} = \hat{x}_{n} + hT_{n} \]
Overweeg nu de schattingen van niveau en trend voor jaar 11, die vervolgens 347 en 13 zijn. Vervolgens worden de voorspellingen voor de komende twee jaar gegeven door:
\[ \hat{x}_{12} = 347 + 13 = 360 \]
\[ \hat{x}_{13} = 347 + (2)(13) = 373 \]

Hoe werkt de Holt-Winters-methode: seriële reeksen?

In deze sectie bespreken we een uitbreiding van de Holt-Winters-methode die seizoensgebondenheid mogelijk maakt. Gewoonlijk wordt in toepassingen gedacht dat de seizoensfactoren multiplicatief zijn, zodat we bij het omgaan met maandelijkse verkoopcijfers bijvoorbeeld aan januari kunnen denken in termen van een deel van de gemiddelde maandelijkse verkoop. Net als eerder wordt aangenomen dat de trendcomponent additief is.

Dezelfde symbolen die werden gebruikt in het niet-seizoensgebonden geval worden gebruikt voor seizoensgebonden tijdreeksen. Er wordt slechts één symbool toegevoegd, Ft om de seizoensfactor aan te geven. Als de tijdreeks bijvoorbeeld uit s tijdsperioden per jaar bestaat, is de seizoensfactor voor de overeenkomstige periode in het voorgaande jaar Ft-s. Voorspellingen met behulp van de Holt-Winters-methode voor seizoensgebonden tijdreeksen maken gebruik van een reeks recursieve schattingen uit de historische reeks. Deze schattingen maken gebruik van een niveau factor (α), een trendfactor (β) en een multiplicatieve factor (γ). Alle drie factoren worden begrensd tussen 0 en 1. De recursieve schattingen zijn gebaseerd op de volgende vergelijkingen:

\[ \hat{x}_{1} = (1 - \alpha) (\hat{x}_{t - 1} + T_{t - 1} + \alpha \frac{x_{t}}{F_{t-s}}) \]

\[ T_{t} = (1 - \beta) T_{t-1} + \beta (\hat{x}_{t} - \hat{x}_{t - 1}) \]

\[ F_{t} = (1 - \gamma) F_{t - s} + \gamma \frac{x_{t}}{\hat{x}_{t}} \]

De berekeningen zijn erg ingewikkeld en kunnen het beste aan een computer worden overgelaten. Nadat de initiële procedures het niveau, de trend en seizoensfactoren van de vorige (historische) waarden hebben gegenereerd, kunnen we deze resultaten gebruiken om toekomstige waarden te voorspellen in h perioden voorafgaand aan de laatste waarneming (xn) in de "historische" serie. Deze voorspellingsvergelijking wordt gegeven door:

\[ \hat{x}_{n+h} = ( \hat{x}_{n} + hT_{n} ) F_{n+h-s} \]

Wat is een autoregressief model?

Hier bespreken we een andere benadering voor het gebruik van tijdreeksen. Deze benadering omvat het gebruik van de beschikbare gegevens om parameters te schatten van een model van het proces dat mogelijk de tijdreeksen heeft gegenereerd. Een dergelijke procedure die is gebaseerd op deze modelbouwbenadering wordt autoregressieve modellering genoemd. In principe is het idee van een autoregressief model om een ​​tijdreeks te beschouwen als een reeks willekeurige variabelen. Zoals we in hoofdstuk 13 hebben gezien, zijn we er voor praktische doeleinden vaak op voorbereid om aan te nemen dat deze willekeurige variabelen allemaal dezelfde gemiddelden en varianties hebben. Dit is echter niet erg aannemelijk in echte gegevens. Het is bijvoorbeeld zeer waarschijnlijk dat verkopen in aangrenzende periodes met elkaar gecorreleerd zijn. Dergelijke correlatieperioden tussen aangrenzende perioden worden soms autocorrelatie genoemd. In principe is een willekeurig aantal autocorrelatiepatronen mogelijk, hoewel sommige waarschijnlijker zijn dan andere. Een zeer eenvoudig autocorrelatiepatroon dat ontstaat wanneer de correlatie tussen aangrenzende waarden in de tijdreeks een getal is (laten we zeggen Φ1) dat tussen waarden met twee tijdsperioden uit elkaar Φ21 is en tussen waarden met drie tijdsperioden uit elkaar Φ31 is. Vervolgens geeft de autocorrelatiestructuur aanleiding tot een tijdseriemodel van de vorm:

\[ x_{t} = \gamma + \phi_{1}x_{t - 1} + \epsilon_{t} \]

waarbij γ en Φ1 vaste parameters zijn en de willekeurige variabelen εt gemiddelen 0 en vaste varianties hebben voor alle t en niet met elkaar gecorreleerd zijn. Het doel van de parameter γ is om de mogelijkheid toe te staan dat de serie xt een ander gemiddelde heeft dan 0. Anders, (als het gemiddelde dus 0 is), verkrijgen we het in hoofdstuk 13 gepresenteerde model dat is gebruikt om autocorrelatie weer te geven in de fouttermen van een lineaire regressievergelijking. Dit wordt het autoregressieve model van de eerste orde genoemd. De parameters van het autoregressieve model worden geschat met behulp van het kleinste kwadraten-algoritme (least squares). Die parameters zijn geselecteerd waarvoor de som van vierkanten een minimum is.

Welke andere procedures zijn er beschikbaar voor het trekken van steekproeven? - Chapter 17

 

In sommige situaties heeft het de voorkeur om de populatie in subgroepen te verdelen, strata genoemd, zodat elk individueel lid van de populatie tot één en slechts één subgroep behoort. De basis voor deze indeling in strata kan gebaseerd zijn op een bepaald kenmerk van de populatie, zoals geslacht of inkomen. In dit hoofdstuk bespreken we de gestratificeerde steekproefprocedure. We zullen ook kort andere methoden van steekproeftrekking bespreken, namelijk cluster steekproeftrekking, twee-fase steekproeftrekking en niet-probalistische steekproeftrekking.

Wat is gestratificeerde steekproeftrekking?

Gestratificeerde steekproeftrekking is een manier van steekproeftrekking waarbij de populatie wordt onderverdeeld in subgroepen (strata) en een eenvoudige willekeurige steekproef wordt getrokken uit elke stratum. De enige vereiste hier is dat elke deelnemer tot één en slechts één van de strata behoort. Met andere woorden, gestratificeerde willekeurige steekproeftrekking is de selectie van onafhankelijke willekeurige steekproeven uit elke stratum van de populatie. Daarbij wordt een aantrekkelijke mogelijkheid die in de praktijk vaak wordt gebruikt, proportionele allocatie genoemd, wat inhoudt dat het aandeel steekproefleden uit elke stratum hetzelfde is als het aandeel populatieleden in de stratum. Dit kan worden vergeleken met de (minder representatieve) benadering van het opnemen van hetzelfde aantal deelnemers uit elke stratum.

Stel dat willekeurige steekproeven van nj-individuen worden genomen uit de strata die Nj-individuen bevatten. Vervolgens resulteert een onpartijdige schatting voor de totale populatiegemiddelde μ in de volgende puntschatting:

\[ \bar{x}_{st} = \frac{1}{N} \sum^{K}_{j = 1} N_{j}\bar{x}_{j} \]

Vervolgens resulteert een onpartijdige schatting voor de variantie van de schatter van het totale populatiegemiddelde in de volgende puntschatting:

\[ \hat{\sigma}^{\frac{2}{st}} = \frac{1}{N^{2}} \sum^{K}_{j = 1} N^{2}_{j} \hat{\sigma}^{2}_{x_{j}} \]

waarbij

\[ \hat{\sigma}^{\frac{2}{x_{j}}} = \frac{ s^{2}_{j} }{n_{j}} x \frac{ (N_{j} - n_{j} ) }{N_{j} - 1 } \]

Ervan uitgaande dat de steekproefgrootte groot genoeg is, wordt een 100 (1 - α)% betrouwbaarheidsintervalschatting van het populatiegemiddelde met behulp van gestratificeerde willekeurige steekproeven verkregen uit het volgende:

\[ \bar{x}_{st} \pm z_{\alpha/2} \hat{\sigma}_{\bar{x}_{st} } \]

Schatting van het populatietotaal

Omdat het populatietotaal het product is van het populatiegemiddelde en het aantal populatieleden, kunnen deze procedures eenvoudig worden aangepast om de schatting van het populatietotaal mogelijk te maken. Dit wordt gedaan door de N voor elke vergelijking te plakken.

Schatting van de populatie proportie

Laat Pj de populatie proportie zijn. In gestratificeerde willekeurige steekproeven kan het populatiepercentage als volgt worden geschat:

\[ \hat{p}_{st} = \frac{1}{N} = \sum^{K}_{j = 1} N_{j} \hat{p}_{j} \]

\[ \hat{\sigma}^{2}_{p_{st}} = \frac{1}{N^{2}} \sum^{K}_{j = 1} N^{2}_{j} \hat{\sigma}^{2}_{\hat{p}_{j}} \]

waarbij geldt dat:

\[ \hat{\sigma}^{2}_{p_{st}} = \frac{ \hat{p}_{j} (1 - \hat{p}_{j}) }{n_{j} - 1} x \frac{ (N_{j} - n_{j}) }{N_{j} - 1} \]

is de schatting van de variantie van de steekproefverhouding in de jde stratum. Vervolgens, op voorwaarde dat de steekproefgrootte groot genoeg is, kan een 100 (1 - α)% betrouwbaarheidsintervalschatting van de populatie-verhouding voor gestratificeerde willekeurige steekproeven worden verkregen uit de volgende:

\[ \hat{p}_{st} \pm z_{\alpha/2} \hat{\sigma}_{\hat{p}_{st}} \]

Proportionele allocatie (toewijzing)

Ervan uitgaande dat in totaal n steekproefleden moeten worden geselecteerd, hoeveel van deze steekproefwaarnemingen moeten aan elke stratum worden toegewezen? Zoals we eerder hebben besproken, is een natuurlijke keuze een evenredige toewijzing waarbij het aandeel steekproefleden in een willekeurige stratum hetzelfde is als het aandeel populatieleden in die stratum. Dus voor het jde stratum geldt:

\[ \frac{n_{j}}{n} = \frac{N_{j}}{N} \]

Door deze formule te transformeren, kunnen we zien dat de steekproefgrootte voor de j-stratum met behulp van proportionele allocatie wordt gegeven door:

\[ n_{j} = \frac{N_{j}}{N} x n \]

Optimale allocatie

Als het enige doel van een enquête is om een zo volledig mogelijke schatting te maken van een algemene populatieparameter, bijvoorbeeld het gemiddelde, totaal of aandeel, en als er voldoende bekend is over de populatie, dan is het mogelijk om een optimale allocatie af te leiden, die de meest nauwkeurige schatter biedt. Met behulp van een optimale allocatie kunnen we de steekproefomvang voor het jde stratum voor het totale gemiddelde of totaal als volgt verkrijgen:

\[ n_{j} = \frac{ N_{j} \sigma_{j} }{ \sum^{K}_{i = 1} N_{i} \sigma_{i} } x n \]

Wanneer we deze formule vergelijken met die voor proportionele allocatie, zien we dat optimale allocatie relatief meer steekproefinspanning toewijst aan strata waarin de populatievariantie het grootst is. Dit houdt in dat een grotere steekproefomvang nodig is wanneer de grotere populatievariabiliteit bestaat.

Vervolgens kunnen we, met behulp van een optimale allocatie voor de populatie, de steekproefgrootte voor het jde stratum als volgt verkrijgen:

\[ n_{j} = \frac{ N_{j} \sqrt{ P_{j} (1 - P_{j}) } }{ \sum^{K}_{i = 1} N_{i} \sqrt{ P_{i} (1 - P_{i}) } } x n \]

Wanneer we de optimale allocatie en de proportionele allocatie opnieuw vergelijken, kunnen we zien dat de optimale allocatie meer steekproefwaarnemingen toewijst aan strata waarin de werkelijke populatieverhoudingen het dichtst bij 0,50 liggen.

Welke andere procedures kunnen worden gebruikt voor streekproeftrekking?

In het laatste deel van dit hoofdstuk bespreken we kort enkele andere steekproeftrekkingsprocedures die beschikbaar zijn.

Cluster steekproeftrekking

Ten eerste is cluster steekproeftrekking methode een aantrekkelijke aanpak wanneer een populatie gemakkelijk kan worden onderverdeeld in relatief kleine, geografisch compacte eenheden die clusters worden genoemd. Een stad kan bijvoorbeeld worden onderverdeeld in politieke afdelingen of woonblokken. Vaak kan dit zelfs worden bereikt zonder de beschikbaarheid van een volledige lijst van bewoners van huishoudens in de stad. Bij clustersteekproeven wordt een eenvoudige steekproef van clusters uit de populatie geselecteerd en wordt contact opgenomen met elk individu in elk van de steekproefclusters. Met andere woorden, in elk van de geselecteerde clusters wordt een volledige telling uitgevoerd. Het gebruik van cluster steekproeftrekking houdt in dat conclusies kunnen worden getrokken over de populatie met relatief weinig voorafgaande informatie over de populatie. Het enige dat nodig is, is een uitsplitsing van de populatie in identificeerbare clusters. Het is bijvoorbeeld niet eens nodig om het totale aantal inwoners te kennen. Het is gewoon voldoende om het aantal in elk van de steekproefclusters te kennen en deze kunnen tijdens de enquête zelf worden bepaald, omdat een volledige telling wordt genomen in elke cluster in de steekproef. Een ander, meer praktisch voordeel van clustersteekproeven is dat het contact met de interviewers relatief goedkoop is omdat de steekproefleden geografisch dicht bij elkaar in clusters zullen staan.

Merk op dat clustersteekproeven nogal verschillen van gestratificeerde steekproeven. Hoewel in beide steekproefprocedures de populatie eerst is onderverdeeld in subgroepen, is de overeenkomst tussen deze twee nogal illusoir. Bij gestratificeerde willekeurige steekproeftrekking wordt een steekproef genomen van elke stratum van de populatie in een poging om ervoor te zorgen dat belangrijke segmenten van de populatie overeenkomstig gewicht krijgen. Bij clustersteekproeven wordt een willekeurige steekproef van clusters genomen, zodat sommige clusters geen leden in de steekproef hebben. Omdat binnen custers populatieleden waarschijnlijk vrij homogeen zijn, is het gevaar van clustersteekproeven dat sommige belangrijke subgroepen van de populatie helemaal niet vertegenwoordigd zijn of sterk ondervertegenwoordigd zijn in de uiteindelijke steekproef. Het voordeel van clusterbemonstering (d.w.z. het gemak) is dus de hoge kosten van extra onnauwkeurigheid in de steekproeframingen.

Steekproeftrekking in twee fasen

In veel toepassingen kan de populatie niet in één stap worden bevraagd. In plaats daarvan is het vaak handig om eerst een pilotstudie uit te voeren waarin een relatief klein deel van de steekproefleden wordt ondervraagd. De resultaten die uit deze pilotstudie worden verkregen, kunnen worden geanalyseerd voordat het grootste deel van de enquête wordt uitgevoerd. Het uitvoeren van een enquête met twee fasen, te beginnen met een pilotstudie, wordt tweefase steekproeftrekking genoemd. Een belangrijk voordeel van deze steekproeftrekkingsprocedure is dat de onderzoeker de voorgestelde vragenlijst tegen bescheiden ko

sten kan uitproberen. Een belangrijk nadeel van deze benadering is echter dat het behoorlijk tijdrovend kan zijn.

Niet-probabilistische steekproeftrekking

Tot dusverre zijn alle methoden voor steekproeftrekking die we hebben besproken probabilistisch van aard. Niettemin worden in veel praktische toepassingen niet-probabilistische methoden gebruikt voor het selecteren van steekproefleden. Dit gebeurt voornamelijk voor het gemak. Het belangrijkste nadeel van niet-probabilistische steekproefmethoden is dat er geen geldige manier is om de betrouwbaarheid van de resulterende schattingen te bepalen.

 

In sommige situaties heeft het de voorkeur om de populatie in subgroepen te verdelen, strata genoemd, zodat elk individueel lid van de populatie tot één en slechts één subgroep behoort. De basis voor deze indeling in strata kan gebaseerd zijn op een bepaald kenmerk van de populatie, zoals geslacht of inkomen. In dit hoofdstuk bespreken we de gestratificeerde steekproefprocedure. We zullen ook kort andere methoden van steekproeftrekking bespreken, namelijk cluster steekproeftrekking, twee-fase steekproeftrekking en niet-probalistische steekproeftrekking.

 

Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 7 WorldSupporter tools
Follow the author: Vintage Supporter
Promotions
special isis de wereld in

Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering

verzekering studeren in het buitenland

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
[totalcount] 1
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.