Summaries and study assistance with Statistics: The art and science of learning from data by Agresti & Franklin – Booktool

  Tools

De hele tekst op deze pagina lezen? Alle JoHo tools gebruiken? Sluit je dan aan bij JoHo en log in!
 

Aansluiten bij JoHo als abonnee of donateur

The world of JoHo footer met landenkaart

Booktool for JoHo subscribers

 

Book: Statistics: The art and science of learning from data by Agresti & Franklin

Studytools: Bulletsummaries - Booksummaries

Mededelingen en laatste stand van tool, wijzer, vak of boek

 

JoHo Tools with Statistics: The art and science of learning from data by Agresti & Franklin

 

Study Tools

 Published

  • English bulletsummary with all chapters of the 4th edition
  • English booksummary with all chapters of the 4th edition

 

Tools in Print

 

 Published

  • English booksummary with all chapters of the 4th edition

Booksummary per chapter

Summaries per chapter with the 4th edition of Statistics: The art and science of learning from data by Agresti & Franklin - Bundle

Summaries per chapter with the 4th edition of Statistics: The art and science of learning from data by Agresti & Franklin - Bundle

What is statistics? - Chapter 1

What is statistics? - Chapter 1

Most professional professions nowadays rely heavily on statistical methods. In a competitive job market, insight into statistics and statistical methods offers an important advantage. But it is also important to understand statistics, even if you will never use it in your work. Understanding statistics can help you make better choices because you are bombarded every day with statistical information from news reports, advertisements, political campaigns, and surveys. A good understanding of the statistical reasoning - and in some cases statistical misconceptions - underlying these judgments will help deal with all this information.

How to use data to answer statistical questions?

Data is the information we gather with experiments and surveys.

Statistics is the art and science of designing studies and analyzing the data that those studies produce. Its ultimate goal is translating data into knowledge and understanding of the world around us. In short, statistics is the art and science of learning from data.

Researchers want to investigate questions in an objective manner. Statistical methods make that possible. Statistical problem solving is an investigative process that involves four components:

  • Think of a statistical question.

  • Gather data.

  • Analyze the data.

  • Interpret the results.

Statistics has three main components for answering a statistical question:

  • Design: thinking of how to get the data necessary to answer the question.

  • Description: the obtained data needs to be summarized and analyzed.

  • Inference: making decisions and predictions based on the obtained data for answering the question. (Infer means to arrive at a decision or prediction by reasoning from known evidence).

Statistical description and inference are complementary to each other. Statistical description provides useful summaries and helps find patterns in your data, and to be able to make predictions and decide whether observed patterns are meaningful, it is useful to use inference.

We need to think carefully about the questions that we want to answer by analyzing data. The nature of the statistical questions has an impact on design, description and inference.

The word probability is used to refer to a framework for quantifying how likely various possible outcomes are.

What is a sample?

Subjects are the entities that are being measured in a study. These can be people, but do not have to be.

All the subjects of interest are referred to as the population. In practice, we usually have data for only some of the subjects who belong to that population. This smaller size of subjects is called a sample. We plan to gather data from the sample. The sample is often randomly selected. It is more practical to get data for a sample, because obtaining data from an entire population is often too costly and timeconsuming.

Descriptive statistics refers to methods for summarizing the collected data (where the data constitutes either a sample or a population). The summaries usually consist of graphs and numbers such as averages. The main purpose of descriptive statistics is to reduce the data to simple summaries without distorting or losing much information.

If we want to make a decision or prediction about an entire population, but we only have data for a sample, inferential statistics are used. Inferential statistics thus refers to methods of making decisions or predictions about a population, based on data obtained from a sample of that population. 

Reporting the likely precision of a prediction is an important aspect of inferential statistics.

The absolute size of the sample matters much more than the size relative to the population total.

It is crucial to distinguish between to following terms:

  • Parameter: a numerical summary of the population.

  • Statistic: a numerical summary of sample taken from the population.

Because the true parameter values are almost always unknown, we use sample statistics to estimate the parameter values.

A sample tends to be a good reflection of a population when each subject in the population has the same chance of being included in that sample. That’s the basis of random sampling, which is designed to make the sample representative of the population. Important to know:

  • Random sampling allows us to make powerful inferences about populations.

  • Randomness is also crucial to performing experiments well.

Samples do vary. The measure of the expected variability from one random sample to the next random sample is referred to as the margin of error.

Results are called statistically significant when the difference between the results for two condition groups is so large that it would be rare to see such a difference by ordinary random variation.

How do you make use of computers for statistics?

MINITAB and SPSS are two popular statistical software packages on college campuses. The TI-83+ and TI-84 graphing calculators, which have similar output, are useful as portable tools for generating simple statistics and graphs. The Microsoft Excel software can conduct some statistical methods, sorting and analyzing data with its spreadsheet program, but its capabilities are limited.

Large sets of data are organized in a data file, to make statistical analysis earlier. This file usually has the form of a spreadsheet. It is the way statistical software receives the data. 

Most studies design experiments or surveys to collect data to answer the questions of interest.

Databases are existing archived collections of data files. Sometimes it is adequate to use these databases to answer the questions of interest.

How to explore data with graphs and nummerical summaries? - Chapter 2

How to explore data with graphs and nummerical summaries? - Chapter 2

Any characteristic observed in a study is referred to as variable. The values of data vary. In a data set, these variables are usually listed in the columns. The rows of the same data set refer to different observations on a variable. Observations refers to the data values that are observed. The observations can be a number or a category. Numerical values that represent different magnitudes of the variable are called quantitative. If a variable belongs to one of a set of distinct categories, the variable is called categorical. Sometimes numbers are used to represent categorical variables. These remain categorical variables and thus are not quantitative. It is because the numbers do not represent different magnitudes of the variable.

What roles do contingency, correlation and regression play in association testing? - Chapter 3

What roles do contingency, correlation and regression play in association testing? - Chapter 3

When data is being analyzed on two variables, the first step a researcher has to make, is to distinguish between the response variable and the explanatory variable. A response variable is also called the outcome variable. The explanatory variable is also called a predictor variable. If the explanatory variable is categorical it defines that the groups need to be compared with each other, when the explanatory variable is quantitative it examines how the different values of this variable relates to changes in the response variable.

How do you gather data? - Chapter 4

How do you gather data? - Chapter 4

Study design and data of good quality are crucial elements of statistical practice. This chapter discusses ways of gathering data that is useful and valid. 

What role does probability have in our daily lives? - Chapter 5

What role does probability have in our daily lives? - Chapter 5

In everyday live you have to make a lot of decisions, based upon uncertainty. In this chapter we introduce probability - the way we quantify uncertainty. You will learn to measure the chances of possible outcomes for random phenomena. 

Researchers rely on randomness to make sure that there will be no bias in the data. Randomness also applies to the outcomes of a response variable. It helps to make games fair, everyone will have the same chances for possible outcomes.

When you roll a die men says that you have a one-in-six chance that you will get 6 on any given roll. What does this mean? In a relative short run, such as 10 rolls of a die, the cumulative proportion of 6s can fluctuate. But if the number of trials keeps increasing, the proportion of 6s becomes more predictable in time and less random. Jacob Bernoulli proved that as the number of trials increases the proportions of occurrences of any given outcome approaches a particular number in the long run. This is known as the law of large numbers. The probability of things is the outcome in the long-run. With random phenomena, if something did not happen in quite a while, people are sure it is due to happen soon. People tend to think that the probability of the random phenomena goes up until it happens. But this is certainly not true. What happens on previous trials does not affect the trial that is about to occur. Trials are independent of each other.

What are probability distributions? - Chapter 6

What are probability distributions? - Chapter 6

In statistics, possible outcomes and their probabilities are summarized in a probability distribution. There are two sorts of probability distributions someone can use, namely a normal and a binomial distribution. The normal distribution is known for its bell-shaped form, and plays a key role in statistical inference.

If you use proper methods for gathering data in research, the numerical values that the variables have should be a result of random phenomenon. It may stem from selecting a random sample out of the population one is investigating. In this sort of cases, the variables are called random variables.

Letters of the alphabet, usually the letters near the end of the alphabet, are used to symbolize the value of the variables. Such as x, y and z. When people refer to the random variable itself instead of the value the variable has, they use the capital of te letter, such as X, Y and Z. Each random variable refers to the outcome of a random phenomenon and for each outcome there is a specific possibility. The probability distribution of the random variable is about the possible values and their possibilities.

What are sampling distributions? - Chapter 7

What are sampling distributions? - Chapter 7

In practice, you seldom know the values of parameters. For example, when elections are coming up, candidates are interested in gauging where they stand with the voters, so they rely on surveys/polls to help predict who is going to win. This section is going to introduce a type of probability distribution called the sampling distribution that helps us determine how close to the population parameter a sample statistic is likely to fall.

Statistical inference: what are confidence intervals? - Chapter 8

Statistical inference: what are confidence intervals? - Chapter 8

Statistical inference methods help us to predict how close a certain sample statistic falls to the population parameter. You then can make decisions and predictions about populations even if we have data for relatively few subjects from that population. There are a few relevant concepts in statistical inference, such as the role of randomization, concepts of probability, the normal distribution and the use of the sampling distribution. These concepts are important for two reasons:

  1. Statistical inference uses probability calculations that assume that data were gathered with a random sample or randomized experiment.
  2. The probability calculations refer to a sampling distribution of a statistic, which is often a normal distribution.

There are two types of statistical inference, namely estimation and testing hypotheses. This chapter discusses the estimation in statistical inference. The most informative estimation method is about an interval of numbers, mainly known as the confidence interval.

Statistical inference: What do significance tests say about hypotheses? - Chapter 9

Statistical inference: What do significance tests say about hypotheses? - Chapter 9

In this chapter you will learn how to use inferential statistics to answer questions regarding predictions and guessing, such as astrology; what makes people believe that the positions of the planets and the moon at the moment of yout birth determine your personality traits. To do this, researchers use a method called significance testing. 

How do you compare two groups? - Chapter 10

How do you compare two groups? - Chapter 10

Consider a study that compares female and male college students on the proportion who say they have participated in binge drinking. You have two variables; the reponse variable, namely binge drinking. The explanatory variable here is gender, and measures the difference between the sex of the students and their binge drinking behavior. An analysis that looks at any type of relationship beween two variables is called a bivariate analysis. It is a special case, when the explanatory variable in the bivariate analysis is a bivariate variable. 

How do you analyze the association between categorical variables? - Chapter 11

How do you analyze the association between categorical variables? - Chapter 11

In Chapter 3, you have learned that two variables have an association when particular values for one variable are more likely to occur with certain values of the other variable. 

When you want to investigate an association, first it is very important to identify the response and the explanatory variable. It is, for instance, more natural to study the influence of income (high/low) on happiness instead of the other way around. So, income is the explanatory variable and happiness the response variable. You can put this data in a contingency table. The percentages in a row are called the conditional percentages. Here, they refer to the distribution of happiness. The distribution is called the conditional distribution. You also have proportions that are called conditional probabilities of, in this case, happiness. 

How do you analyze the association between quantitative variables: regression analysis? - Chapter 12

How do you analyze the association between quantitative variables: regression analysis? - Chapter 12

In this chapter you will learn more about using a regression line to predict the response variable y and the correlation to describe the strength of the association. A regression line is a straight line that predicts the value of a response vairable y from the value of an explanatory variable x. The correlation, denoted by the letter r, is a summary measure of the association that falls between -1 and +1. You'll learn how to make inferences about the regression line for a population and how the variability of data points around the regression line helps us predict how far from the line a value of y is likely to fall. 

What is multiple regression? - Chapter 13

What is multiple regression? - Chapter 13

When you have several explanatory variables, you can make better predictions using all of the variables at once. That is the idea behind a multiple regression. But besides helping you to predict the response variable better, multiple regression can help you analyze association between two variables while controlling for another variable/keeping it fixed. That is very important because the effect of an explanatory variables can change very much after you take a potential lurking variable into account. 

How do you compare groups: analysis of variance methods - Chapter 14

How do you compare groups: analysis of variance methods - Chapter 14

The methods that they are mentioning in this chapter apply when a quantitative response variable has a categorical explanatory variable. The categories of the explanatory variable identify the groups to be compared in terms of their means on the response variable. The inferential method for comparing means of several groups is called analysis of variance, or denoted by the name ANOVA. The name analysis of variance is about the significance test that focuses on two types of variability in the data. The categorical explanatory variables in the multiple regression and in ANOVA are often referred to as factors. When the ANOVA has one factor, the ANOVA is called an one-way ANOVA. When the ANOVA has two factors, then the ANOVA is called a two-way ANOVA. 

What does nonparametric statistics mean? - Chapter 15

What does nonparametric statistics mean? - Chapter 15

Nonparametric statistics are known to be an alternative way to compare two groups without having to assume a normal distribution for the response variable. They solely use the ranking of the subjects on the response variable. They are especially useful in these two cases:

  1. When the data are ranks for the subjects rather than quantitative measurements
  2. When it is inappropriate to assume normality, and when the ordinary statistical method is not robust to violations of the normality assumption. We might prefer to not assume normality because we think that the distribution will be skewed when we do. Or, when we have no idea about the distribution shape, and the sample size is too small, it will also give you a lot of information that you otherwise will miss. 

This chapter will give you some sort of idea behind the nonparametric methods, and you will learn more about the most popular nonparametric test, the Wilcoxon test for comparing groups. The nonparametric methods in this chapter are special cases of permutation tests when applied to the ranks of the observations instead of using the original values. 

JoHo nieuwsupdates voor inspiratie, motivatie en nieuwe ervaringen: winter 23/24

Projecten, Studiehulp en tools:

  • Contentietools: wie in deze dagen verwonderd om zich heen kijkt kan wellicht terecht op de pagina's over tolerantie en verdraagzaamheid en over empathie en begrip, mocht dat niet voldoende helpen check dan eens de pagina over het omgaan met stress of neem de vluchtroute via activiteit en avontuur in het buitenland.
  • Competentietools: voor meer werkplezier en energie en voor betere prestaties tijdens studie of werk kan je gebruik maken van de pagina's voor vaardigheden en competenties.
  • Samenvattingen: de studiehulp voor Rechten & Juridische opleidingen is sinds de zomer van 2023 volledig te vinden op JoHo WorldSupporter.org. Voor de studies Pedagogiek en Psychologie kan je ook in 2024 nog op JoHo.org terecht.
  • Projecten: sinds het begin van 2023 is Bless the Children, samen met JoHo, weer begonnen om de slum tours nieuw leven in te blazen na de langdurige coronastop. Inmiddels draaien de sloppentours weer volop en worden er weer nieuwe tourmoeders uit deze sloppen opgeleid om de tours te gaan leiden. In het najaar van 2023 is ook een aantal grote dozen met JoHo reiskringloop materialen naar de Filipijnen verscheept. Bless the Children heeft daarmee in het net geopende kantoortje in Baseco, waar de sloppentour eindigt, een weggeef- en kringloopwinkel geopend.

Vacatures, Verzekeringe en vertrek naar buitenland:

World of JoHo:

  • Leiden: de verbouwing van het Leidse JoHo pand loopt lichte vertraging op, maar nadert het einde. Naar verwachting zullen eind februari de deuren weer geopend kunnen worden.
  • Den Haag: aangezien het monumentale JoHo pand in Den Haag door de gemeente noodgedwongen wordt afgebroken en herbouwd, zal JoHo gedurende die periode gehuisvest zijn in de Leidse vestiging.
  • Medewerkers: met name op het gebied van studiehulpcoördinatie, internationale samenwerking en internationale verzekeringen wordt nog gezocht naar versterking!

Nieuws en jaaroverzicht 2023 -2024

  

Alternatives & Study assistance

Samenvattingen per hoofdstuk bij de 4e druk van Statistics: The art and science of learning from data van Agresti & Franklin - Bundel

Samenvattingen per hoofdstuk bij de 4e druk van Statistics: The art and science of learning from data van Agresti & Franklin - Bundel

Waar gaat Statistics, the art and science of learning from data van Agresti & Franklin over? Chapter 0

Waar gaat Statistics, the art and science of learning from data van Agresti & Franklin over? Chapter 0

Waar gaat dit boek over?

  • Dit boek gaat uitgebreid in op zowel het verkrijgen als het interpreteren van statistische data en is speciaal geschreven voor gebruik door studenten.
  • In vergelijking tot andere statistiekboeken is dit boek erg toegankelijk, de focus ligt op uitleg van de basisbegrippen en -functies in de statistiek.

 

Hoe is dit boek ingedeeld?

  • Het eerste deel van het boek behandelt de basis: het verkrijgen en interpreteren van data.
  • Vervolgens gaat het boek in op steekproeven en de betrouwbaarheid daarvan.
  • Het derde deel van het boek gaat over het maken van gevolgtrekkingen.
  • Het vierde deel behandelt hoe je verbanden tussen variabelen kunt meten en geeft een introductie van gevorderde statistiek.

 

Wat zijn de belangrijkste wijzigingen in de 4e druk ten opzichte van de 3e druk?

  • In hoofdstuk 3 is informatie toegevoegd over de manieren van associatie tussen categorische variabelen.
  • Paragraaf 3 van hoofdstuk 7, over de binomiale verdeling, is verwijderd in de nieuwe druk.
  • In de hoofdstukken 10 en 11 is informatie toegevoegd over permutatie testen.
  • In hoofdstuk 10 is informatie toegevoegd over de McNemar test.
  • De volgorde van de informatie in hoofdstuk 12 is wat veranderd, de informatie zelf is hetzelfde gebleven.
  • De verwoording van veel uitleg is veranderd om de tekst beter begrijpelijk te maken en om studenten te motiveren meer over statistiek te willen leren.
  • Er zijn verschillende voorbeelden toegevoegd en aangepast om een beter begrip te krijgen van het gebruik van de statistiek in de praktijk.
  • Er is vernieuwde informatie over het gebruik van software als Minitab® en Excel binnen de statistiek toegevoegd.
  • De hoofdstukindeling en behandelde onderwerpen zijn verder hetzelfde gebleven.
  • Software wordt continu verder ontwikkeld maar de nadruk ligt in dit boek niet op de precieze uitvoering met software, maar op het verkrijgen van een eerste begrip van statistiek, deze basis van de statistiek is nauwelijks aan verandering onderhevig.
  • Omdat de meeste updates in de 4e druk uit toegevoegde voorbeelden of oefenmateriaal bestaan, is de samenvatting zowel bij de 3e als 4e druk prima te gebruiken.

 

Wat is het doel van statistiek? - Chapter 1

Wat is het doel van statistiek? - Chapter 1

1.1 Hoe wordt statistiek uitgevoerd?

Statistiek is de wetenschap die informatie uit verschillende studies en onderzoeken analyseert. Deze informatie wordt data genoemd. Op een objectieve manier worden onderzoeksvragen onderzocht en geanalyseerd. Na de analyse van data kunnen conclusies en voorspellingen gedaan worden.

De drie statistische processen die het meeste voorkomen:

  1. Design: het plannen en onderzoeken van een studie. Hierbij kan gedacht worden aan hoe relevante data verkregen moeten worden. Dit wordt meestal met behulp van samples (steekproeven) uit een populatie gedaan. Een populatie duidt niet op de gehele wereldbevolking. Het kan ook duiden op bijvoorbeeld alle scholen van Nederland of alle voetbalclubs in Noord-Holland.

  2. Descriptief: Het opsommen en uitvinden van patronen in een data sample. Dit wordt gedaan met behulp van grafieken en tabellen of op een beschrijvende manier, zoals het weergeven van gemiddelden en percentages.

  3. Gevolgtrekking (inference): besluiten en voorspellingen maken over de hele populatie aan de hand van de informatie van de data sample.

1.2 Wat is het verband tussen een steekproef en de gehele populatie?

Conclusies trekken en voorspellingen doen wordt aan de hand van kansen (probability) gedaan. Dit wordt gedaan, omdat er nooit een eenduidige conclusie over de hele populatie gedaan kan worden. De populatie bestaat uit alle subjecten waarin de onderzoeker geïnteresseerd is. Dit hoeven niet per se mensen te zijn, maar dat is meestal wel het geval. Het is echter onmogelijk elk subject te onderzoeken. Daarom wordt door middel van kansen een conclusie of voorspelling gedaan aan de hand van de steekproef/sample van deze subjecten.

Gegevens kunnen altijd op 2 manieren worden geïnterpreteerd: Ten eerste op het niveau van de sample. Als men door middel van percentages wat wil zeggen over de sample dan noemt men dit statistiek (statistic). Echter, als we een conclusie over deze sample willen trekken dan praten we over de populatie en wordt dit een parameter genoemd. Meestal zullen we de echte waarde van de parameter niet weten, maar omdat we er wel geïnteresseerd in zijn proberen we daar via de statistiek zo dicht mogelijk bij te komen.

Een sample moet een goede afspiegeling zijn van de bevolking willen we een conclusie kunnen trekken uit deze sample. Dit is het geval wanneer elk subject van de populatie een even grote kans heeft om in de sample terecht te komen. Dit wordt random sampling genoemd.

Daarnaast is de variantie van een sample ook belangrijk voor een goede weergave van de bevolking. Subjects verschillen van elkaar en metingen verschillen dan ook van subject tot subject. Als dit niet zo was dan was er maar 1 subject nodig voor de sample. Toch blijkt variantie goed te voorspellen, als men maar genoeg subjecten in een random sample heeft.

1.3 Welke rol spelen computers en databases bij statistiek?

Statistiek wordt tegenwoordig voornamelijk met behulp van computers gedaan. In het begin van de bachelor Psychologie gaan studenten zich hier mee bezig houden. Deze statistiekcursus is bedoeld om de basisbeginselen van de statistiek te leren, op een handmatige manier.

Veel wetenschappers doen onderzoek om data te bemachtigen, soms blijkt echter dat er gebruik gemaakt kan worden van bestaande databases. Het gaat dan om onderwerpen waar al veel gegevens over beschikbaar zijn. Deze databases zijn onder andere op het internet te vinden. Check wel altijd de bronnen voor de betrouwbaarheid van het onderzoek.

Hoe kun je datagegevens onderzoeken? - Chapter 2

Hoe kun je datagegevens onderzoeken? - Chapter 2

2.1. Soorten data

De data die we verzamelen bij een bepaalde onderzoeksvraag vallen onder bepaalde karakteristieken; deze worden variabelen genoemd. Variabelen zijn dus de onderdelen waar we data van willen verkrijgen. Enkele voorbeelden van variabelen zijn sekse, gewicht en leeftijd.

Variabelen kunnen ook weer verschillen. Zo bestaan er categorische variabelen en kwantitatieve variabelen. Categorische variabelen zijn variabelen waarbij elke observatie binnen een bepaalde categorie valt, denk hierbij bijvoorbeeld aan sekse (je bent man of vrouw), huwelijkse staat, of een vraag waar JA of NEE op geantwoord kan worden. Bij categorische variabelen wordt voornamelijk gekeken naar het relatieve aantal observaties per categorie. Daarnaast bestaan er ook kwantitatieve variabelen. Dit zijn variabelen waarbij elke observatie een bepaalde waarde kan aannemen, zoals gewicht en leeftijd. Bij kwantitatieve variabelen zijn gemiddelde en spreiding van de data de belangrijkste gegevens.

Kwantitatieve variabelen zijn daarnaast ook nog eens onderverdeeld in discrete of continue waarden. Een discrete kwantitatieve variabele bestaat uit vaststaande en eindige getallen, zoals 1, 2, 3, 4, 5 of 10, 100, 1000. Continue kwantitatieve variabelen kunnen elke waarden op een interval aannemen, zoals 1,892 en 100,9870, deze waarden zijn dus oneindig.

Om de gevonden data van variabelen om te zetten in duidelijke gegevens kunnen verschillende soorten methoden gebruikt worden. Voor categorische variabelen wordt ten eerste bepaald welke categorie de hoogste frequentie van observaties heeft, deze categorie wordt de modus (mode) genoemd. Daarnaast kunnen proporties en percentages gebruikt worden om de overige gegevens te benoemen. Proporties zijn het aantal observaties in een bepaalde categorie gedeeld door het totaal aantal observaties. Voor het percentage wordt deze proportie vermenigvuldigd met 100. Zowel proporties als percentages worden relatieve frequenties genoemd. Deze gegevens kunnen in een tabel worden gezet; deze tabel wordt dan een frequentietabel genoemd.

Voor kwantitatieve variabelen worden de waarden van de data eerst omgezet in bepaalde intervallen; er worden een soort van categorieën gemaakt. Van deze intervallen (bijvoorbeeld tussen 0-5 en 5-10) kunnen ook relatieve frequenties worden gemaakt. Daarnaast wordt ook veel naar het gemiddelde en de spreiding gekeken.

2.2. Grafieken

Grafieken zijn meestal makkelijker te begrijpen dan ruwe data of frequentietabellen. Er zijn twee soorten grafieken: één voor categorische variabelen en één voor kwantitatieve variabelen.

Grafieken voor categorische variabelen

Er zijn 2 grafieken die het meest gebruikt worden voor categorische variabelen. De eerste daarvan is de Pie chart, ook wel het taartmodel genoemd. In een cirkel (100%) staat elk stukje voor een categorie. De grootte van het stukje staat gelijk aan het percentage van de observaties in die categorie. De tweede grafiek die vaak voorkomt is het staafdiagram (bar graph). Dit zijn verticale staven waarbij de hoogte van de staaf het percentage van de observaties in de categorie aangeeft. Worden de staven in volgorde van hoog naar laag geordend dan wordt dit de Parerto Chart genoemd. Deze laatste wordt voornamelijk in de zakenwereld gebruikt.

Grafieken voor kwantitatieve variabelen:

De eerste grafiek die vaak gebruikt wordt is de dot-plot. Eén stip (dot) in deze grafiek staat voor één observatie. De waarde van de observatie staat op een horizontale lijn onder de stip vermeld. Deze grafiek wordt voornamelijk voor kleine metingen gebruikt. De tweede grafiek is de stem and leaf plots (stam en bladeren), ook deze wordt gebruikt voor kleine metingen. Bij deze grafiek splits je de data in een stem (alle cijfers behalve de laatste) en in leaves (het laatste cijfer in de observatie). Deze zet je vervolgens in een grafiek, zoals in het plaatje hieronder.

Figuur 1 (zie bijlage)

Hier is de observatie dus 75 in een sample size van 20

Ten derde heb je de timeplots. Soms worden observaties gedurende een langere periode uitgevoerd. Als deze gegevens in een grafiek worden gezet, waarbij de tijd op de x-as staat, dan wordt dit een timeplot genoemd. Vaak wordt bij deze grafieken gezocht naar een trend; oftewel een indicatie van een bepaald verloop van de data over een periode van tijd.

Ten slotte heb je een histogram, deze lijkt heel erg op een bargrafiek van categorische variabelen. Histogrammen worden gebruikt voor grote metingen, hierbij laten ze de frequenties zien van de kwantitatieve variabelen. De echte waarden, het aantal subjecten in dat interval, worden niet aangegeven.

Een grafiek van een kwantitatieve variabele, zoals een histogram, beschrijft de distributie van de data. Hierbij kijken we naar het patroon van de data; oftewel of de data geclusterd of gespreid zijn. Data kunnen eentoppig zijn, waarbij er maar 1 hoogste punt is (de modus); dit noemt men een unimodale distributie. Data kan echter ook tweetoppig zijn; dit wordt dan een bimodale distributie genoemd.

Figuur 2 (zie bijlage)

De vorm van een distributie is vaak symmetrisch of skewed (scheef). Symmetrisch houdt in dat er ongeveer even veel data links als rechts van het midden liggen. Skewed wil zeggen dat de data langer uitgerekt zijn naar één kant. Een voorbeeld hiervan is bijvoorbeeld het aantal uur dat een persoon achter de computer zit. De meeste mensen zullen tussen de 0 en 2 uur zitten, maar er zijn ook enkele gevallen waarbij mensen 5 of 8 uur achter de computer zitten. De data is dus voornamelijk gecentreerd rond de 0-2 uur, maar enkele hoge data zullen de grafiek uitrekken naar 8 uur. De uiteinden van een distributie worden ook wel tails (staarten) genoemd.

In het bovengenoemde voorbeeld is de rechterstaart dus langer dan de linker. Dit wordt “skewed naar rechts” genoemd. Als de linkerstaart langer is dan de rechter dan wordt dit “skewed naar links” genoemd.

Figuur 3 (zie bijlage)

Beschrijving van kwantitatieve data.

Grafieken geven vaak een duidelijk overzicht van de data. Daarna willen we echter statistiek (opsomming door cijfers) gebruiken. Bij de data van kwantitatieve variabelen kijken we voornamelijk naar 2 statistische maten; het centrum en de spreiding.

Het centrum:

Er zijn 3 belangrijke metingen voor het centrum van de data. De allerbelangrijkste is het gemiddelde (mean). Het gemiddelde is de som van alle observaties gedeeld door het aantal observaties. Een tweede belangrijke is de mediaan. Als alle observaties van klein naar groot (of groot naar klein) worden geordend, dan is de mediaan de middelste meting. Bij een even aantal observaties is de mediaan het gemiddelde van de middelste twee observaties. Wanneer er sprake is van een zeer scheve verdeling wordt er vaak gekozen om de mediaan te kiezen in plaats van het gemiddelde omdat dit een beter beeld geeft. Bij een normaal verdeling of een verdeling met een milde afwijking wordt gekozen voor het gemiddelden om inzicht te geven in de verdeling. Ten slotte hebben we de modus; deze geeft het interval met de meeste observaties weer.

Een ander belangrijk punt bij het beschrijven van het centrum van de data is het bekijken van uitschieters (outliers). Een uitschieter is een observatie die ver boven of ver onder de meeste metingen valt. Een uitschieter verandert de uitkomst van het gemiddelde flink. De mediaan verandert echter niet door een uitschieter; de mediaan is resistent tegen uitschieters. De modus hoeft niet dicht bij het centrum van de gegevens te liggen.

Zie het voorbeeld hieronder:

Figuur 4 (zie bijlage)

De vorm van de distributie bepaald hoe het gemiddelde ligt ten opzichte van de mediaan. Is de distributie volledig symmetrisch dan is het gemiddelde gelijk aan de mediaan. Als de distributie skewed naar links is dan is het gemiddelde kleiner dan de mediaan en is de distributie skewed naar rechts dan is het gemiddelde groter dan de mediaan.

De spreiding:

Er zijn twee soorten manieren om de spreiding van een distributie te beschrijven. Ten eerste via het bereik (range). Het bereik is het verschil tussen de grootste observatie en de kleinste observatie. Het bereik wordt sterk beïnvloed door uitschieters. De range maakt echter geen gebruik van alle data. De tweede manier om spreiding te beschrijven doet dat wel; dit is de deviatie. Een deviatie is het verschil tussen een bepaalde observatie (x) en het gemiddelde, dus Formule 1 (zie bijlage). Een deviatie is positief wanneer de observatie (x) groter is dan het gemiddelde en een deviatie is negatief wanneer de observatie (x) kleiner is dan het gemiddelde. De som van alle deviaties is 0: omdat het gemiddelde van elke observatie wordt afgetrokken zullen de negatieve en de positieve deviaties elkaar uitmiddelen tot 0. Het gemiddelde van alle deviaties in het kwadraat wordt variantie genoemd. Als we van deze variantie de wortel nemen dan krijgen we de standaarddeviatie (standaardafwijking). Met deze standaarddeviatie kunnen we de spreiding van de distributie het best beschrijven. Hoe groter de standaarddeviatie is, hoe groter de spreiding van de data.

Formule 2 (zie bijlage)

Blijkt een distributie ongeveer symmetrisch, eentoppig en in de vorm van een bel (bellshape) te zijn, dan noemen we dit een normaalverdeling. Bij een normaalverdeling kunnen we de volgende uitspraken doen over de standaarddeviatie.

  1. ±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde

  2. ±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde

  3. ±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Deze waarden zijn dus niet van toepassing bij skewed grafieken.

Er bestaat een verschil tussen de sample statistiek en de daadwerkelijke populatie in de notatie. Als we het hebben over het gemiddelde en de standaarddeviatie van de sample, dan gebruiken we: en s . Echter als we het hebben over het gemiddelde en de standaarddeviatie van de populatie, dan gebruiken we de parameters µ (gemiddelde) en σ (standaarddeviatie). Onthoud wel dat deze populatieparameters meestal onbekend zijn.

Een andere manier om spreiding te beschrijven is met behulp van percentielen. Het Pe percentiel is een waarde waarbij P procent van de observaties onder of op dat percentage valt. Dus bij het 30e percentiel (bijvoorbeeld een waarde van 80) valt 30 procent van de observaties onder die waarde 80 en 70% valt er boven. Een makkelijke manier om percentielen te gebruiken zijn kwartielen. Het eerste kwartiel (Q1) is 25%, het tweede kwartiel (Q2) is 50% (de mediaan dus) en het derde kwartiel (Q3) is 75%. De afstand tussen het eerste en het derde kwartiel wordt het interkwartiele bereik (IQR: interquartile range) genoemd. 1,5 maal de IQR boven Q3 of onder Q1 is een maatstaf om mogelijke uitschieters te vinden.

Al deze gegevens kunnen worden weergegeven in een boxplot. De zogenaamde ‘box’ loopt van het eerste kwartiel tot het derde kwartiel. Vervolgens loopt er een verticale lijn in de box die de mediaan aangeeft. Een horizontale lijn loopt van de laagste observatie tot de hoogste observatie; deze lijn gaat dus ook door de box heen. Uitschieters worden echter aangegeven met een sterretje naast de lijn.

Figuur 5 (zie bijlage)

Z-score

Een Z-score geeft aan hoeveel standaarddeviaties een observatie van het gemiddelde af zit. Je krijgt dus je plek ten opzichte van het gemiddelde, uitgedrukt in een standaard maat. Dit heeft als voordeel dat je direct kunt zien of een score heel verrassend of extreme is.

Zie figuur 6

Hoe meet je de invloed die variabelen op elkaar kunnen hebben? - Chapter 3

Hoe meet je de invloed die variabelen op elkaar kunnen hebben? - Chapter 3

Bij vele onderzoeken zijn er meerdere variabelen aanwezig. Wanneer we bepaalde data willen analyseren op basis van 2 variabelen, dan moet er eerst bepaald worden welke van deze variabelen de onafhankelijke variabele is en welke de afhankelijke variabele. De onafhankelijke variabele (explanatory variable) is de variabele die gemanipuleerd wordt. De afhankelijke variabele (respons variable) is de variabele die gemeten wordt, oftewel de uitkomst.

Er bestaat een associatie tussen deze twee variabelen wanneer een bepaalde waarde van de afhankelijke variabele eerder voorkomt als de onafhankelijke variabele een bepaalde waarde aanneemt. Een voorbeeld: Op de universiteit is de kans groter iemand te vinden met een IQ van 120 dan op een MBO opleiding. Er is dus een associatie tussen universiteit en IQ.

3.1. Associatie tussen 2 categorische variabelen

Bij twee variabelen die categorisch zijn wordt er door middel van een tabel gekeken of er een associatie is. Een dergelijke tabel wordt een “contingency” tabel genoemd. Ten eerste wordt er gekeken welke van de twee categorische variabelen de onafhankelijke en welke de afhankelijke variabele is. Het kan ook voorkomen dat ze beiden kunnen zijn. Het belang van deze informatie is om een duidelijke conclusie te kunnen trekken over welke variabelen een associatie hebben met elkaar en welke juist niet.

Om de tabel te maken worden de gegevens van de ene categorische variabele in de kolom gezet en de gegevens van de andere categorische variabele in de rij gezet. Hierbij maakt het niet uit waar de onafhankelijke variabele wordt geplaatst en waar de afhankelijke. Een combinatie van een rij met een kolom wordt een cel genoemd. In deze cel staat de frequentie van hoe vaak de combinatie van de twee categorische variabelen voorkomt. In plaats van frequenties kunnen er ook proporties of percentages worden weergegeven. Er is een associatie tussen de twee categorische variabelen wanneer de percentages/proporties genoeg van elkaar verschillen.

Figuur 7 (zie bijlage)

3.2. Associatie tussen 2 kwantitatieve variabelen

Wanneer er twee variabelen zijn die kwantitatief zijn, zoals inkomen en IQ, dan wordt er gebruik gemaakt van een scatterplot om te kijken naar een mogelijke associatie. Een scatterplot heeft een x-as (de onafhankelijke variabele) en een y-as (de afhankelijke variabele). De waarde van beide variabelen wordt door middel van een punt aangegeven tussen de twee assen. Vervolgens wordt er gekeken of alle punten bij elkaar een trend vormen. Een trend heeft een lineaire vorm. Er is een positieve associatie wanneer de waarde van X omhoog gaat en de waarde van Y ook. Er is een negatieve associatie wanneer de waarde van X omhoog gaat en de waarde van Y naar beneden.

Om de sterkte van een associatie te bepalen wordt er gekeken naar de correlatie. Een correlatie somt de richting en de sterkte van de associatie tussen twee kwantitatieve variabelen op. Er zijn een aantal voorwaarden voor een correlatie. Ten eerste moet de lijn een lineaire vorm aannemen. Ten tweede valt de correlatie altijd tussen de -1 en +1. Hoe dichter de waarde bij de +1 ligt, des te sterker is de positieve correlatie. Ligt de waarde dicht bij -1, dan is er een sterke negatieve correlatie. Ligt de waarde dicht bij 0, dan is er een zwakke tot geen correlatie aanwezig (de lijn is hier haast niet meer lineair). Een belangrijk punt is bovendien dat een correlatie geen oorzaak weergeeft; beide variabelen kunnen zowel afhankelijk als onafhankelijk zijn. Een dergelijke conclusie als A heeft B veroorzaakt mag dan ook nooit bij correlaties!

Een laatste voorwaarde is dat een correlatie niet afhangt van variabele units. Het maakt dus niet uit of je met kilometers of centimeters bezig bent, alles valt tussen de -1 en +1. Correlatie is een gestandaardiseerde waarde.

Zie Formule 3 (bijlage)!

3.3. Associatie tussen kwantitatieve en categorische variabelen

Een voorbeeld van een kwantitatieve en categorische variabele samen is IQ en sekse. Wanneer bij deze variabelen gekeken wordt naar een associatie dan vergelijk je de categorieën (man en vrouw) door het gebruik van het gemiddelde en spreiding van de kwantitatieve variabele. Voorbeeld: mannen hebben een IQ van gemiddeld 104 en een standaarddeviatie van 6,34. Vrouwen hebben een IQ van gemiddeld 108 en een standaard deviatie van 5.68. Vervolgens kan er bepaald worden of deze gemiddelden genoeg van elkaar verschillen om te zeggen dat er een associatie is tussen sekse en IQ. Dit wordt later uitgebreid besproken.

3.4. Voorspellen van de uitkomst van een variabele

Wanneer twee variabelen een lineair verband hebben dan kunnen we dit met een correlatie beschrijven. Echter, in de statistiek wil men naast beschrijven ook graag voorspellingen doen. Dit wordt gedaan met behulp van een regressie. Er wordt een vergelijking opgesteld die het patroon van het lineaire verband het best kan beschrijven. Met deze vergelijking kunnen dan voorspellingen gedaan worden. In tegenstelling tot bij de correlatie, moet bij een regressie altijd de onafhankelijke en afhankelijke variabele geïdentificeerd worden. Als X de Y voorspelt ontstaat er namelijk een andere lijn dan wanneer Y de X voorspelt. Dit komt omdat bij regressie de lineaire lijn afhangt van units (kilo’s, meters, etc) terwijl dit bij correlatie niet het geval is.

Formule 4 (zie bijlage)

In deze formule staat de Aanduiding 1 (zie bijlage) voor de y-intercept. Dit is waar de lijn de Y-as raakt; de X waarde is op dat moment 0. De Aanduiding 2 (zie bijlage) in de formule wordt de helling (slope) genoemd. Dit geeft aan hoeveel de Y-waarde veranderd als de X met 1 unit omhoog gaat. Is de helling gelijk aan 0, dan is de regressielijn horizontaal.

Figuur 8 (zie bijlage)

Een regressievergelijking wordt ook wel een voorspellingsvergelijking genoemd. Wordt er bij de X een getal ingevuld, dan kan door de berekening van de formule de y worden voorspeld.

Een regressielijn probeert zo goed mogelijk een voorspelling te doen. Er zal echter vaak een verschil zitten tussen de echte waarde en de voorspelde waarde. Dit verschil wordt ook wel de voorspellingsfout genoemd, de waarde van dit verschil is het residu (residual). Om de beste voorspellingslijn te krijgen moeten deze residuen zo klein mogelijk zijn. Je moet het Y-intercept en de helling dus zodanig kiezen dat de regressielijn het beste past. Dit kan berekend worden door middel van de “least square” methode. Deze wordt echter met de computer berekend. Handmatig zou dit veel tijd in beslag nemen. Men moet namelijk eerst een regressielijn kiezen, vervolgens moeten de waarde van elk punt van de werkelijke waarde worden afgetrokken. Dit wordt gekwadrateerd en bij elkaar opgeteld. Dit zou dan voor elke mogelijke regressielijn moeten worden gedaan. De regressielijn met de laagste residuen is de beste regressielijn.

Figuur 9 (zie bijlage)

De som van de residuen is altijd 0. Sommige residuen zijn namelijk negatief en anderen positief; ze middelen elkaar echter altijd uit tot 0. Dit is de reden dat in de formule de residuen eerst worden gekwadrateerd voordat ze worden opgeteld. Daarnaast loopt een regressielijn altijd door het punt Aanduiding 3 (zie bijlage).

Wordt er geen goede grafiek gegeven, maar wel een aantal waarden dan is het ook mogelijk het Y-intercept en de helling te berekenen aan de hand van deze waarden.

Formule 5 (zie bijlage)

Waarschuwingen bij associaties

Bij zowel correlaties als regressies moet men terughoudend zijn met conclusies trekken. Enkele potentiële problemen komen hier aan bod.

Een eerste probleem wordt extrapoleren genoemd. Dit is een time trend (tijdserie) volgen en de toekomst voorspellen, zonder dat er data beschikbaar zijn over de toekomst. Een trend kan in de toekomst anders zijn dan in het heden of in het verleden. Op het moment dat er dus wel een voorspelling gedaan wordt over de toekomst, wordt de assumptie gelegd dat de trend in de toekomst hetzelfde blijft. Voorspellingen over de toekomst die gebruik maken van tijdseries worden ook wel forecasts genoemd.

Een tweede probleem dat zich kan voordoen heeft te maken met de regressie-uitschieters. Dit zijn uitschieters die voor X en Y samen uitschieters zijn, maar voor X en Y afzonderlijk niet. Daarom moet er altijd een scatterplot worden geconstrueerd om te kijken of er uitschieters zijn.

Een derde en heel belangrijk punt om te onthouden is het feit dat een correlatie nooit een oorzakelijk verband impliceert. Er is wel een associatie tussen twee variabelen, maar er mag nooit geconcludeerd worden dat de ene variabele de andere variabele veroorzaakt. Een verband tussen twee variabelen kan namelijk ook door andere dingen komen. Zo kan er bijvoorbeeld sprake zijn van een lurking variabele; dit is een niet geobserveerde derde variabele die invloed heeft op de associatie tussen de twee variabelen. Als een derde variabele wordt toegevoegd en de richting van de associatie blijkt te veranderen, dan noemen we dit een Simpson’s paradox. Een voorbeeld: het aantal geslaagden correleert met het aantal leraren en met het aantal Engels boeken. De lurking variabele is hier natuurlijk de grootte van de school.

Daarnaast kan ook nog iets anders invloed hebben op de associatie tussen twee variabelen. We noemen dit een confound; oftewel een geobserveerde derde (onafhankelijke) variabele. De twee onafhankelijke variabelen zijn zowel met de afhankelijke variabele geassocieerd als met elkaar. Het verschil tussen een lurking variabele en confounds is dat confounds wel geobserveerd worden in het onderzoek. Een lurking variabele zou dus als het later gevonden is en meegenomen wordt in het onderzoek kunnen veranderen in een confound.

Hoe kun je data voor statistisch onderzoek verzamelen? - Chapter 4

Hoe kun je data voor statistisch onderzoek verzamelen? - Chapter 4

4.1. Type onderzoek

Om even te herhalen wat al eerder is genoemd: bij statistiek is men vaak geïnteresseerd in bepaalde gegevens van de populatie. Om hier onderzoek naar te doen is het vaak onmogelijk de hele populatie te onderzoeken, daarom wordt er gebruik gemaakt van een deel van de populatie, namelijk een sample. Er zijn vervolgens twee soorten onderzoeken mogelijk, observatieonderzoek of experimenteel onderzoek.

Bij observatieonderzoek observeert de onderzoeker de afhankelijke en onafhankelijke variabele van de sample zonder iets gemanipuleerd te hebben. Een probleem bij observatieonderzoek is de mogelijke invloed van een lurking variabele op de resultaten. Er kunnen bij dit soort onderzoek dan ook geen causale verbanden gelegd worden. Experimentele onderzoeken hebben geen last van deze problemen. Bij dit soort onderzoeken worden de subjecten (mensen, dieren, etc) uit de sample random toegewezen aan bepaalde condities. De eigenschappen van de subjecten zijn dus gelijk verdeeld over de condities; alleen de condities zelf zijn gemanipuleerd en verschillen dus van elkaar. De waarde van de afhankelijke variabele die wordt gemeten wordt dus bepaald door de verschillende condities waarin de subjecten zitten. Dit soort onderzoek verkleint de kans op een lurking variabele en geeft de mogelijkheid om causaliteit vast te stellen.

Waarom wordt dan niet alleen experimenteel onderzoek gebruikt als dit zoveel voordelen geeft? In een aantal gevallen is experimenteel onderzoek niet mogelijk. Ten eerst is experimenteel onderzoek niet altijd ethisch. Denk hierbij aan onderzoek naar de invloed van kindermisbruik op de toekomst van een kind. Ten tweede is het in de praktijk niet altijd zo dat de subjecten doen wat er van ze gevraagd wordt. Onderzoek je dan nog wel het juiste? Ten slotte nemen sommige onderzoeken jaren in beslag, en welke subjecten willen nu 30 jaar wachten/meedoen aan een onderzoek? Voor dit soort problemen wordt vaak observatieonderzoek ingezet.

Er zijn verschillende vormen van observatie. Ten eerste heb je een sample survey; hierbij wordt een sample van mensen geselecteerd en geïnterviewd om data te verzamelen. Een tweede type observatie is een census, dit is een survey waarbij men probeert het aantal mensen in de populatie te tellen en daarbij bepaalde eigenschappen te meten. Hierbij willen ze dus de hele populatie meten. Dit is in de praktijk echter zelden mogelijk. Het is praktischer om een sample te nemen.

Een laatste type observatie, die vrij onbetrouwbaar is, is de anecdotal evidence. Dit zijn persoonlijke informele observaties en vaak niet representatief. Een voorbeeld hiervan is dat jij iemand kent die aan een hartstilstand is overleden en altijd heel veel varkensvlees at. Is dit bewijs dat varkensvlees een hartstilstand kan veroorzaken? Resultaten van goed ontwikkelde studies zijn meer geloofwaardig dan van anecdotal evidence.

4.2. Verkrijgen van samples

Om goede resultaten te verkrijgen uit een onderzoek is het van groot belang dat de sampling van een populatie op een goede manier tot stand is gekomen. Om dit te doen wordt vaak eerst een sampling frame genomen. Dit is een lijst van alle subjecten in de populatie waar later een sample uit wordt genomen. Vervolgens wordt door middel van een random sampling design een aantal subjecten uit het sampling frame geselecteerd. De kans voor elk subject om geselecteerd te worden is door randomisering even groot.

Vervolgens zijn er verschillende methodes om data voor sample surveys te verkrijgen. Ten eerste door middel van persoonlijke face-to-face interviews. Voordeel hiervan is dat mensen eerder meedoen. De hoge kosten vormen echter een nadeel. Een tweede middel is via telefonische interviews. Een voordeel hiervan zijn de lagere kosten, maar heeft als nadeel dat mensen via de telefoon vaak minder tijd hebben en eerder afhaken. Ten slotte wordt meestal via vragenlijsten data verkregen. Een voordeel is dat het goedkoper is en minder persoonlijk dan face-to-face, een nadeel is dat minder mensen meedoen.

Een belangrijk punt bij het verkrijgen van samples is in hoeverre de resultaten van deze samples representatief zijn voor de gehele populatie. Om hier iets meer zekerheid over te geven bestaat er een margin of error. Een voorbeeld van een margin of error is dat als de sample 100 keer wordt uitgevoerd, deze 95 keer de echte waarde bevat. De formule van de margin of error staat hieronder. Deze is niet volledig, maar zal in latere hoofdstukken uitgebreid worden.

Formule 6 (zie bijlage)

Wanneer de resultaten van de sample niet representatief zijn voor de populatie dan spreekt men over een bias. Er zijn verschillen vormen van bias. Ten eerste is er de sampling bias, dit kan of inhouden dat er geen gebruik is gemaakt van random sampling of dat er “undercoverage” is van de sample. Undercoverage van een sample wil zeggen dat een deel van de populatie mist. Een tweede soort bias is de non-respons-bias, dit is als een bepaalde groep mensen vaker niet aan een onderzoek mee wil doen. Een laatste soort bias is de responsbias, dit houdt in dat mensen geen eerlijke antwoorden geven (ze willen bijvoorbeeld goed overkomen), of als de onderzoeker een verkeerde en/of misleidende vraagstelling hanteert.

Missing Data

Erg belangrijk zijn de ontbrekende waarden ofwel Missing data in je data set. Het komt bijna nooit voor in sociaal-wetenschappelijk onderzoek dat alle variabelen gescoord worden. Respondenten slaan wel eens een vraag over, kunnen of willen die niet beantwoorden, of de vraag is niet van toepassing. Je kunt dan geen waarde invoeren bij de betreffende variabele. Sommige antwoorden kunnen niet verwerkt worden en krijgen dan ook een missing value. Belangrijk hierbij is na te gaan wat de betekenis is van missing data. Zijn er veel respondenten die een bepaalde vraag niet invullen, dan kan dat iets zeggen over de vraag.

Hoe een data sample wordt verkregen kan ook leiden tot bias. Twee manieren om een sample te verzamelen zijn soms nodig maar niet ideaal:

Convenience sampling is een niet - aselecte steekproeven techniek waarbij proefpersonen zijn geselecteerd vanwege hun gemakkelijke bereikbaarheid en de nabijheid van de onderzoeker

Een vrijwilliger steekproef is er een waarin de deelnemers zich vrijwillig hebben aangemeld om deel te nemen aan de studie. Een groot probleem met een vrijwilliger steekproef is dat de deelnemers goed kunnen zich vrijwillig hebben aangemeld omdat ze hun eigen agenda / bijbedoelingen die kunnen botsen met de doelstellingen van de onderzoeker.

4.3. Manieren van experimenteel onderzoek doen

Bij experimenteel onderzoek worden de subjecten aan verschillende behandelgroepen (treatmentgroups) toegewezen. Een goed experiment heeft naast de bepaalde behandelgroepen ook een controlegroep. Na afloop van het experiment worden de behandelgroepen met de controlegroep vergeleken op mogelijke verschillende resultaten. Blijkt er een verschil te zijn dan heeft de manipulatie van de behandelgroepen waarschijnlijk gewerkt. Om er zeker van te zijn de er geen psychologische effecten optreden wordt er vaak gebruik gemaakt van een placebo. Een placebo (nepbehandeling) wordt dan aan de controlegroep gegeven zodat ze wel denken dat ze de behandeling ondergaan, maar de echte werking van de behandeling niet aanwezig is. Soms kan namelijk het idee van bijvoorbeeld medicijnen innemen een persoon al beter maken. Zodra nu de controlegroep met placebo wordt vergeleken met de behandelgroep, komt de mogelijke echte werking van de behandeling naar voren en niet het psychologische effect.

Een andere manier van een goed experimenteel onderzoek opzetten is het gebruik maken van geblindeerde onderzoeken. Een enkel geblindeerd onderzoek houdt in dat de deelnemers van het onderzoek niet weten aan welke conditie of behandelgroep ze zijn toegewezen. Is het onderzoek dubbel geblindeerd dan weten zowel de deelnemers als de onderzoekers niet wie in welke conditie zit. Het belang van de “geblindeerde” onderzoeker is dat hij/zij dan niet (on)bewust informatie of support kan verstrekken aan een bepaalde behandelgroep.

Wanneer de verschillen in resultaten tussen de twee behandelingen zo groot is dat het niet aan toeval te wijden valt, kunnen we deze verschillen aan de onafhankelijke variabele toewijzen. De resultaten zijn dan statistisch significant.

4.4. Andere manieren van onderzoek doen

Behalve de twee bekendste type onderzoeken, experimenteel en observatie, zijn er nog vele andere mogelijkheden. Hieronder wordt een aantal voorbeelden gegeven van andersoortig onderzoek.

Matched-pair design is een design waarbij je als deelnemer zowel in behandelgroep A als in behandelgroep B zit. Hierbij kan gedacht worden aan twee soorten diëten. Een deelnemer zal eerst een nepdieet ondergaan en vervolgens het echte dieet. De resultaten van beide behandelingen worden dan met elkaar vergeleken.

Cross-over design. Dit is een design waarbij de deelnemers meerdere keren wisselen gedurende het onderzoek. Dit kan eruit zien als A-B-A-B of B-A-B-A of A-B-A-C.


Er zijn verschillende mogelijkheden van het random toewijzen van subjecten aan samples. De eerste manier is de simple random sampling, deze is al eerder genoemd. Hierbij hebben alle subjecten in de populatie een even grote kans om in de sample terecht te komen. Een tweede manier is door cluster sampling. Hierbij worden eerst clusters gemaakt (bijvoorbeeld alle scholen in Amsterdam), vervolgens wordt één of meerdere clusters gekozen voor in de sample. De leerlingen zijn dus niet random, alleen de scholen. Tenslotte bestaat er ook stratified sampling. Hierbij wordt de populatie in verschillende groepen (strata) verdeeld, waarna uit elke strata een sample wordt gekozen (bijvoorbeeld alle eerste klassen in Amsterdam zijn één strata en alle tweede klassen zijn één strata, etc).

Figuur 10 (zie bijlage)

Er zijn ook observatieonderzoeken die gedurende een bepaalde periode plaatsvinden. Deze onderzoeken wordt cross-sectional genoemd. Daarin kan weer onderscheid worden gemaakt tussen retrospectieve en prospectieve onderzoeken. Retrospectieve onderzoeken kijken terug in de tijd. Voorbeeld: het aantal kankerpatiënten vergelijken met het telefoongebruik van deze mensen. Prospectieve onderzoeken kijken in de toekomst. Tenslotte bestaat er ook nog een case control studie. Bij deze vorm van retrospectief onderzoek worden proefpersonen met een relevante responsuitkomst (zoals het hebben van een bepaalde ziekte) vergeleken met mensen die deze uitkomst niet hebben. De ‘patiënten’ en ‘controles’ worden vergeleken op een onafhankelijke variabele (zoals wel of niet roken).

Hoe werkt statistische kansberekening? - Chapter 5

Hoe werkt statistische kansberekening? - Chapter 5

In veel onderzoeken en gebeurtenissen in ons dagelijks leven zijn er onzekerheden. In de statistiek wil men graag toch iets kunnen zeggen over deze onzekerheden. Hiervoor gebruikt men kansen. Met kansen kwantificeert men dus eigenlijk onzekerheid. Zo kan men de kans op een willekeurig fenomeen, situaties waarvan de uitkomst onzeker is, voorspellen. Wanneer men onderzoek doet met een random sample, dan is de kans de relatieve frequentie op de lange duur. Voorbeeld: de kans op het gooien van een 4 met een dobbelsteen bij 100 maal gooien is 1/6 of terwijl 16,7 keer.

In het geval van een willekeurig fenomeen is de kans dat iets gebeurd erg onzeker op de korte termijn, dus bij weinig trials. Op de lange termijn kunnen deze fenomenen echter erg voorspelbaar zijn. Zo kan bij 10 keer gooien van een dobbelsteen de keren dat je ‘6’ gooit erg verschillen. Wanneer je echter doorgaat met gooien zal de kans dat je 6 gooit steeds meer te voorspellen zijn. Deze kans zal steeds meer in buurt komen van 1/6.

Het voorbeeld van de dobbelsteen is een voorbeeld van een onafhankelijke trial (simulatie). De uitkomst van een trial heeft geen invloed op een andere trial. Gooi je bij de eerste trial een 4, dan is de kans op elk getal op de dobbelsteen nog steeds even groot voor de volgende trial, namelijk 1/6. Het totaal van het aantal kansen is altijd gelijk aan 1.0. Denk aan het gooien van een munt. De kans op kop is ½ en de kans op munt is ½. Het totaal van alle kansen is dus ½ + ½ = 1.

Er zijn nog enkele andere termen die vaak in het dagelijks leven worden gebruikt met kansen. Ten eerste heb je de law of large numbers, dit speelt in het casino een grote rol. Op korte duur kan het namelijk lijken alsof de kansen in jou voordelen werken en win je veel geld, echter op de lange duur verlies je toch.

Kans wordt gezien als een uitkomst van lange termijn resultaten. Ieder op zichzelf staande observatie kan wel of niet deze uitkomst hebben maar de kans is het percentage dat deze uitkomst verschijnt op de lange termijn.

We hebben het nu voornamelijk gehad over kans op een bepaalde uitkomst op de lange termijn met een groot aantal trials. Deze definitie gaat echter niet altijd op. In sommige situaties kan je niet uitgaan van objectieve informatie zoals data maar moet je de kans dat iets gebeurd berekenen aan de hand van subjectieve informatie. Bayesian Statistics; dit is een subjectieve definitie van kansen. Normaal gesproken zijn kansen natuurlijk objectief. In dit geval komt de uitkomst in de verhouding die jij zelf gelooft, gebaseerd op verkrijgbare informatie en kennis. Voorbeeld: als je gaat trouwen en je voor jezelf de kans inschat dat je ooit gaat scheiden, dan doe je dit door je eigen subjectieve kansen te berekenen en niet door trial en error. Deze manier van kansberekening komt minder vaak voor in de statistiek en wordt daarom ook niet verder behandeld.

5.1. Het vinden van kansen

Om kansen te vinden zijn er regels die toegepast kunnen worden. Ten eerste een paar algemene begrippen voordat we deze regels kunnen begrijpen. Bij een random sample worden alle mogelijke uitkomsten samen de sample space genoemd. Bij een dobbelsteen is dit :U = {1,2,3,4,5,6}. Een mogelijke uitkomst van deze sample space wordt een event genoemd. Voorbeeld: bij 3 keer gooien met een dobbelsteen is {2,6,2} een event.

De kans op event A staat gelijk aan het aantal uitkomsten in event A gedeeld door het aantal mogelijke uitkomsten in de sample space.

Figuur 11 (zie bijlage)

Voorbeeld: Event A is de kans op een 4 of lager bij het 1 keer gooien met een dobbelsteen. De sample space = U = {1 ,2, 3, 4, 5, 6}. Het aantal uitkomsten in event A is {1,2,3,4}. Dus: Formule 7 (zie bijlage)

Het tegenovergestelde van event A, namelijk de kans dat event A NIET gebeurt, wordt het complement van een event (A) genoemd. Dit wordt weergegeven als Formule 8 (zie bijlage). Dit is duidelijker te zien in onderstaand Venn-diagram. Venn-diagrammen zijn goed te gebruiken voor het illustreren van overeenkomsten en verschillen tussen groepen of concepten.

Figuur 12 (zie bijlage)

Een laatste begrip wat hier wordt uitgelegd is disjoint; dit is wanneer 2 events geen uitkomst gemeen hebben.

Figuur 13 (zie bijlage)

Hieronder volgen nu enkele regels die toegepast kunnen worden om kansen te berekenen.

  1. De eerste regel is dat wanneer we de kans op zowel A en B willen weten en de trials onafhankelijk zijn, de eerste trial geen effect heeft op het tweede trial. De kans op zowel A en B wordt ook wel intersection genoemd. De formule van deze regel is P (A en B) = P (A) x P (B). Zijn de events A en B disjoint dan is P (A en B) = 0.

  1. De tweede regel is de kans op A of B of beide, dit wordt ook wel union genoemd. Hier wordt de kans op A plus de kans op B berekend. Echter, omdat nu tweemaal de kans op “A en B” is berekend halen we eenmaal de kans op “A en B” eraf. De formule wordt dus: P (A of B) = P (A) + P (B) – P (A en B). Zijn de events A en B disjoint dan is de formule P (A of B) = P (A) + P (B) ( P (A en B) is namelijk 0 wanneer events disjoint zijn).

Figuur 14 (zie bijlage)

  1. Een derde regel is het vinden van de kans van een event A als de kans op event B is gegeven (of andersom). Dit noemt men ook wel een voorwaardelijke kans. Oftewel men probeert te berekenen hoeveel de kans is dat er een bepaalde gebeurtenis plaatsvindt, gegeven dat er een andere gebeurtenis plaatsvindt.

Formule 9 (zie bijlage)

Deze regel gaat op ongeacht of de events onafhankelijk of afhankelijk van elkaar zijn. Voor de eerste twee regels is het echter wel van belang om te weten of event A en B onafhankelijk zijn.Twee events zijn onafhankelijk wanneer kennis over het verschijnen van de ene de kans dat de andere ook verschijnt niet beïnvloed Event A en B zijn onafhankelijk wanneer:

P (A|B) = P (A)

P (B|A) = P (B)

P (A en B) = P (A) x P (B)

Trekken zonder teruglegging

Een voorbeeld van trekken zonder teruglegging is LINGO. Hierbij worden de getrokken ballen niet teruggelegd in de vaas. Maar misschien wel het meest bekende voorbeeld van een ongeordende greep zonder terugleggen is het trekken van de lottogetallen. Samples zonder teruglegging zijn altijd afhankelijk en disjoint events zijn ook sterk afhankelijk.

Toepassen van de kansregels

Kansberekeningen hebben veel invloed op ons dagelijks leven. Eigenlijk zijn we allemaal constant bezig met het inschatten van situaties. Wat is de kans dat ik een goede baan vind nadat ik deze studie heb afgerond? Wat is de kans dat ik morgen me niet goed kan concentreren wanneer ik dit biertje nog opdrink? We maken constant afwegingen gebaseerd op kansen die niet volledig uit te rekenen zijn.

In de statistiek is een kansmodel een wiskundig model in de vorm van een kansverdeling.

Een kansmodel wordt opgesteld aan de hand van de waarschijnlijke variabelen. De in het model veronderstelde kansverdeling maakt het mogelijk kansuitspraken over deze variabelen te doen.

Kansen en diagnostisch testen

Een diagnostische test voor een conditie noemen we positief wanneer de conditie aanwezig is en negatief wanneer de conditie niet aanwezig is. Hoe goed zijn deze testen eigenlijk? Een manier om dit te testen is om de kans op twee soorten en vaak gemaakte fouten te berekenen.

De Vals Positief: een test zegt dat de conditie aanwezig is maar eigenlijk is dit niet het geval

De Vals Negatief: een test zegt dat de conditie niet aanwezig is maar eigenlijk is dit deze wel aanwezig.

Dan zijn er ook nog de begrippen specificiteit en sensitiviteit. Sensitiviteit is het percentage terecht positieve uitslagen bij een conditie positief. Specificiteit is het percentage terecht negatieve uitslagen bij een conditie negatief.
 

Conditie aanwezig

Positief

Negatief

Ja

Sensitiviteit

Vals negatief

Nee

Vals positief

Specificiteit

Hoe kun je verschillende kansberekeningen bij elkaar optellen? - Chapter 6

Hoe kun je verschillende kansberekeningen bij elkaar optellen? - Chapter 6

6.1. Kansen bij continue random variabelen

In de vorige paragraaf hebben we het gehad over enkele kansen. Soms is er echter een onderzoek waarbij de random sample meerdere keren wordt getoetst. Vervolgens wil men dan de kans over meerdere trials berekenen. Deze kansen worden uiteengezet in een kansendistributie (probability distribution).

Opfrisser soorten variabelen

  1. Continue variabelen
    Continue variabelen kunnen iedere waarde aannemen in een bepaald interval, zoals temperatuur, leeftijd en gewicht. Continue variabelen hebben dus altijd een getal als waarde.

  1. Discrete variabelen
    Discrete variabelen kunnen kwalitatief of kwantitatief zijn. Bij kwalitatieve discrete variabelen is de waarde geen getal, maar een eigenschap zoals haarkleur of de mening over een politieke partij.

  1. Discrete variabelen - Binair
    Binaire discrete variabelen, ook wel dichotome variabelen, herken je aan het feit dat ze maar 2 verschillende waarden kunnen hebben. Bijvoorbeeld linker voet of rechter voet, eens of oneens en gelukkig of ongelukkig.

  1. Discrete variabelen - Nomimaal
    Nominale discrete variabelen zijn kwalitatieve variabelen waarvan de waarde geen logische volgorde hebben. Denk hierbij aan type rijbewijs of type bekleding van het intererieur van een auto.

  1. Discrete variabelen - Ordinaal
    Ordinale discrete variabelen zijn kwalitatieve variabelen waarvan de waarde wel een logische volgorde hebben. Een duidelijk voorbeeld is een vraag met de antwoorden 'tevreden', 'geen mening', 'ontevreden'.

De kansberekeningen van al deze verschillende soorten variabele zijn dus verschillend. Daar wordt verderop in dit hoofdstuk verder op in gegaan.

Als we nog even teruggaan naar hoofdstuk 2 van deze samenvatting dan stond daar de uitleg over parameters: als men het heeft over het gemiddelde en de standaarddeviatie van de sample, dan worden de parameters m en s gebruikt . Echter, als men het heeft over het gemiddelde en de standaarddeviatie van de populatie dan worden de parameters µ (gemiddelde) en σ (standaarddeviatie) gebruikt. Onthoud wel dat deze populatieparameters meestal onbekend zijn. Als er met een normaalverdeling wordt gewerkt, dan worden vaak de parameters µ en σ gegeven. Deze parameters worden vervolgens vergeleken met de parameters van het sample dat is onderzocht.

6.2. Kansen voor een Bell-Shaped kans verdeling

Voorbeeld: het testen van de snelheid van auto’s op de snelweg waar 100 km per uur gereden mag worden. Gemiddeld zullen mensen 100 km per uur rijden. Er zijn daarentegen ook een aantal mensen die harder rijden dan 100 en mensen die minder hard rijden. De gegevens uit dit voorbeeld kunnen weergegeven worden op een continue schaal, waarbij de laagste snelheid links staat en de hoogste snelheid rechts. De meeste mensen zullen rond het midden van de schaal zitten, de uitschieters zullen aan de zijkant van de distributie zitten. Dit is een typisch voorbeeld van een normaalverdeling. De normale verdeling is een continue kansverdeling. Kansverdelingen waarbij een continue variabele een rol speelt komen veel voor. Als je bijvoorbeeld kijkt naar het gewicht van een pak koffie van een bepaald merk, of naar de gemiddelde opbrengst van een hectare grond of naar de lengte van een groot aantal personen dan heb je steeds te maken met een continue kansverdeling.

Bij een normaalverdeling is de distributie symmetrisch, bell-shaped en heeft altijd 2 parameters, namelijk het gemiddelde en de standaarddeviatie.

Om te bepalen waar een bepaalde observatie van een continue random variabele ligt in de normaalverdeling wordt vaak de Z-score berekend. De Z-score is het aantal standaarddeviaties dat deze observatie van het gemiddelde vandaan ligt. Ter herhaling staan hieronder de percentages van de observaties die binnen een bepaalde standaarddeviatie vallen.

  1. ±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde

  2. ±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde

  3. ±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Om de Z-score te bepalen van een bepaalde observatie, haal je van deze geobserveerde waarde het gemiddelde af en deel je dat getal door de standaarddeviatie. Is deze score negatief dan valt de observatie onder het gemiddelde, is de Z-score positief dan valt de observatie boven het gemiddelde.

Formule 10 (zie bijlage)

Een cumulatieve kans is de kans op het optreden van een uitkomst gelijk aan of kleiner dan een waarde x.

Bij gegeven μ en σ ligt de curve van de normale verdeling vast. De kansen kunnen dan als oppervlaktes onder de grafiek berekend worden. Het is niet makkelijk om deze integralen zomaar voor willekeurige kansen te berekenen. Daarom heeft men een andere methode ontwikkeld: via tabellen kan men de kansen voor uitkomsten gemakkelijk opzoeken / aflezen. Voor de normale verdeling heeft men een tabel geconstrueerd met - μ = 0 en σ = 1 -. Dit noemt men ook wel de standaardnormale verdeling.

6.3. Kansen bij discrete random variabelen

Bij discrete random variabelen gaat het om de kans tussen twee mogelijke uitkomsten. De verdeling die hieruit voortkomt wordt de binomiale verdeling genoemd. In een sample wordt eerst de kans op een van de twee mogelijke uitkomsten berekend. De uitkomst waarin men geïnteresseerd is wordt “succes” genoemd, de andere uitkomst is “geen succes”. Vervolgens wordt deze sample trial meerdere keren uitgevoerd, waarna van alle gegevens een verdeling kan worden gemaakt. Er zijn echter een paar voorwaarden. Ten eerste moet elke trial dezelfde kans op “succes” hebben; deze kans wordt genoteerd als P. De kans op “geen succes” wordt genoteerd als 1 – P. Daarnaast moeten de trials ook onafhankelijk van elkaar zijn. Dat wil zeggen dat de ene trial geen invloed heeft op de andere trial. Het aantal succes bij n trials wordt genoteerd als X.

Een faculteit wordt genoteerd als “a!”. De “a” is in dit geval een getal en “!” wordt uitgesproken als faculteit. Dit betekent dat a! betekent dat je a*(a-1)*(a-2)*(a-3)*…*1. In een voorbeeld: 4!=4*3*2*1. Daarnaast geldt dat 1! en 0! altijd 1 is. Ook geldt dat een faculteit vóór andere berekeningen komt (delen, optellen en aftrekken etc.)

Voorbeeld: het aantal 6 bij het 3 maal gooien met een dobbelsteen.

Elke trial is een gooi met de dobbelsteen. Er zijn twee mogelijke uitkomsten. Succes is het gooien van een {6}, “geen succes” is het gooien van een {1,2,3,4,5}. De kans op succes is gelijk aan P = Deze kans is voor elke gooi gelijk. De 3 trials zijn ook onafhankelijk; het gooien van de dobbelsteen hangt niet af van de vorige gooi. n = 3 (het aantal maal gooien); X = het aantal 6 dat gegooid wordt; dit kan {0,1,2,3} als uitkomst hebben.

Om de kans van een binomiale random variabele te berekenen is er de volgende formule:

Formule 11 (zie bijlage)

De gegevens van het bovenstaande voorbeeld zullen worden gebruikt om de formule uit te leggen. Stel dat we de kans willen weten van het twee maal gooien van een 6 bij drie trials.

  • We berekenen dan de P(2) = de kans op twee successen, dus twee maal het gooien van een 6.

  • Formule 12 (zie bijlage) = de kans op succes tot de macht van het aantal keren dat dit succes gegooid moet worden.

  • Formule 13 (zie bijlage) = de kans op geen succes (1 – de kans op succes) tot de macht van het aantal keren dat “niet succes” (totaal aantal keer gooien – aantal worpen succes) gegooid wordt.

  • Formule 14 (zie bijlage) = Dit deel van de formule geeft weer hoeveel mogelijkheden er zijn. Het gooien van tweemaal een 6 kan op verschillende manieren, bijvoorbeeld: {662} of {366} of {626}. Deze formule maakt gebruik van het nCr knopje op de rekenmachine. De n staat voor het totaal aantal worpen en de x staat voor het aantal worpen succes. Deze formule wordt uitgesproken als 3 boven 2. Dit wordt als volgt in de rekenmachine ingevuld: 3 nCr 2. Hier komt het getal 3 uit. Er zijn dus drie verschillende mogelijkheden om tweemaal een 6 te gooien bij drie worpen.

Simpel gezegd zegt de formule: de kans op succes maal de kans op geen succes maal het aantal mogelijkheden.

Formule 15 (zie bijlage)

Ook bij binomiale distributies kan een gemiddelde en een standaarddeviatie worden bepaald. Dit gaat met de volgende formules:

Formule 16 (zie bijlage)

Bijna alle kansen van de binomiale distributie vallen tussen de µ - 3 σ en µ + 3 σ. De binomiale distributie heeft bij benadering een normaalverdeling. Dit geldt alleen wanneer n groot genoeg is. n is groot genoeg wanneer zowel de uitkomst van n∙p als n(1 - p) beide minstens 15 zijn.

Hoe kun je kansberekeningen gebaseerd op steekproeven interpreteren ten opzichte van de "werkelijke situatie"? - Chapter 7

Hoe kun je kansberekeningen gebaseerd op steekproeven interpreteren ten opzichte van de "werkelijke situatie"? - Chapter 7

In het vorige deel is er gekeken naar hoe kansen worden berekend. Dit zijn allemaal kansen uit een steekproef. Toch wil men graag bepalen hoe dicht deze kansstatistiek bij de populatieparameter (de echte waarde) valt. Dit wordt berekend door middel van kansdistributies. Wanneer er een kansdistributie van statistiek wordt gemaakt dan noemt met dit een sampling distributie. Er zijn twee soorten distributies. Eén voor categorische variabelen, waarbij men geïnteresseerd is in proporties. De andere distributie is voor kwantitatieve variabelen, waarbij men geïnteresseerd is in de gemiddelden.

7.1. Overzicht alle soorten distributies

Populatiedistributie: dit is de kansdistributie waarvan we een sample nemen. De waarde van de parameters worden voor categorische variabelen uitgedrukt in p en voor de kwantitatieve variabele in µ. Meestal zijn deze waarden onbekend, maar door middel van de onderstaande distributies proberen we hier toch in de buurt van te komen.

Datadistributie: dit is de distributie van de sample data, die verkregen zijn door middel van onderzoek. De statistische waarden zijn sample proporties en sample gemiddelden. Hoe groter de steekproef hoe dichter de waarde bij de populatie distributie komt te liggen.

Sampling distributie: Dit is de kansdistributie van een sample statistiek, zoals sample proporties en sample gemiddelden. De sampling distributie laat zien hoe dicht de sample statistiek ligt bij de onbekende parameter. Wanneer sample grootte n groot genoeg is dan is deze distributie volgens de centrale limietstelling bij benadering normaal verdeeld. De standaarddeviatie bij een sampling distributie wordt de standaarderror genoemd.

Voor categorische (binaire) data, heeft de sampling distributie voor de sample proportie een gemiddelde dat gelijk staat aan de populatie proportie p en een standaard error van Formule 19 (zie bijlage).

Een voorbeeld van een sampling distributie voor proportie: hoeveel Nederlanders zijn voor de monarchie? In een steekproef van 500 deelnemers komt daar 0.67 uit. Dit zijn niet alle Nederlanders, dus hoe dicht zitten we bij de echte proportie van het totaal aantal Nederlanders? Door meerdere malen een steekproef van 500 deelnemers te nemen komen er steeds verschillende proporties uit: 0.70; 0,65; 0,78; 0,54, etc. Wanneer van deze proporties een kansdistributie wordt gemaakt, noemen we dat een sampling distributie.

Van deze sampling distributie van een proportie kan het gemiddelde en de standaarddeviatie worden berekend.

Formule 17 (zie bijlage)

Wordt er vanuit een binomiale distributie naar een sampling distributie gewerkt, deel dan het gemiddelde en de standaarddeviatie van de binomiale distributie door n trials. Om verwarring te voorkomen tussen standaarddeviatie van een normale kansdistributie en die van een sampling distributie wordt de standaarddeviatie van een sampling distributie de standaarderror genoemd.

Er bestaat dus niet alleen een sampling distributie van proporties, maar ook van het sample gemiddelde Aanduiding 4 (zie bijlage). Van alle gemiddelden in meerdere steekproeven kan een sampling distributie gemaakt worden. De vorm van deze distributie is normaal verdeeld. Het sample gemiddelde Aanduiding 4 (zie bijlage) fluctueert van sample tot sample rond het populatie gemiddelde µ. De standaard error wordt berekend door de standaarddeviatie te delen door de wortel van n (sample grootte).

Formule 18 (zie bijlage)

De standaard error wordt kleiner naarmate de sample grootte groter wordt.

7.2. Centrale limietstelling

Wat als blijkt dat de sample niet een normaalverdeling heeft? Denk hierbij aan het aantal uren tv kijken. Het grootste gedeelte van de mensen kijkt tussen de één à twee uur televisie per dag. Er zijn echter uitzonderingen, waarbij mensen acht uur tv kijken per dag. Deze distributie zal dan skewed naar rechts zijn. Ondanks dat deze kans distributie niet normaal verdeeld is, is de sampling distributie van het sample gemiddelde wel normaal verdeeld . Dit wordt de centrale limietstelling genoemd. Dit gebeurt alleen als de sample grootte n groot genoeg is, dit is het geval vanaf n = 30.

Effect van n op de standaard deviatie van een verdeling

Wanneer de grote van de steekproef toeneemt, de noemer toeneemt en dus de standaard deviatie van het gemiddelde afneemt. In de praktijk betekent dit dat in grote steekproeven het gemiddelde dichter bij het gemiddelde van de populatie valt.

Wat is een betrouwbaarheidsinterval? - Chapter 8

Wat is een betrouwbaarheidsinterval? - Chapter 8

Met behulp van statistiek wil men graag bepaalde conclusies trekken. Deze statistische gevolgtrekkingen maken gebruik van sampling distributies die via data van gerandomiseerde experimenten verkregen zijn. Deze distributies zijn bij benadering normaal verdeeld. Echter om meer zekerheid te verkrijgen over de conclusies die gemaakt moeten worden, wil men iets zeggen over de betrouwbaarheid van de sample. Hoe betrouwbaar zijn de samplegegevens tegenover de echte (onbekende) populatiegegevens? Hiervoor zijn verschillende methodes:

8.1. Populatieparameters schatten kan op twee manieren.

  1. Puntschatting: bij een puntschatter wordt door middel van één getal een zo goed mogelijke gok gedaan. Dit is een gecentreerde parameter zoals het gemiddelde of de mediaan. Daarnaast is een kleine standaarderror ook gewenst.

  2. Intervalschatting: een betrouwbaarheidsinterval is een range waarbinnen de meeste echte waarden vallen. Er kan een interval van de sampling distributie gemaakt worden met behulp waarvan we bijvoorbeeld kunnen zeggen dat 95% van de echte waarden binnen deze range valt. Om een dergelijke range te maken gebruiken we het gemiddelde en de standaarderror. Eerder hebben we al gezegd dat 95% van de observaties binnen 2 standaarddeviaties van het gemiddelde valt. Om precies te zijn valt 95% van de observaties 1.96 standaarddeviatie boven en onder het gemiddelde of proportie. De margin of error (de range) heeft dan ook als formule:

Formule 20 (zie bijlage)

8.2. Betrouwbaarheidsinterval voor categorische data: populatieproportie

Bij het construeren van een betrouwbaarheidsinterval van categorische data is men geïnteresseerd in de populatieproportie. De gegevens zijn meestal binair (bestaand uit 2 categorische variabelen) en er wordt gekeken of de gegevens wel of niet in de te onderzoeken categorie valt. Hierbij wordt onderscheid gemaakt tussen succes en geen succes. Vervolgens worden de data van de sample proportie van successen opgeteld en wordt er een betrouwbaarheidsinterval van de populatieproportie geconstrueerd. De populatie proportie wordt genoteerd als p en de sample proportie wordt genoteerd als . Het dakje op de p staat voor het feit dat het om een geschatte waarde gaat. Meestal gaat men uit van een betrouwbaarheidsniveau van 95%. Dus op de lange termijn vallen 95% van de populatieproporties binnen dit interval.

Formule 21 (zie bijlage)

Om deze formule te laten gelden is er een voorwaarde en dat is dat zowel het aantal successen en het aantal niet successen Formule 22 (zie bijlage)

Daarnaast gebruikt men voor heel belangrijke beslissingen (leven of dood) een hoger betrouwbaarheidsinterval van 99%. De formule verandert dan in Formule 23 (zie bijlage).

De margin of error is de kans dat de methode resulteert in een verkeerde uitkomst. Deze kans is 1- 0,95 (betrouwbaarheidsniveau van 95%) = 0,05. De margin of error voor een betrouwbaarheidsinterval wordt groter wanneer het betrouwbaarheidsinterval groter wordt en wordt kleiner wanneer de sample grootte groter wordt.

8.3. Betrouwbaarheidsinterval bij kwantitatieve variabelen.

Bij het construeren van een betrouwbaarheidsinterval voor kwantitatieve data is men geïnteresseerd in het populatiegemiddelde. De formule voor een populatiegemiddelde lijkt erg op die van populatieproportie. Ook hier gaat men uit van een geschatte waarde ± de margin of error. De geschatte waarde wordt genoteerd als Aanduiding 5 (zie bijlage). De margin of error wordt echter anders berekend. Bij populatieproportie gebruiken we de z-waarde met de standaarderror. Bij populatiegemiddelde gebruiken we niet de z-distributie maar een andere vergelijkbare distributie. Deze distributie wordt de t-distributie genoemd en is ook bell-shaped, maar heeft een dikker uiteinde dan de normale z-distributie. De waarde van een t-distributie hangt af van de degrees of freedom (df), op dit moment wordt er niet verder ingegaan wat dit betekent. Deze worden vaak gegeven en vervolgens kan er in een tabel de bijbehorende kans worden opgezocht. De kans die bij t.025 gegeven wordt, wordt gebruikt voor een 95% betrouwbaarheidsinterval. De standaarderror bij populatiegemiddelde wordt berekend door de standaarddeviatie te delen door wortel n.

Formule 24 (zie bijlage)

Vele vaak gebruikte statistische methoden geven onbetrouwbare resultaten in de aanwezigheid van uitschieters. Robuuste statistische methoden blijven goed werken wanneer er atypische observaties aanwezig zijn of wanneer er niet perfect aan andere modelvoorwaarden voldaan is.

8.4. Bepalen van de grootte van de sample size

Hoe bepaalt men nu hoe groot de sample size van een onderzoek moet zijn? Dit hangt af van hoe precies het betrouwbaarheidsinterval moet zijn. En hoe klein of groot dus de margin of error moet zijn. Hoe kleiner de margin of error is, des te groter de sample size moet zijn.

Stel dat we een margin of error willen van maximaal 0,05. Om te berekenen hoe groot n moet zijn, zijn er twee formules. Één voor de populatieproportie en één voor het populatiegemiddelde.

Formule 25 (zie bijlage)

Wanneer Aanduiding 6 (zie bijlage) onbekend is wordt 0,50 gebruikt als geschatte waarde, omdat dit de grootste n geeft en dus het veiligste is. De z hangt af van de grootte van betrouwbaarheid, dus z =1,96 bij 95%. M staat voor de margin of error die gewenst is.

Formule 26 (zie bijlage)

De s in de formule wordt geschat. Meestal wordt de sample standaarddeviatie gebruikt.

Er wordt in deze samenvatting niet verder ingegaan op het tot stand komen van deze formules. Het belangrijkste is dat er mee gerekend kan worden.

Computers gebruiken voor nieuwe inschattingen

Er bestaan ook verscheidene heel krachtige computer-intensieve niet-parametrische methoden om de betrouwbaarheidsintervallen op bepaalde statistieken en de p-waarden van bepaalde tests te berekenen

resampling methoden:

bootstrap methode:
- niet-parametrische bootstrap methode: originele meetwaarden resamplen met teruglegging, zodat je bepaalde meetwaarden 2 keer zal samplen en andere niet; je kan de betrouwbaardheid van je statistiek dan bepalen door hem te berekenen op elk van de geresampelde datasets

- parametrische bootstrap methode: soms is de statistiek waarin je geinteresseerd bent gebaseerd op gekende distributies, bv. de ratio van twee binomiaalproporties, en de waarschijnlijkheidsdistributie hiervan kan berekend worden om de betrouwbaarheid op de schatting te bepalen

Hoe kunnen hypothesen worden getoetst? - Chapter 9

Hoe kunnen hypothesen worden getoetst? - Chapter 9

In het vorige hoofdstuk hebben we de eerste belangrijke methode voor statistische conclusietrekkingen over populaties besproken, namelijk het betrouwbaarheidsinterval. De komende hoofdstukken wordt de tweede belangrijke methode besproken, namelijk het uitvoeren van een significantietest. Een significantietest is een methode om bewijs op te sommen voor een bepaalde hypothese. Een hypothese is een verklaring of voorspelling over de populatie in de vorm van een numerieke waarde. Voordat een significantietest wordt uitgevoerd, wordt er eerst bepaald of een variabele categorisch of kwantitatief is. Als een variabele categorisch is gebruiken we proporties en als een variabele kwantitatief is gebruiken we het gemiddelde.

Er zijn vijf stappen voor een significantietest:

  1. Assumpties: Dit zijn aannames die we vooraf vaststellen. Dit kan zijn dat samples random gekozen waren, wat de grootte is van de sample size of dat de populatie normaal verdeeld moet zijn.

  2. Hypotheses: Elke test heeft twee hypotheses over een populatieparameter. Ten eerste is er de nulhypothese (H0). Deze hypothese heeft een vaste waarde; dit betekent meestal dat er geen effect is of dat er geen verschil is. De alternatieve hypothese (Ha) geeft een alternatieve waarde aan. Deze waarde kan in een specifieke richting zijn, namelijk groter of kleiner dan de waarde van de H0 of kan algemeen zijn zoals ≠ H0. De H0 wordt als waar gezien tot dat de data sterk tegenbewijs leveren, dan verwerpen we de H0 en wordt de Ha aangenomen.

  3. Statistische test: Er wordt berekend hoeveel standaarderror er zit tussen de geschatte waarde en de H0. Het soort test hangt af van het soort variabele, categorisch of kwantitatief. Welke testen waarvoor ingezet worden, wordt in de volgende hoofdstukken besproken.

  4. P-waarde: Dit is de kans op de gevonden uitkomst bij de statistische test als wordt aangenomen dat H0 waar is. Hoe kleiner de P-waarde, hoe groter het bewijs tegen H0 is.

  5. Conclusie: noteren en interpreteren van de P-waarde. Bij de conclusie wordt er bepaald of de H0 verworpen wordt of niet. Wanneer de P-waarde kleiner is dan het gekozen significantieniveau (meestal α =.05) dan wordt de H0 verworpen. Is de P-waarde groter dan het gekozen significantieniveau dan verwerpen we H0 niet. De conclusie wordt aan de hand van de context gegeven.

Voor de duidelijkheid: H0 niet verwerpen, betekent niet dat we H0 accepteren!

9.1. Significantietesten voor proporties

De vijf stappen voor een significantietest voor categorische variabelen, waarbij men dus geïnteresseerd is in de proporties zijn als volgt:

  1. Assumpties: de variabelen zijn categorisch. Er is gebruik gemaakt van random samples. De sample size is groot genoeg om de distributie normaal te benaderden, dit is het geval wanneer de verwachte waarde van succes en geen succes minstens 15 is.

  2. Hypothese:

Nulhypothese = H0 : p = p0, waarbij p0 een waarde aanneemt van bijvoorbeeld 0,20.

Alternatieve hypothese = Ha: p ≠ p0 (dit heet tweezijdig toetsen) of Ha: p < p0 of Ha: p > p0 (dit heet eenzijdig toetsen)

  1. Statistische test:

Formule 27 (zie bijlage)

  1. P-waarde: In een tabel (achterin elk statistiekboek) kan worden opgezocht welke P-waarde er bij de gevonden z-waarde hoort.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet. De conclusie wordt aan de hand van de context gegeven.

9.2. Eenzijdig of tweezijdig?

Eenzijdig toetsen betekent dat er een bepaalde kant op getoetst wordt, terwijl je bij tweezijdig kijkt naar een verschil tussen twee gevonden meetwaarden. Bij de t-toets kan de uitkomst negatief zijn. Dit heeft invloed bij eenzijdig toetsen.
Als je kijkt naar de linker overschrijdingskans, zal de t-toets een negatieve uitkomst moeten hebben wil je de alternatieve hypothese kunnen accepteren. Als je naar de rechter overschrijdingskans kijkt, zal de t-toets uitkomst positief moeten zijn wil je de alternatieve hypothese kunnen accepteren. Natuurlijk moet je dan nog wel eerst vergelijken met de kritieke t-waarde om zeker te weten of het gevonden verschil significant is. Bij tweezijdig toetsen kan er zowel een negatief als positief getal uitkomen. De cijfers in de tabel mogen dan ook zowel positief als negatief gebruikt worden.

Significantietesten voor gemiddelde

De vijf stappen voor een significantietest voor kwantitatieve variabele, waarbij men dus geïnteresseerd is in het gemiddelde.

  1. Assumpties: de variabelen zijn kwantitatief. Er is gebruik gemaakt van random samples. De populatiedistributie is bij benadering normaal verdeeld.

  2. Hypothese:

Nulhypothese = H0 : µ= µ0, waarbij µ0 een waarde aanneemt van bijvoorbeeld 0.

Alternatieve hypothese = Ha: µ ≠ µ 0 of Ha: µ < µ 0 of Ha: µ > µ 0.

  1. Statistische test: Formule 28 (zie bijlage)

  1. P-waarde: In een tabel voor t-distributies (achterin elk statistiekboek) kan worden opgezocht welke P-waarde er bij de gevonden t-waarde hoort. Gebruik hierbij de degrees of freedom (df) = n-1.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet. De conclusie wordt aan de hand van de context gegeven.

Wanneer de assumptie van normaalverdeling is geschonden, dan kan men alsnog een t-toets uitvoeren. Dit moet alleen wel altijd een tweezijdig toets worden.

Limitaties van significantie testen

  1. Niet verwerpen H0 betekent niet accepteren H0.
  2. Als je een p- waarde boven 0,05 als je significantie niveau 0.05 is , kun je niet concluderen dat H0 juist is.
  3. Statistische significantie betekent niet praktische significantie .

  4. De p - waarde kan niet worden geïnterpreteerd als de kans dat H0 waar is

  5. Het is misleidend om de resultaten alleen als ze zijn statistisch significant te melden. Sommige wetenschappelijke tijdschriften hebben het beleid dat ze alleen resultaten publiceren van een studie als de p-waarde < 0.05 . Hier is het gevaar van dit beleid: als er eigenlijk geen effect is maar 20 onderzoekers, onafhankelijk van elkaar, voeren een onderzoek uit zouden we verwachten dat ongeveer 20 ( 0,05 ) = 1 van hen een significante uistlag krijgt (bij een sinificnatie niveau van 0.05) bij toeval. Als juist deze onderzoeker wel met zijn resultaten naar een tijdschrift stapt maar de andere 19 onderzoekers dat niet doet, zal het artikel dat over dit onderwerp zal worden gepubliceerd een een type I fout vatten,

  6. Sommige test kan statistisch significant zijn gewoon toeval .

  7. Echte effecten zijn misschien niet zo groot als in de eerste instantie gerapporteerd kan worden door de media .

9.3. Fouten bij significantietesten

Bij beslissingen aan de hand van significantietesten blijft altijd een bepaalde onzekerheid bestaan. Er blijft altijd een kans dat er een verkeerde beslissing is genomen.

Figuur 15 (zie bijlage)

Een type 1 fout komt voor wanneer de nulhypothese in werkelijkheid waar is, maar je deze toch hebt verworpen. De kans hierop is even groot als het significantieniveau van de test (α). Als er grote consequenties zijn voor een type 1 fout dan moet er een kleinere α gehandhaafd worden.

Een type 2 fout komt voor wanneer de nulhypothese in werkelijkheid niet waar is, maar niet verworpen wordt. Een type 2 fout wordt groter wanneer α kleiner wordt. De type 2 fout wordt kleiner als de sample size groter wordt.

Wanneer de nulhypothese niet waar is, wil je dat de kans op verwerpen zo hoog mogelijk is. De kans op verwerpen van de nulhypothese noemen we de power van een test. Power = 1 – P (type 2 fout). Wanneer de kans op een type 2 fout klein is, is de power dus groot. Het is ideaal voor studies als zowel de power hoog is en het significantie niveau Aanduiding 1 (zie bijlage) laag is.

Hoe kunnen, binnen de statistiek, groepen worden vergeleken? - Chapter 10

Hoe kunnen, binnen de statistiek, groepen worden vergeleken? - Chapter 10

In veel onderzoeken worden twee groepen, bijvoorbeeld mannen en vrouwen, met elkaar vergeleken om te zien of er verschil is tussen beiden. Er zijn twee soorten manier voor het vergelijken van groepen. Meestal wordt er gebruikt gemaakt van independent samples; de ene sample heeft dan geen invloed op de andere sample. De andere manier is door middel van dependent samples; dit is wanneer elk subject van de ene sample gekoppeld is aan een subject van de andere sample (matched pairs). We zullen als eerst de independent samples analyseren. Hierbinnen kan weer onderscheid gemaakt worden tussen categorische en kwantitatieve variabelen.

Independent samples: Categorische variabelen.

Om te analyseren of 2 groepen gelijke proporties hebben kunnen we deze op drie manieren met elkaar vergelijken. De eerste manier is via het betrouwbaarheidsinterval. Om het betrouwbaarheidsinterval te berekenen worden de proporties van de twee groepen van elkaar afgetrokken. Het maakt hierbij niet uit welke groep van welke wordt afgetrokken, dit is arbitrair. Vervolgens werkt het als het normale betrouwbaarheidsinterval:

Formule 29 (zie bijlage - let op, staat is de bijlage onder hoofdstuk 9 geplaatst (en niet hoofdstuk 10))

Het betrouwbaarheidsinterval wordt als volgt geïnterpreteerd. Eerst wordt er gekeken of het getal 0 in het betrouwbaarheidsinterval valt. Als dit het geval is, is het waarschijnlijk dat de twee populatieproporties aan elkaar gelijk zijn. Er is dus geen verschil tussen de ene groep en de andere groep. Zit het getal 0 niet in het interval en zijn alle waarden voor (P1 – P2) positief, dan is P1 > P2. Zijn alle waarden negatief dan is P1 < P2. De grootte van de waarde in het betrouwbaarheidsinterval staat voor de grootte van het werkelijke verschil. Vallen de waarden vlak bij 0, dan is het werkelijke verschil waarschijnlijk klein.

Een tweede manier om de proporties van twee groepen met elkaar te vergelijken is door middel van een significantietest.

  1. Assumpties: Categorische afhankelijke variabelen voor 2 groepen. Independent random sample. n1 en n2 zijn groot genoeg, zodat er minstens 5 successen en 5 niet successen in elke groep zitten.

  2. Hypothese:

H0 : p1 = p2, (p1 – p2= 0)

Ha: p1p2 of Ha: p1< p2 of Ha: p1> p2

  1. Statistische test: Formule 30 (zie bijlage)

  2. P-waarde: Opzoeken welke p-waarde er bij de gevonden z-waarde hoort.

  3. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

Een derde, maar minder vaak gebruikte manier om te onderzoeken of twee groepsproporties aan elkaar gelijk zijn is door de ratio van proporties te berekenen = Formule 31 (zie bijlage). Wanneer de proporties aan elkaar gelijk zijn ligt de ratio rond de 1. Wanneer deze waarde ruim boven of onder de 1 ligt dan verschillen de proporties van elkaar.

Independent samples: Kwantitatieve variabelen

Wanneer we van twee groepen het gemiddelde willen vergelijken, dan kan dit op dezelfde drie manieren. Het betrouwbaarheidsinterval wordt hetzelfde geïnterpreteerd als bij proportie, de formule ziet er alleen iets anders uit.

Formule 32 (zie bijlage)

Een tweede manier om het gemiddelde van twee groepen met elkaar te vergelijken is door middel van een significantietest.

  1. Assumpties: kwantitatieve afhankelijke variabelen voor 2 groepen. Independent random sample. Bij benadering normaal verdeeld

  2. Hypothese:

H0 : µ1 = µ2

Ha: µ1 ≠ µ2 of Ha: µ1< µ2 of Ha: µ1> µ2

  1. Statistische test: Formule 33 (zie bijlage)

  1. P-waarde: opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df wordt door software gegeven.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

De derde manier is de ratio van gemiddelde = Formule 34 (zie bijlage). De interpretatie van deze ratio is hetzelfde als bij de proportie.

Andere manieren om gemiddelde te vergelijken

Soms beschikt men over twee steekproeven uit dezelfde populatie met onbekende populatievariantie, σ2. De steekproefvarianties kan men dan samenvoegen tot een nieuwe, gepoolde schatting, die gebaseerd is op meer waarnemingen en dus nauwkeuriger is. De gepoolde variantie is het gewogen gemiddelde van twee of meer steekproefvarianties, waarbij de aantallen vrijheidsgraden wegingsfactor zijn. De gepoolde variantie is een zuivere schatter van de populatievariantie, bepaald met de som van de aantallen vrijheidsgraden van de gepoolde steekproef.

Dependent samples: Categorische variabelen

Wanneer proporties van dependent (afhankelijke) samples vergeleken worden, dan gebeurt dit op dezelfde manier als voor een enkele sample. De twee gekoppelde paren worden namelijk van elkaar afgetrokken, zodat er een verschilscore (p1 – p2) ontstaat. Deze score wordt net zo gebruikt als in hoofdstuk 8 bij de enkele samples van betrouwbaarheidsintervallen en statistische testen.

Dependent samples: Kwantitatieve variabelen

Voor kwantitatieve variabelen werkt het bijna hetzelfde. De twee gekoppelde gemiddelden worden van elkaar afgetrokken, zodat er een verschilscore (Aanduiding 7, zie bijlage) ontstaat. Deze score wordt net zo gebruikt als in hoofdstuk 8 bij de enkele samples van betrouwbaarheidsintervallen en statistische testen.

De invloed van andere variabele

Een controlevariabele is een variabele die je meeneemt in je onderzoek maar waar niet speciaal je aandacht naar uitgaat. Je neemt de variabele wel mee, en houdt deze variabele constant, omdat deze invloed heeft op de afhankelijke variabele en omdat deze variabele ook samenhangt met de onafhankelijke variabele. De controlevariabelen weglaten uit het onderzoek zou betekenen dat de resultaten van je onderzoek minder accuraat zijn. Dit is vooral aan de orde wanneer je een statistische analyse (multivariate analyse) gaat doen en je een bepaalde oorzaak-gevolgrelatie statistisch wilt bewijzen.

Hoe kunnen categorische variabelen met elkaar worden geassocieerd? - Chapter 11

Hoe kunnen categorische variabelen met elkaar worden geassocieerd? - Chapter 11

In het vorige hoofdstuk is er gekeken of gemiddelden en proporties van twee groepen aan elkaar gelijk zijn. In dit hoofdstuk wordt een andere methode gebruikt, namelijk de methode van associatie. In hoofdstuk 3 is associatie ook genoemd, hier wordt nu verder op ingegaan. Associaties worden gebruikt wanneer beide variabelen categorisch of kwantitatief zijn en deze weer verschillende categorieën bevatten. Voorbeeld: middelbare school opleiding: Mavo-Havo-Vwo ; inkomen: laag-gemiddeld-hoog.

In dit hoofdstuk bespreken we de associatie tussen categorische variabelen en in hoofdstuk 11 de associatie tussen kwantitatieve variabelen. Het doel van associatie is om te kijken of twee variabelen onafhankelijk zijn van elkaar of juist afhankelijk (geassocieerd) van elkaar zijn.

11.1. Wanneer zijn categorische variabelen onafhankelijk?

In hoofdstuk 5 hebben we al gezien dat variabelen onafhankelijk zijn wanneer de volgende formule geldt: P (A) x P (B) = P (A en B). We kunnen ook een significantietest uitvoeren om te kijken of de categorische variabelen onafhankelijk zijn. Dit doen we door middel van de Chi-kwadraattest (X2). Met de Chikwadraattoets kan men dus bepalen of er een verband bestaat tussen twee variabelen. Deze toets is gebaseerd op een vergelijking van de waargenomen waarden in de tabel met wat je zou kunnen verwachten als de twee verdelingen geheel onafhankelijk zouden zijn. Dus men beoordeelt de kans dat de gegevens in je tabel door toeval kunnen voorkomen.

  1. Aannames: random sampling; grootte sample size; verwachte celwaarde minstens vijf.

  2. Hypothese:

H0 = de twee variabelen zijn onafhankelijk

Ha = de twee variabelen zijn afhankelijk

  1. Statistische test: Formule 35 (zie bijlage)

  2. Figuur 16 (zie bijlage)

Geobserveerde waarde is de waarde die uit het onderzoek is verkregen.

De verwachte waarde moet zelf berekend worden. Dit doet men door de verwachte uitkomst per cel te berekenen: (rij totaal x kolom totaal) delen door totale sample size. De verwachte waarde voor laag inkomen en mavo is (103 x 103) / 325 = 32,6

  1. P waarde: wanneer de nulhypothese (van onafhankelijkheid) waar is dan heeft X2 relatief een kleine waarde. Door het kwadraat is X2 altijd positief. Om de P-waarde te vinden moet eerst de df worden berekend, dit doet men door (rij-1)x (kolom-1) uit te rekenen. In dit geval is dat (3-1)x(3-1) = 4.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

Het verschil tussen de geobserveerde data en de verwachte data in een cel noemen we het residu. Wanneer het residu positief is dan zijn er meer subjecten geobserveerd dan er in eerste instantie verwacht werd. Wanneer het residu negatief is dan zijn er minder subjecten dan verwacht werd. Maar hoe weten we wanneer een residu groot genoeg is om sterk bewijs te hebben tegen de nulhypothese van onafhankelijkheid?

Hiervoor wordt het gestandaardiseerde residu voor gebruikt. Valt de waarde drie standaarddeviaties onder of boven de absolute waarde dan is er een grote overtuiging dat er een effect is in die cel.

Formule 36 (zie bijlage)

Kleine steekproef: Fister’s exact test

Fisher's exact test is een statistische test die kan worden gebruikt om te berekenen of er een significant verband tussen categorische variabelen . Het maakt het mogelijk de berekening van precieze waarschijnlijkheden in de situatie waar de steekproefomvang zijn klein, zodat de normale benadering en chi -kwadraat berekeningen zijn aansprakelijk onnauwkeurig

Wat is een regressieanalyse? - Chapter 12

Wat is een regressieanalyse? - Chapter 12

Om voor kwantitatieve variabelen de associatie te bepalen wordt de regressieanalyse gebruikt. Hiermee kan de waarde van de afhankelijke variabele voorspeld worden. Om de sterkte van de associatie te bepalen wordt de correlatie gebruikt. Beide onderwerpen zijn al eerder genoemd in hoofdstuk 3. Belangrijk bij een regressieanalyse is dat er eerst bepaald wordt welke variabele de afhankelijke (respons) variabele is en welke de onafhankelijke variabele (explanatory). De afhankelijke variabele wordt altijd op de y-as gezet en de onafhankelijke variabele op de x-as. Hier wordt vervolgens een scatterplot van gemaakt om te bepalen of er een lineair verband is tussen deze twee kwantitatieve variabelen. Ook is het handig om te bekijken of er uitschieters (outliers) zijn.

Eerder zijn alle formules van regressieanalyse al uitgelegd. Hier wordt nog even een kort overzicht gegeven van de formules die van toepassing zijn.

Formule 37 (zie bijlage)

Het verschil tussen de geobserveerde uitkomst y en de voorspelde waarde is de voorspellingsfout, ook wel residu genoemd. Elke observatie heeft een residu; sommige positief, andere negatief. Gemiddeld komen ze op een waarde van 0. In een scatterplot is een residu de verticale afstand tussen de geobserveerde data en de voorspellende regressielijn. Hoe kleiner deze afstand, hoe beter de voorspelling. We kunnen optellen hoe dicht alle punten bij de regressielijn liggen met de volgende formule voor de sum of squared residuals:

Formule 38 (zie bijlage)

De regressielijn heeft de kleine sum of squared residuals, daarom wordt het ook wel de least squares genoemd.

De sterke van een associatie

Correlatie:

De sterkte van een associatie wordt niet bepaald door de helling (b) van de regressievergelijking, maar door de correlatie (r). De correlatie beschrijft de lineaire associatie tussen twee variabelen, waarbij de r tussen de -1 en +1 valt. In tegenstelling tot de regressielijn, maakt het bij de correlatie niet uit welke variabele de onafhankelijke is en welke de afhankelijke. De correlatie van x die y voorspelt is namelijk hetzelfde als de correlatie van y die x voorspelt. De reden waarom de helling (b) hier niet voor geschikt is, is dat de helling verschillende waarden kan aannemen (kilo’s, pond, gram). De correlatie valt altijd tussen de -1 en +1. Het enige punt waarop zowel de helling als de correlatie dezelfde waarde aannemen is wanneer de spreiding (standaarddeviatie) voor elke variabele gelijk is, dan geldt namelijk Sy = Sx.

Formule 39 (zie bijlage)

Als een x-waarde een bepaald aantal standaarddeviaties van het gemiddelde af ligt dan ligt de voorspelde Aanduiding 8 (zie bijlage), r maal het aantal standaarddeviaties van het gemiddelde vandaan.

Proportionele reductiefout r2

Een andere voorspellende kracht is r2. De variabele is sterker geassocieerd als je y kan voorspellen door het gebruik van een extra variabele X, dan wanneer je alleen het gemiddelde van y gebruikt en X negeert. Voorbeeld: wanneer we het IQ van mensen willen voorspellen, dan kunnen we het gemiddelde gebruiken (IQ = 100). Echter, als we een extra variabele X toevoegen (opleiding), dan kunnen we mogelijk het IQ van mensen beter voorspellen dan door alleen het gemiddelde te gebruiken.

De waarde van r2 kan alleen tussen 0 en 1 vallen. Hoe dichter de waarde bij 1 ligt, hoe sterker de associatie is. Aanduiding 8 (zie bijlage) is beter als voorspeller dan Aanduiding 9 (zie bijlage) Wanneer de waarde 0 is dan is het gebruik van de extra variabele niet beter geweest. Aanduiding 8 (zie bijlage) is geen betere voorspeller dan Aanduiding 9 (zie bijlage).

Wanneer de correlatie van twee variabelen .82 is, dan is de r2 0.67. Dit betekent dat de voorspellingsfout door het gebruik van Aanduiding 8 (zie bijlage) om y te voorspellen 67% kleiner is dan de voorspellingsfout door het gebruik van Aanduiding 9 (zie bijlage) om y te voorspellen.

Voorspellingen doen over associaties:

Wanneer we een regressielijn voor het populatiegemiddelde van y voor verschillende X-waarden willen weten dan gebruiken we de volgende formule:

Formule 40 (zie bijlage)

In werkelijkheid zijn deze waardes onbekend. Daar komt bij dat het onwaarschijnlijk is dat de echte relatie tussen y en x een volledig lineaire lijn is. Dit is niet heel erg voor onze voorspelling, zolang een rechte lijn een redelijke voorspelling kan geven. Om nu te bekijken of de twee kwantitatieve variabelen statistisch onafhankelijk zijn of juist een associatie hebben, kunnen we een statistische test uitvoeren. Als y niet af blijkt te hangen van de waarde van X, dan zijn de twee variabelen onafhankelijk. Het helpt ons dan niet om X te weten. Hieronder volgt een hypothesetoets voor de populatiehelling β.

  1. Assumptie: populatie heeft als regressielijn: µy = α + βx; de data is random verkregen; eenzelfde standaarddeviatie bij elke X-waarde.

  2. Hypothese:

H0 = β = 0 (onafhankelijkheid)

Ha = β ≠0 (afhankelijkheid)

  1. Statistische test:

Formule 41 (zie bijlage)

  1. P –waarde: tweezijdig toetsen en opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df is (n-2).

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is dan het significantieniveau. Is de P-waarde kleiner dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

Een kleine P-waarde geeft aan dat de nulhypothese (de helling is 0) verworpen kan worden. Om erachter te komen hoe ver de helling van 0 af ligt, construeren we een betrouwbaarheidsinterval. De 0 mag dus niet in het interval liggen als de nulhypothese is verworpen.

Formule 42 (zie bijlage)

Hoe data varieert rond een regressielijn

Bij de best passende regressielijn zijn de afwijkingen (deviaties) y - Y geminimaliseerd: er zijn negatieve en positieve verschillen, hun gemiddelde waarde is 0. Na deze berekening kunnen we de bel in twee stukken opdelen: een deel van de totale variantie wordt verklaard door het berekende verband tussen de afhankelijke variabele (de IVC in ons voorbeeld) en de verklarende variabele (de lengte), wat er over blijft is onverklaarde variantie. De onverklaarde variantie (residuele variantie, dat wat er aan variantie over blijft) is als een donkere bel geprojecteerd in de oorspronkelijke verdeling. De sterkte van het gevonden verband wordt weergegeven door de correlatiecoëfficiënt. Hoe de berekeningen in hun werk gaan laten we buiten beschouwing, het is soms nuttig te weten dat de correlatiecoëfficiënt (aangegeven met r) de vierkantswortel is uit de verklaarde variantie.

Exponentiële regressie

Een exponentiële regressielijn is een gebogen lijn die bij uitstek geschikt is voor gegevenswaarden die steeds sneller stijgen of dalen. U kunt geen exponentiële trendlijn maken als de gegevens nulwaarden of negatieve waarden bevatten.

Wat is multipele regressie? - Chapter 13

Wat is multipele regressie? - Chapter 13

Een voorspeller bij een regressielijn als ‘x voorspelt y’ heet een bivariate regressie. Er zijn namelijk twee variabelen (x en y). Wanneer meerdere variabelen ( x1 en x2) y voorspellen, heet dit een multipele regressie. Er zijn hierbij meer dan twee variabelen. Je kijkt dus naar twee functies die invloed hebben op een onafhankelijke variabele.

De parameters van deze regressie zijn als volgt:

Formule 43 (zie bijlage)

De α, β1 en β2 worden gegeven. X1 en X2 kunnen zelf ingevuld worden om vervolgens µy te berekenen. Het is ook mogelijk te controleren voor een variabele. Dit houdt in dat X1 voor een bepaalde waarde wordt vastgezet en dat er verschillende waarde voor X2 ingevuld kunnen worden. Vervolgens kan gekeken worden welke invloed dit heeft op Aanduiding 8 (zie bijlage).

Bij een multipele correlatie wordt de correlatie tussen de geobserveerde y en de voorspelde

Aanduiding 8 (zie bijlage, let op, staat onder hoofstuk 11)) genoteerd met R. Deze R valt tussen de 0 en de 1, in tegenstelling tot de correlatie bij een bivariate correlatie waarbij r tussen de -1 en +1 valt.

Een multipele correlatie heeft ook een proportionele reductiefout, namelijk R2. Deze beschrijft de verbetering door het gebruik van de voorspellers (X1 ; X2, etc) ten opzichte van het gebruik van het sample gemiddelde. Hoe beter de voorspelling van de regressievergelijking, hoe groter R2. Een belangrijk punt van R2 is dat het niet in waarde kan verminderen als er meerdere voorspellers bij komen. Op den duur wordt R2 wel steeds minder groot.

Een scatter plot is een manier op een regressie analyse weer te geven in een grafiek. Een scatter plot bestaat uit punten die de relatie tussen de twee sets van gegevens tonen .

13.1. Statistische test voor multipele regressievergelijking.

In het vorige hoofdstuk is al een t-test gedaan voor een bivariaat model: µy = α + βx. Hierbij was de nulhypothese β = 0, wat betekent dat x en y onafhankelijk zijn. Bij multipele modellen gaat het ongeveer op dezelfde manier. Wanneer de nulhypothese over een bepaalde helling: β1 = 0 waar blijkt te zijn, dan is y onafhankelijk van X1 wanneer er gecontroleerd is voor de andere voorspellers.

Dat betekent dat wanneer er andere voorspellers in het model zitten, het niet helpt om X1 te hebben.

  1. Assumptie: Elke onafhankelijke variabele heeft een lineaire lijn met µy, met dezelfde helling voor alle combinaties van waarden van andere voorspellers; random sample; normale distributie voor y met dezelfde standaarddeviatie voor elke combinatie van waarden van andere voorspellers.

  2. Hypothese:

H0 = β1 = 0

Ha = β1 ≠ 0

  1. Statistische test:

Formule 44 (zie bijlage)

  1. P-waarde: tweezijdig toetsen en opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df is n – het aantal parameters in de regressievergelijking. Voorbeeld: µy = α + β1x1 + β2x2, heeft 3 parameters, dus n-3.

  2. Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

Het betrouwbaarheidsinterval voor b1 is hetzelfde als voor de helling van een bivariate regressie: Geschatte helling ± t.025(se), waarbij de df n – het aantal parameters in de regressievergelijking is.

Er is nu bekeken of een enkele helling (b1)een effect heeft op y, wanneer voor de andere voorspellers wordt gecontroleerd. Wanneer we echter willen weten of de onafhankelijke variabelen samen een significant effect hebben op de afhankelijke variabele y, dan voeren we een ander soort statistische test uit. Dit is de F-distributie.

De nulhypothese ziet er als volgt uit: H0 = β1 = β2 = β3 = 0. Dit betekent dat y niet afhankelijk is van alle voorspellers in het model. De alternatieve hypothese is Ha = minstens één βparameter is niet gelijk aan 0.

Dit houdt in dat minstens één onafhankelijke variabele een associatie heeft met y.

  1. Assumptie: Elke onafhankelijke variabele heeft een lineaire lijn met µy, met dezelfde helling voor alle combinaties van waarden van andere voorspellers; random sample; normale distributie voor y met dezelfde standaarddeviatie voor elke combinatie van waarden van andere voorspellers.

  2. Hypothese:

H0 = β1 = β2 = ….. = 0

Ha = minstens een β parameter is ≠ 0

  1. Statistische test: Formule 45 (zie bijlage)

  2. Alle waarden kunnen alleen positief zijn. Deze gegevens hoeven momenteel nog niet berekend te kunnen worden. Ze moeten echter wel afgelezen kunnen worden uit een tabel en meegerekend kunnen worden in deze formule.

  3. P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df1= het aantal onafhankelijke variabele. Df2 = n – het aantal parameters in de regressievergelijking.

  4. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H0, is de P-waarde groter dan verwerpen we H0 niet.

Als blijkt dat de nulhypothese verworpen kan worden, dan is dus tenminste één β-parameter ongelijk aan 0. Welke dit is weten we op dit moment nog niet.

Stappen van het proces: Multipele regressie

  1. Identificeren respons en mogelijke verklarende variabelen

  2. Maak een multiple regressiemodel ; verrichten passende test ( F en t) om te zien of en welke verklarende variabelen een statistisch significantie effect hebben om y te voorspellen.

  3. Plot y versus ŷ voor resulterend modellen en vind R en R2 waarden

  4. Check aannames

  5. Kies gepaste model

  6. Creëer betrouwbaarheidsintervallen voor helling

  7. Voorspel de verklarende variabelen

  8. Creëer voorspel- intervallen

Tot dusver is er alleen gekeken naar multipele regressievergelijking voor kwantitatieve variabelen. Er blijkt echter ook een multipele regressie voor categorische variabelen te zijn. Hiervoor wordt met indicatoren gewerkt. Elke categorie krijgt hierbij een indicator gegeven. Voorbeeld: indicatoren voor de categorische variabele sekse: X =1 wanneer het een vrouw is en X = 0 wanneer het een man is.

Wanneer we vervolgens dit voorbeeld in een multipele regressielijn invullen krijgen we de volgende twee vergelijkingen: voorbeeld: µy = het gemiddelde aantal kinderen wat een vrouw of man wil in de toekomst

Formule 46 (zie bijlage)

Een belangrijk punt om te onthouden is dat een categorisch onafhankelijke variabele in een regressiemodel één parameter minder gebruikt dan het aantal categorieën dat er is. Dus sekse heeft twee categorieën, maar slechts één parameter in de vergelijking.

Logistische regressie

Logistische regressie wordt gebruikt voor het modelleren van categorische, dichotome uitkomstvariabelen. Stel dat we geïnteresseerd zijn in de factoren die van invloed zijn op het feit of een politieke kandidaat een verkiezing wint. De uitkomst (respons) variabele is binair ( 0/1 ) ; winnen of verliezen . De voorspellende variabelen zijn: de hoeveelheid geld uitgegeven aan de campagne en de hoeveelheid tijd die in de campagne is gestoken.

Hoe kun je groepen vergelijken met de ANOVA methode? - Chapter 14

Hoe kun je groepen vergelijken met de ANOVA methode? - Chapter 14

De methode die in dit hoofdstuk wordt besproken is de ANOVA. Een ANOVA is een test van onafhankelijkheid tussen kwantitatieve afhankelijke variabelen en een groepsfactor. De ANOVA vergelijkt de gemiddelden van de verschillende groepen (g) met elkaar om te bekijken of deze onafhankelijk zijn van de afhankelijke variabele. Voorbeeld: de kwantitatieve afhankelijke variabele is in dit geval inkomen, en inkomen hangt af van de groepsfactor opleiding. Deze groepsfactor bestaat uit drie groepen: Mbo, Hbo en Universiteit.

14.1. De statistische test voor ANOVA:

  1. Assumptie: onafhankelijke random samples; normale populatiedistributie met gelijke standaarddeviaties.

  2. Hypothese:

H0 = µ1 = µ2 = ….. = µg

Ha = minstens twee van de populatiegemiddelden zijn ongelijk

  1. Statistische test: Formule 47 (zie bijlage)

Op dit moment is het nog niet van belang om de between en within groepsvariantie te kunnen berekenen. Wel is het van belang dat er mee gerekend kan worden en afgelezen kan worden in een tabel. De between groups wordt meestal genoteerd als de mean square of groups. De within groups wordt meestal genoteerd als de mean square of error.

  1. P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df1= het aantal groepen -1 (g-1). Df2 = totale sample grootte – het aantal groepen (n-g).

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we deH0, is de P-waarde groter dan verwerpen weH0 niet. Interpreteer aan de hand van de context.

Waarom het doen van een ANOVA als er ook meerdere T-testen gebruikt kunnen worden om de gemiddelden met elkaar te vergelijken? Hier zijn een aantal redenen voor.

  1. Een ANOVA heeft een betere standaarderror.

  2. Het houdt de controle over een type 1 fout klein. Dit is de belangrijkste reden!

  3. Het enige nadeel van het gebruik van een ANOVA is dat niet duidelijk is welke gemiddelden van elkaar verschillen en hoe erg ze verschillen. Er zijn verschillende mogelijkheden om dit wel te berekenen, zoals via een betrouwbaarheidsinterval.

Een betrouwbaarheidsinterval geeft informatie over de waarde die de gemiddelden aan kunnen nemen. We komen nog even terug op ons voorbeeld van inkomen en de groepsfactor opleiding. De groepsfactor bestond uit 3 groepen: X1 : MBO, X2 = HBO, X­3 = Universiteit. Om te kijken welke gemiddelden van de groepen verschillen stellen we een betrouwbaarheidsinterval op. Om te kijken of het verschil zit in de gemiddelden van MBO (Aanduiding 10, zie bijlage) en HBO (Aanduiding 11, zie bijlage) is het volgende betrouwbaarheidsinterval van toepassing:

Formule 48 (zie bijlage)

Wanneer het betrouwbaarheidsinterval geen 0 bevat, dan kunnen we ervan uitgaan dat er de populatie gemiddelde van elkaar verschillen.

Elke keer een betrouwbaarheidsinterval opstellen van twee groepen heeft twee nadelen. Ten eerste; wanneer er maar drie groepen zijn om met elkaar te vergelijken dan hoeven we maar drie betrouwbaarheidsintervallen op te stellen (groep1-groep2 ; groep 2-groep3 ; groep 1-groep 3). Zodra er meer groepen zijn worden dit er veel meer. Bij 15 groepen hebben we bijvoorbeeld al 105 vergelijkingen. Dit neemt teveel tijd in beslag. Het tweede nadeel is dat de type 1 fout groter wordt. Bij drie toetsen hebben we een de kans op een fout van 0.05 bij elke vergelijking die we doen, dus 0.05+0.05+0.05 = 0.15. Dit houdt in dat 0.15 van de betrouwbaarheidsintervallen niet de werkelijke verschillen tussen de gemiddelden bevatten.

Methodes om alle mogelijke vergelijkingen van gemiddelden te maken zijn multipele vergelijkingen. Een voorbeeld is de Tukey methode. Deze methode is zo geconstrueerd dat de gehele betrouwbaarheid dichtbij 0.95 ligt. Het gaat namelijk uit van de slechtste uitkomst. Je hoeft de Tukey niet uit te kunnen rekenen.

Hierboven is het vergelijken van de gemiddelden van een enkele groepsfactor (opleiding) op een kwantitatieve afhankelijke variabele (inkomen) besproken. Dit werd berekend met een ANOVA, of beter gezegd een one-way ANOVA. Nu wordt er verder ingegaan op het vergelijken van groepen van twee of meer factoren (sekse en opleiding) op een kwantitatieve afhankelijke variabele (inkomen). Dit wordt een two-way ANOVA genoemd.

Bij een two-way ANOVA zijn de nulhypotheses dat de populatiegemiddelden hetzelfde zijn voor elke categorie van een factor, bij een vastgesteld niveau van de andere factor. In het geval van het voorbeeld zijn de nulhypotheses dat sekse geen effect heeft op inkomen en dat opleiding geen effect heeft op inkomen. Blijkt er wel een effect te zijn dan wordt dit een hoofdeffect genoemd. Beide factoren kunnen een hoofdeffect hebben, maar het kan ook zijn dat maar één van de factoren een hoofdeffect heeft. Een derde nulhypothese is dat de twee factoren geen interactie vertonen. Het is belangrijk te onthouden dat een nulhypothese altijd inhoudt dat er geen effect/invloed is.

De statistische test voor een two-way ANOVA is hetzelfde als die voor een one-way ANOVA. De conclusies zijn echter anders. Eerst wordt bepaald of er een hoofdeffect is voor één of beide factoren. Er is sprake van een hoofdeffect wanneer de nulhypothese van de betreffende factor wordt verworpen.

Vervolgens wordt er gekeken of er een interactie is tussen de twee factoren. Deze test ziet er wel iets anders uit. Maar eerst kunnen we in een grafiek bekijken of er mogelijk een interactie is. Wanneer de lijnen kruisen is er interactie, lopen ze parallel dan is er duidelijk geen interactie.

Figuur 17 (zie bijlage)

Een statistische test geeft echter uitsluitsel over de vraag of er interactie is.

  1. Assumptie: random sample; de populatiedistributie voor elke groep is normaal; de populatiestandaarddeviaties zijn hetzelfde voor elke groep.

  2. Hypothese:

H0 = µ1a - µ1b = µ2a -µ2b = geen interactie

Ha = µ1a - µ1b ≠ µ2a -µ2b =

  1. Statistische test: Formule 49 (zie bijlage)

Op dit moment is het nog niet van belang om de between en within groups variantie te kunnen berekenen. Wel is het van belang dat er mee gerekend kan worden en afgelezen kan worden in een tabel. De between groups wordt meestal genoteerd als de mean square of groups. De within groups wordt meestal genoteerd als de mean square of error.

  1. P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df1= (het aantal groepen van A -1)∙ (het aantal groepen van B -1). Df2 = totale sample grootte – het aantal groepen (n-g).

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we deH0, is de P-waarde groter dan verwerpen weH0 niet. Interpreteer aan de hand van de context.

Experimenten waarbij het effect van meerdere factoren samen beschouwd worden ' -factorexperimenten " genoemd en soms worden geanalyseerd met behulp van factoriële ANOVA . Bijvoorbeeld , de academische prestaties van een student is afhankelijk van studie gewoonten van de student , maar ook van thuisomgeving. Men kan nu twee eenvoudige experimenten uitvoeren, één om het effect van studiegewoonten te onderzoeken en de andere om woonomgeving bestuderen .

Wat is niet parametrische statistiek? - Chapter 15

Wat is niet parametrische statistiek? - Chapter 15

Bij alle bovenstaande testen waren assumpties ontzettend belangrijk. In dit hoofdstuk wordt een test besproken waarbij assumpties niet zo belangrijk zijn. Deze test wordt toegepast wanneer de data niet normaal verdeeld is. Een niet-parametrische statistische test is bijvoorbeeld de Wilcoxon-test. Deze test gaat niet uit van een normaalverdeling en wordt gebruikt bij kwantitatieve data. De test is niet gevoelig voor uitschieters en kan gebruikt worden wanneer er weinig data aanwezig is.

De Wilcoxon-test vergelijkt twee groepen met elkaar door de data van beide groepen te rangorden. De hoogste score krijgt het getal 1, de één na hoogste het getal 2. Zijn twee getallen hetzelfde dan krijgen ze het gemiddelde van de twee getallen. Als bijvoorbeeld plaats 3 en 4 dezelfde score hebben, dan wordt 3.5 aan beide score toegewezen.

Voorbeeld: vergelijken van sportschool (groep 1) en afslankpillen (groep 2); zit er na 2 maanden een verschil in hoeveel kilo’s er zijn verloren?

Aantal kilo’s verloren:

groep A: 5 ; 8; 9; 0; 2, 3  ->  9; 8; 5; 3; 2; 0; (hoog naar laag)

groep B: 1; 3; 5; 7; 1, 0  ->  7; 5; 3; 1; 1; 0

Bij bovenstaande data wordt nu een rangorde aangebracht.

Groep A: 1 – 2 – 4,5 – 6,5 – 8 – 11,5

Groep B: 3 – 4,5 – 6,5 – 9,5 – 9,5 – 11,5

Vervolgens wordt voor beide groepen de rangordening opgeteld en de gemiddelden berekend. Groep 1 heeft gemiddeld een rang van 5.6, groep 2 heeft gemiddeld een rang van 7.4 Het verschil tussen deze twee groepen is gelijk aan 1.8. Of dit verschil groot genoeg is kan vervolgens met software worden bepaald.

Kort samengevat ziet de statistische test er als volgt uit:

  1. Assumptie: onafhankelijke random sample van groepen.

  2. Hypothese:

H0 = identieke populatie verdeling voor beide groepen (sample rank gemiddelde is gelijk).

Ha = geen identieke populatie verdeling voor beide groepen (sample rank gemiddelde is ongelijk).

  1. Statistische test:

Rangorde aanbrengen in data (beste is nummer 1, slechtste is laatste rangorde, op zelfde plaats delen ze nummer, dus 2 en 3 wordt beide 2.5). Voor beide groepen worden de rangordenummers opgeteld en wordt het gemiddelde genomen. Het verschil tussen deze groepen bepaalt of er een identieke populatieverdeling is of niet.

  1. P-waarde: wordt door middel van de computer berekend.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we deH0, is de P-waarde groter dan verwerpen weH0 niet. Interpreteer aan de hand van de context.

Kruskal-Wallis Test is een niet-parametrische test om verschillende groepen te vergelijken.

De Kruskal-Wallistoets is een niet - parametrische methode om te testen of samples uit dezelfde verdeling komen . Het is voor het vergelijken van twee of meer samples die onafhankelijk zijn en verschillende groepsgrote hebben.

Deze test is geschikt voor gebruik onder de volgende omstandigheden :

  1. als u drie of meer condities wilt vergelijken

  2. elke conditie wordt uitgevoerd door een andere groep van deelnemers ; dat wil zeggen, ze zijn onafhankelijk van elkaar

  3. de gegevens voldoen niet aan de eisen voor een parametrische test.

Kort samengevat ziet de statistische test er als volgt uit:

  1. Assumptie: onafhankelijke random sample van verschillende (g) groepen, via aselecte steekproef of gerandomiseerde exepriment

  2. Hypothese:

H0 = identieke populatie verdeling voor de g groepen.

Ha = geen identieke populatie verdeling g groepen

  1. Statistische test:

Maakt gebruik van tussen – groepen variabelen van het steekproefgemiddelde

  1. P-waarde: wordt door middel van de computer berekend.

  2. Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we deH0, is de P-waarde groter dan verwerpen weH0 niet. Interpreteer aan de hand van de context.

 

Bijlage en formuleblad bij Statistics: The art and science of learning from data van Agresti & Franklin

  

   

    

   

Webshop for printversions

Summaries and study assistance per related study programme