Data representeren

Bij statistisch onderzoek wil je uitspraken kunnen doen in onzekere situaties. Daarvoor moet je meestal een grote hoeveelheid gegevens analyseren. Vaak is een dataset zo uitgebreid dat je daaruit niet rechtstreeks conclusies kunt trekken. Daarom worden de data gerepresenteerd in getallen, kleinere tabellen of diagrammen.
In getallen: mediaan, kwartielen.
In kleinere tabellen: frequentietabel, kruistabel.
In diagrammen: dotplot, boxplot, staafdiagram, histogram, frequentiepolygoon, spreidingsdiagram.

Statistische variabelen

Statistische variabelen kun je verdelen in kwalitatieve en kwantitatieve variabelen.

Een kwalitatieve variabele beschrijft van elk element van de populatie een bepaald kenmerk dat niet noodzakelijk in een getal wordt uitgedrukt, bijvoorbeeld: het geslacht, de kleur ogen, de bloedgroep, de naam, enzovoorts.
Kwalitatieve variabelen waarbij je een logische volgorde aan kunt wijzen noem je ordinaal. Wanneer er geen logische volgorde is, dan noem je de variabele nominaal.

Een kwantitatieve variabele is een variabele die een meetbare of telbare hoeveelheid weergeeft en wordt in een getal uitgedrukt, zoals de lengte, de hoogte van het inkomen, de omvang van het gezin, enzovoorts. Kwantitatieve variabelen kun je verdelen in discreet en continu.

Een variabele die alleen bepaalde waarden kan aannemen en niet alle tussenliggende waarden heet discreet. Een voorbeeld is het aantal kinderen in een gezin.
Als wel alle tussenliggende waarden mogelijk zijn, ofwel als een variabele alle waarden binnen een interval kan aannemen, heet de variabele continu. Voorbeelden zijn lengte en gewicht.

Frequentieverdeling

In een groep letten we op een zekere eigenschap (variabele). Die eigenschap kan bijvoorbeeld vier waarden hebben. De groep is verdeeld over de vier waarden: elke waarde komt een zeker aantal keren voor. We spreken dan van een frequentieverdeling.

Frequentietabel

In een frequentietabel staat hoe vaak de verschillende scores op een variabele voorkomen. Om groepen van ongelijke grootte beter te kunnen vergelijken, zetten we (absolute) frequenties om naar relatieve frequenties. In formule:
$relatieve frequentie (in %) = \frac{frequentie}{totaal aantal} (\cdot 100 %)$
Een cumulatieve (relatieve) frequentie van een score is de (relatieve) frequentie van die score plus die van alle lagere waarden (in procenten).

Staafdiagram, histogram

In een staafdiagram worden de (relatieve) frequenties van de scores uitgezet als losse staven. Een histogram is een staafdiagram bij een continue variabele (de scores kunnen in principe alle getallen in een interval aannemen); de staven staan tegen elkaar. De scores zijn ingedeeld in klassen. In de praktijk proberen we het aantal klassen te beperken tot zo'n $8$ à $12$ klassen. Het is gemakkelijk als alle klassen (op misschien begin of eind na) even breed zijn. De keuze voor een klassenbreedte heeft invloed op het histogram.

Frequentiepolygoon en boxplot

Als in een histogram de klassen allemaal even breed zijn, gaat het eigenlijk alleen maar om de hoogte van de staven. Als je die hoogte met een stip (in het midden van de staaf: het klassenmidden) aangeeft, dan kan de rest achterwege blijven. Deze stippen worden dan verbonden door rechte lijntjes. Aan het begin en aan het eind worden lijntjes naar de horizontale as getekend, ook weer met als horizontale stap één klassenbreedte. Het diagram dat op deze wijze ontstaat, noemen we een frequentiepolygoon. Een frequentiepolygoon is dus een lijndiagram die de (relatieve) frequenties met elkaar verbindt. Bij een somfrequentiepolygoon (ook vaak cumulatieve frequentiepolygoon genoemd) zijn de (relatieve) cumulatieve frequenties in een lijngrafiek gezet. Daaruit kun je bij een waarde aflezen hoeveel procent van de data een kleinere of gelijke waarde heeft.
Let op: bij een somfrequentiepolygoon staan de stippen altijd boven de rechter grens van een klasse; daarentegen staan bij een gewoon frequentiepolygoon de stippen boven de klassenmiddens.
Als je de uiterste waarden, de mediaan en het eerste en derde kwartiel kent, kun je een boxplot maken.

Kengetallen

Het gemiddelde, de mediaan en de modus zijn kengetallen voor het midden (het centrum) van een groep getallen. Ze worden daarom centrummaten genoemd.

Bij de mediaan is dat letterlijk zo. Als je de getallen naar grootte ordent, is de mediaan het $50$ -percentiel: het middelste getal of (bij een even aantal getallen) het gemiddelde van de middelste twee getallen.
De modus is de meest voorkomende waarneming.
Het gemiddelde is de som van de scores gedeeld door hun aantal.

Naast bovenstaande kengetallen voor het centrum zijn er ook kengetallen voor de spreiding van een groep getallen.

De meest eenvoudige spreidingsmaat is de spreidingsbreedte: het verschil tussen de grootste waarneming en de kleinste waarneming.
Een andere maat voor de spreiding is de kwartielafstand:
derde kwartiel (Q3) − eerste kwartiel (Q1).

Een uitschieter is een waarde die meer dan $1,5$ keer de kwartielafstand onder het eerste kwartiel of boven het derde kwartiel zit.

De vorm van een frequentieverdeling

Bij de vorm van een frequentieverdeling let je op:

$•$ de symmetrie;	$•$ een staart;
$•$ de scheefheid;	$•$ de uitschieters;
$•$ het aantal toppen;	$•$ de gelijkmatigheid.

Bij een symmetrische verdeling vallen modus, mediaan en gemiddelde vrijwel samen.

De keuze voor een centrum- of spreidingsmaat is afhankelijk van de vorm van een frequentieverdeling.

Kruistabel en spreidingsdiagram

Wanneer je in een databestand zoekt naar relaties tussen twee statistische variabelen gebruik je een kruistabel of een spreidingsdiagram (puntenwolk).

In een kruistabel worden twee variabelen tegen elkaar uitgezet. Er staan de frequenties of de relatieve frequenties in waarin de combinaties van scores voorkomen.

Bij een kruistabel kun je de percentages op twee manieren uitrekenen en met elkaar vergelijken.

Je kunt per kolom de percentages uitrekenen. Onderaan in de kolommen kom je dan op $100 %$ uit. Deze percentages vergelijk je dan horizontaal met elkaar. Dit heet verticaal percenteren.
Je kunt ook per rij de percentages berekenen. Rechts aan het eind van de rijen krijg je $100 %$ . Deze percentages vergelijk je dan verticaal met elkaar. Dit heet horizontaal percenteren.

Om het statistisch verband tussen twee kwantitatieve variabelen te onderzoeken, wordt meestal gebruik gemaakt van een spreidingsdiagram (puntenwolk). Afhankelijk van de vorm van de puntenwolk kun je vaststellen of er een statistisch verband tussen de variabelen is en zo ja of dat verband sterk is.

Met behulp van een puntenwolk of een kruistabel kun je vaststellen of er een statistisch verband is. Er is sprake van een causaal verband (oorzakelijk verband) als er sprake is van oorzaak en gevolg.

In onderstaand overzicht vind je de voor- en nadelen van de in dit hoofdstuk behandelde centrum- en spreidingsmaten.

centrummaten	voordelen	nadelen
modus	eenvoudig te berekenen geeft vaak bij symmetrische en meertoppige verdelingen een goede karakterisering	klassenindeling is van invloed erg onstabiel niet altijd aanwezig
mediaan	vrij eenvoudig te berekenen weinig gevoelig voor extreme scores	slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen
gemiddelde	meest gebruikte centrummaat alle scores worden gebruikt	minder eenvoudig te berekenen vrij gevoelig voor extreme scores
spreidingsmaten	voordelen	nadelen
spreidingsbreedte	zeer eenvoudig te berekenen	slechts twee waarnemingen worden gebruikt erg gevoelig voor uitschieters neemt in het algemeen toe bij een groter aantal scores
kwartielafstand	vrij eenvoudig te berekenen weinig gevoelig voor extreme scores	slechts gebaseerd op volgorde, niet op de grootte van de onderlinge verschillen
standaardafwijking	[komen we later op terug]	[komen we later op terug]