Data verzamelen

Statistiek begint met het stellen van een vraag, bijvoorbeeld naar de verschillen tussen twee groepen leerlingen. Om die vraag te kunnen beantwoorden worden gegevens verzameld, bijvoorbeeld door middel van een enquête. De verzamelde gegevens worden gerangschikt in een datamatrix. In de verticale kolommen van de matrix staan de scores van de gemeten variabelen, in de horizontale rijen staan de objecten van het onderzoek.

Data representeren

Vaak is de datamatrix zo uitgebreid, dat je daaruit niet rechtstreeks conclusies kunt trekken. Daarom worden de data gerepresenteerd in getallen, kleinere tabellen of in diagrammen.
In getallen: mediaan, kwartielen.
In kleinere tabellen: frequentietabel, kruistabel.
In diagrammen: cirkeldiagram, staafdiagram, histogram, frequentiepolygoon, boxplot.

Mediaan, kwartielen

De mediaan is de waarde die de op volgorde gezette scores van een variabele in twee helften verdeelt: 50 % van de scores heeft een waarde die kleiner is dan de mediaan en 50 % een waarde die groter is dan de mediaan. De kwartielen zijn de waarden die de geordende scores in vier opeenvolgende kwarten verdelen. Bij een oneven aantal is de mediaan de middelste waarneming, bij een even aantal het gemiddelde van de middelste twee waarnemingen.

Frequentietabel

In een frequentietabel staat hoe vaak de verschillende scores op een variabele voorkomen.
De relatieve frequentie van een score is het percentage van het totaal waarin de score voorkomt.
In formule: relatieve frequentie (in %) = frequentie totale aantal ( × 100 % )
Een cumulatieve (relatieve) frequentie van een score is de (relatieve) frequentie van die score plus die van alle lagere waarden (in procenten).

Kruistabel

In een kruistabel worden twee variabelen tegen elkaar uitgezet. Er staan de frequenties of de relatieve frequenties in waarin de combinaties van scores voorkomen.
Voorbeeld

Staafdiagram, histogram

In een staafdiagram worden de (relatieve) frequenties van de scores uitgezet als losse staven. Een histogram is een staafdiagram bij een continue variabele (de scores kunnen in principe alle getallen in een domein aannemen). De scores zijn ingedeeld in klassen. De staven staan aan elkaar vast.

Reepdiagram, geclusterd staafdiagram,

Hieronder staat van elk een voorbeeld.

reepdiagram
geclusterd staafdiagram
Max. Vcp

We vergelijken twee groepen wat een bepaalde variabele betreft. Het maximale cumulatieve percentageverschil max. Vcp tussen twee groepen bereken je als volgt:

  1. Bepaal apart voor de groepen de cumulatieve frequenties;

  2. Zet apart voor de groepen de cumulatieve frequenties om in cumulatieve percentages;

  3. Bepaal per waarde van de variabele het (absolute) verschil Vcp van de cumulatieve percentages van de twee groepen.

  4. max. Vcp is van al die verschillen het grootste.

Als waardering van max. Vcp is gangbaar:

  • als max. Vcp kleiner dan 15 % is, dan is het verschil gering,

  • als max. Vcp tussen 15 % en 30 % ligt, dan is het verschil middelmatig,

  • als max. Vcp groter dan 30 % is, dan is het verschil groot.

(cumulatieve) Frequentiepolygoon

Een frequentiepolygoon is een lijndiagram bij een continue variabele die de (relatieve) frequenties met elkaar verbindt. Bij een cumulatieve frequentiepolygoon zijn de (relatieve) cumulatieve frequenties in een lijngrafiek gezet. Daaruit kun je bij een waarde aflezen hoeveel procent van de data een kleinere of gelijke waarde heeft. Als je de uiterste waarden, de mediaan en het eerste en derde kwartiel kent, kun je de boxplot maken.
Voorbeeld

Odds-ratio

We vergelijken twee groepen (bijvoorbeeld A/C en B) wat een bepaalde variabele betreft. De variabele heeft twee waarden (bijvoorbeeld jongen (j) en meisje (m)).

De odds van j tegen m in de B-groep is 20 : 10 = 2 .
De odds van j tegen m in de A/C-groep is 18 : 22 0,82 .
De odds-ratio van j tegen m in de twee groepen is 2 : 0,82 2,2 .
Als dit quotiënt kleiner dan 1 is, nemen we het omgekeerde.

Als waardering van de odds-ratio is gangbaar:

  • als de odds-ratio kleiner dan of gelijk aan 2 is, dan is het verschil gering,

  • als de odds-ratio tussen 2 en 3 ligt, dan is het verschil middelmatig,

  • als de odds-ratio groter dan 3 is, dan is het verschil groot.

Gemiddelde

Het gemiddelde van een verdeling is op te vatten als de ‘evenwichtswaarde’. Dat wil zeggen dat de som van alle afwijkingen ten opzichte van die waarde 0 is.

In formule: x ¯ = Σ x n , waarin x de scores zijn en n het totaal aantal scores is,
of: x ¯ = Σ f x n , waarin x de verschillende scores zijn met bijbehorende frequenties f en n de som van de frequenties is.

Standaardafwijking

De standaardafwijking of standaarddeviatie (notatie sd of σ) is een maat voor de spreiding van de scores rond het gemiddelde.

In formule: σ = Σ d 2 n waarin d de deviaties (= afwijkingen) van het gemiddelde zijn; d = x x ¯ .

Voor veel verdelingen gelden de volgende vuistregels:
tussen x ¯ σ en x ¯ + σ ligt ongeveer 68 % van alle scores,
tussen x ¯ 2 σ en x ¯ + 2 σ ligt ongeveer 95 % van alle scores.

Δ als maat voor overlap

We vergelijken twee even grote groepen wat een variabele betreft. Van de variabelen is de verdeling bij beide groepen bekend. is een maat voor het verschil tussen de groepen aan de hand van de overlap.

Δ wordt als volgt bepaald:

  • leg de verdelingen over elkaar,

  • bepaal de overlap,

  • bepaal hoeveel procent van een groep niet in de overlap zit,

  • dat percentage is Δ.

Effectgrootte

We vergelijken twee groepen wat een variabele betreft. Van de variabelen is de verdeling bij beide groepen bekend. De groepen hoeven niet even groot te zijn. De effectgrootte is een maat voor het verschil tussen de groepen aan de hand van de gemiddeldes en de standaarddeviaties van de verdelingen.

Effectgrootte = verschil tussen de gemiddeldes gemiddelde van de standaardafwijkingen

Als waardering van de effectgrootte D is vrij gangbaar:

  • als D 0,4 , dan is er sprake van een gering effect

  • als 0,4 < D 0,8 , dan is er sprake van een middelmatig effect

  • als 0,8 < D 1,5 , dan is er sprake van een groot effect

  • als D > 1,5 , dan is er sprake van een erg groot effect