1.3  Data in beeld >
Geclusterd staafdiagram, reepdiagram, cumulatief frequentiepolygoon

Bij de variabele geslacht zijn er maar twee waarden mogelijk: ‘man’ en ‘vrouw’. In dat geval kon je met het percentageverschil goed aangeven hoezeer beide wisgroepen verschillen. De variabele kunstbel heeft zes mogelijke waarden. Dan is het veel lastiger om het verschil tussen beide wisgroepen te karakteriseren. In de kruistabel staat freq voor frequentie (= aantal) en p voor percentage.

1

Het totale percentage A/C is niet precies 100%.

a

Hoe komt dat?

Bij A/C is het totale percentage 0,1% te groot en bij B 0,1% te klein.

b

Is dat toeval?

Met de percentages is een zogenaamd geclusterd staafdiagram gemaakt, zie de figuur in opgave 17. Daarin staat hoe de belangstelling voor kunst verdeeld is over de verschillende waarden, van beide groepen, in procenten. Je krijgt meteen al een eerste indruk van de verschillen: de B-groep heeft een veel hoger percentage op de score middelmatig en ook een hoger percentage op de score groot; op de andere scores zijn de percentages lager dan van de A/C-groep.

2

Bekijk de volgende figuur.

a

Welk niveau van belangstelling komt het meeste voor als je de hele groep bekijkt?

In de grafiek zie je dat de aantallen niet symmetrisch zijn verdeeld rond 3,5. De aantallen links ervan zijn groter dan de aantallen rechts ervan.

b

Wat betekent dat voor de algemene belangstelling voor kunst in deze groep leerlingen?

c

Vind jij dat er veel verschil is in belangstelling voor kunst tussen beide groepen? Waarom wel/niet?

Om de groepen beter te kunnen vergelijken, kijken we naar de cumulatieve percentages. Je neemt dan de percentages tot en met een bepaalde score. Bijvoorbeeld het percentage A/C-leerlingen met een score t/m middelmatig is 18,6% + 25,6% + 25,6% = 69,8%, afgerond 70%.

In de kolom cf staan de cumulatieve (= opgetelde) frequenties en cp staat voor cumulatief percentage. Zo is bij de A/C-groep de cumulatieve frequentie van “middelmatig” 30, want er zijn 8+11+11 = 30 A/C-leerlingen met middelmatige of lagere belangstelling voor kunst, en dat is ongeveer 70%.

Cumulatief betekent samenvoegend, ophopend.

3

Vul op het werkblad de ontbrekende cumulatieve percentages voor de B-groep in.

4

Door de staven in het staafdiagram van opgave 17 te stapelen, krijg je automatisch de cumulatieve percentages in beeld. Dat zie je in het reepdiagram. De zes percentages van een groep (kolom cp in de kruistabel) zijn er opgestapeld weergegeven door (gekleurde) blokjes in een reep. Voor de duidelijkheid zijn de grenzen tussen de blokjes nog met stippellijnen verbonden.

a

Komt een lagere belangstelling voor kunst (dat is “helemaal geen” of “niet zo groot”) meer voor bij de B- dan bij de A/C-groep?

b

Wat is je conclusie over het verschil in kunstbel voor beide groepen?

Je kunt de verschillen tussen de cumulatieve percentages bekijken: cp(A/C) – cp(B). Deze percentageverschillen noemen we Vcp.

5
a

Vul op het werkblad de kolom Vcp in en stel vast wat het grootste absolute verschil is.

b

Hoe zie je in het reepdiagram wat het grootste verschil is?

6

We tekenen de lijngrafieken van de cumulatieve percentages cp van beide groepen.

a

Lees uit de grafiek af hoeveel procent van de B-leerlingen middelmatig of minder belangstelling voor kunst heeft.

b

Lees uit de grafiek af hoeveel procent van de B-leerlingen tamelijk grote belangstelling voor kunst heeft (dat is categorie 4).

c

Hoe zie je in de grafiek dat er procentueel meer A/C-leerlingen zijn met tamelijk grote belangstelling (categorie 4) voor kunst dan B-leerlingen?

d

Hoe zie je aan deze lijngrafieken dat de belangstelling voor kunst in de wiskunde B-groep (iets) groter is dan in de wiskunde A-groep?

Een lijngrafiek zoals hierboven heet een cumulatieve frequentiepolygoon. Polygoon betekent letterlijk veelhoek. Je tekent die door de losse punten (hier bij de cumulatieve percentages) te verbinden. Je krijgt zodoende in het algemeen een grafiek met knikken.

7

De variabele advies zegt in hoeverre het advies van mensen belangrijk was voor een leerling om het gekozen profiel te kiezen. 1 betekent minst belangrijk, 4 betekent meest belangrijk. Hieronder staat de kruistabel van advies tegenover de wisgroep.

a

Vul op het werkblad de tabel verder in.

b

Teken de cumulatieve procentuele frequentiepolygonen voor beide wisgroepen in één figuur.

c

Lees hieruit af voor welke groep het advies het zwaarst telde.

Histogram, cumulatief frequentiepolygoon, boxplot

We gaan het gemiddelde rapportcijfer van de A/C- en de B-leerlingen vergelijken, bij de overgang van klas 3 naar klas 4. Dit gemiddelde is op één decimaal afgerond.

We gaan deze data op allerlei manieren weergeven:

  • met een dotplot

  • met een staafdiagram

  • met een histogram

  • met een cumulatief frequentiepolygoon

  • met een boxplot

Dotplots

De dotplot geeft alle data weer van beide groepen. Van alle leerlingen is het gemiddelde rapportcijfer aangegeven door een stip. Verticaal staan de cijfers, horizontaal de (genummerde) leerlingen, links A/C en rechts B.

8

Welk verschil tussen beide groepen valt onmiddellijk op als je de dotplot van de A-groep vergelijkt met die van de B-groep?

De gegevens uit de dotplot kun je verwerken in een staafdiagram of een histogram.

Staafdiagrammen

figuur 1
figuur 2

De hoogte van een staaf (zie figuur 1 en 2) geeft aan hoe vaak de betreffende score voorkwam. De staafdiagrammen maken je niet veel wijzer over de verschillen tussen beide groepen.

Histogrammen

figuur 3
figuur 4

Er ontstaat een overzichtelijker beeld als de gemiddelde eindcijfers worden ingedeeld in klassen.
De balk boven score 6,0 in figuur 3 in het histogram voor de A/C-groep geeft weer dat 9 leerlingen een cijfer hadden tussen 5,5 en 6,5 (inclusief 6,5). Dus er geldt 5,5 < score 6,5
Die grenzen worden door de maatstreepjes op de horizontale as aangegeven. De score 6,0 is een klasse van scores, met klassegrenzen 5,5 en 6,5 en met klassemidden 6,0 .
Voordat je een histogram maakt, kies je een geschikte klasse-indeling van de scores.

9

Welk verschil tussen beide wisgroepen valt nu het meeste op?

Opmerking:

De begrippen staafdiagram en histogram lijken veel op elkaar. Omdat het gemiddelde cijfer in principe alle waarden kan aannemen tussen 1 en 10, heb je hier te maken met een continue variabele. In de praktijk gebruik je een histogram alleen bij continue variabelen. In alle andere gevallen maak je een staafdiagram met losse staven; de variabele neemt dan alleen losse waarden aan, zoals 7,5 ; 7,6 ; 7,7 ; enzovoort.
“Histogram” is afgeleid uit het Grieks: histos = balk, graphein = schrijven.

Tip

Afhankelijk van de situatie zorg je ervoor dat er niet teveel (minder dan 10) en niet te weinig (ten minste 5) klassen zijn.

10

Doordat elk cijfer eigenlijk een klasse is, worden er veel cijfers op één hoop gegooid.
Welke informatie ben je kwijtgeraakt als je de histogrammen met de staafdiagrammen vergelijkt?

Cumulatieve relatieve frequentiepolygonen

Een betere mogelijkheid om het verschil tussen de A/C-groep en de B-groep in beeld te brengen is de cumulatieve relatieve frequentiepolygoon of relatieve somfrequentiepolygoon. Op de horizontale as staan de gemiddelde cijfers, op de verticale as de cumulatieve percentages.

11

Bekijk nog eens de voorgaande figuur.

a

Bij welke waarde van cijfgem is het verschil tussen de cumulatieve percentages van de twee groepen het grootst?

b

Hoe groot is dat verschil?

c

Geef je mening over de verschillen tussen beide groepen wat het gemiddelde cijfer in vwo 3 betreft.

12

Je kunt ook een cumulatieve relatieve frequentiepolygoon maken door uit te gaan van de histogrammen (in plaats van van de waarden zelf).
Hieronder zie je de cumulatieve frequentiepolygonen voor de A/C- en B-groep in één figuur. De stip boven 7,5 op de polygoon voor de B-groep zegt dat in de B-groep het percentage leerlingen met gemiddelde cijfer 7,5 of lager bijna 70% is.

a

Lees uit de cumulatieve frequentiepolygonen af hoeveel procent van de A/C-leerlingen meer dan 6,5 en hoogstens 7,5 als gemiddelde had.

b

Lees dit percentage ook af uit figuur 3 hierboven.

c

Hoe zie je in de figuur dat de gemiddelde rapportcijfers van de B-leerlingen hoger waren dan die van de A/C-leerlingen?

Boxplots

Een andere manier om naar de gegevens te kijken is de volgende. Deel de populatie in in vier gelijke stukken (kwarten). Zet daarvoor eerst alle data op volgorde van grootte. Als voorbeeld nemen we de gemiddelde cijfers in de A/C-groep. Dat zijn er 43:
6,0 ; 6,0 ; 6,1 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,5 ; 6,6 ; 6,6 ; 6,8 ; 6,8 ; 6,8 ; 6,9 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,0 ; 7,2 ; 7,3 ; 7,3 ; 7,3 ; 7,5 ; 7,5 ; 7,5 ; 7,5 ; 7,5 ; 7,6 ; 7,8 ; 7,8 ; 8,0

Deze verzameling cijfers verdeel je in twee gelijke helften van elk 21 cijfers. Het middelste cijfer is 7,0; dat is hierboven vet gemaakt. Links daarvan staan 50% van de data en rechts daarvan ook. Dit is de mediaan van de cijfers. Bij een even aantal cijfers zijn er twee middelsten. In dat geval nemen we het gemiddelde van die middelsten; dat is dan de mediaan.
De mediaan verdeelt de cijfers in twee even grote helften.
Op dezelfde manier bepaal je het middelste cijfer van de linkerhelft en ook van de rechterhelft. Die zijn ook vet: 6,6 en 7,3. Dat zijn de zogenaamde kwartielen. 6,6 is het eerste kwartiel, 7,3 is het derde kwartiel. Het tweede kwartiel is de mediaan. De kwartielen verdelen de verzameling van alle data dus in vier gelijke stukken; elk van (ruwweg) 25%.

Opmerking:

Het gaat hier om een globale verdeling; kwartielen worden gebruikt voor grote databestanden. Dan doet het er niet toe of je de mediaan zelf wel of niet mee laat doen bij de kleinste helft om het eerste kwartiel te bepalen.
Voorbeeld: het eerste kwartiel van de lengtes van Nederlandse 18-jarige jongens is 178,4 cm; dat betekent dat 25% van de Nederlandse 18-jarige jongens korter dan 178,4 cm is en 75% langer dan 178,4 cm. Niemand is exact 178,4 cm; de precieze lengte van 178,4 cm is niet interessant.
Om misverstanden te voorkomen zullen we de volgende afspraak gebruiken:

  • het eerste kwartiel is de mediaan van de linkerhelft, exclusief de eventuele middelste score,

  • het derde kwartiel is de mediaan van de rechterhelft, exclusief de eventuele middelste score.

13

Kijk naar de 25%-, 50%- en 75%-waarden op de verticale as van de A/C-polygoon boven opgave 26 en zoek de bijbehorende cijfers op de horizontale as.

Welke cijfers zijn dat?

Hier zie je nog eens de cumulatieve frequentiepolygoon van gemiddelde rapportcijfers van de B-groep. Daaronder is de zogenaamde boxplot getekend.

Een boxplot teken je door op schaal de uiterste waarden en de kwartielen aan te geven. In de “box” (de rechthoek tussen de kwartielen) zit 50% van de waarden. In dit geval:

  • laagste waarde: 6,0

  • eerste kwartiel: 6,95 (want de 25% lijn valt midden tussen de 6,9 en de 7,0)

  • mediaan: 7,42

  • derde kwartiel: 7,73

  • hoogste waarde: 8,9

14
a

Teken op het werkblad de boxplot voor de A/C-groep onder de boxplot voor de B-groep.

b

Wat kun je zeggen over het verschil van de gemiddelde eindcijfers in klas 3 op grond van de boxplots?

c

Heeft het eindcijfer voor wiskunde in klas 3 een rol gespeeld bij de keuze voor wiskunde A/C of wiskunde B? Geef argumenten.

Tussen het eerste en het derde kwartiel zit de helft van de scores. De afstand van het eerste en derde kwartiel heet kwartielafstand. Dat is de breedte van de box.
Als de kwartielafstand groot is, is de spreiding van de scores dat ook, d.w.z. de scores liggen dan ver uit elkaar.


Steelbladdiagram

Nauw verwant aan het histogram is het zogenaamde steelbladdiagram. We leggen dat uit aan de hand van de gewichten van de leerlingen in de A/C-groep.

Op de bovenste regel staan de gewichten 41, 46 en 48 kg. Het eerste cijfer, de "4" staat in de "steel", de tweede cijfers, "1", "6" en "8" zijn de bladeren.

15
a

Hoe maak je van het steelbladdiagram een histogram? Met welke klassebreedte?

b

Hoeveel A/C-leerlingen wegen meer dan 70 kg?

c

Bepaal de kwartielen en de mediaan door de data op grootte te sorteren.

d

Teken de cumulatieve relatieve frequentiepolygoon.

e

Bepaal de mediaan en de kwartielen uit de cumulatieve relatieve frequentiepolygoon.

f

Teken de boxplot.

Opmerking:

In paragraaf 9 en 10 vind je een computerpracticum en een onderzoek dat je nu kunt doen.