Statistische variabelen
1

In de dataset Gegevens154Leerlingen vind je gegevens van 154  vwo 4 leerlingen. De data zijn geordend per leerling: op één regel vind je de gegevens van één leerling, zoals het geslacht en de lengte. Dit zijn de statistische variabelen.

a

Welke statistische variabelen zijn onderzocht?

In hoofdstuk 3 heb je geleerd dat je de statistische variabelen in de dataset kunt verdelen in kwalitatieve en kwantitatieve variabelen.

b

Geef van beide soorten twee voorbeelden.

Aan de variabele geslacht worden soms twee waarden toegekend: 0 = vrouw en 1 = man.

c

Wordt de variabele daarmee kwantitatief?

De lengten bij een bevolkingsonderzoek worden gemeten in centimeters.

d

Kun je daarvoor redenen aangeven?

figuur 1

In figuur 1 zie je twee weegschalen.

e

Wat is het verschil tussen beide als het gaat om het aflezen van een gewicht?

Bij een grafiek van het temperatuurverloop van een dag kun je een vloeiende lijn tekenen (figuur 2).

figuur 2
f

Waarom kan dat niet bij een grafiek van de gemiddelde maandtemperatuur in 2009?

Het is belangrijk dat je de verschillende soorten variabelen leert onderscheiden. Het soort variabele dat je onderzoekt bepaalt namelijk welke statistische onderzoekstechnieken je zinvol kunt inzetten. Denk bijvoorbeeld aan het bekende voorbeeld dat je geen gemiddelde hobby kunt berekenen.

Een kwalitatieve variabele beschrijft van elk element van de populatie een bepaald kenmerk dat niet noodzakelijk in een getal wordt uitgedrukt, bijvoorbeeld: het geslacht, de kleur ogen, de bloedgroep, de naam, enzovoorts.

Een kwantitatieve variabele is een variabele die een meetbare of telbare hoeveelheid weergeeft en wordt in een getal uitgedrukt, zoals de lengte, de hoogte van het inkomen, de omvang van het gezin, enzovoorts. Kwantitatieve variabelen kun je verdelen in discreet en continu.

  • Een variabele die alleen bepaalde waarden kan aannemen en niet alle tussenliggende waarden heet discreet. Een voorbeeld is het aantal kinderen in een gezin.

  • Als wel alle tussenliggende waarden mogelijk zijn, ofwel als een variabele alle waarden binnen een interval kan aannemen, heet de variabele continu. Voorbeelden zijn lengte en gewicht.

2

Bekijk de dataset Gegevens154Leerlingen.

Geef voor elke kwantitatieve variabele aan of deze discreet of continu is en welke waarden de variabele aan kan nemen.

Dotplot

Over Dik Trom wordt gezegd: “Het is een bijzonder kind, en dat is-ie”. Maar hoe kun je zo’n uitspraak hard maken? In deze paragraaf leer je een individu vergelijken met een groep. Daarvoor gebruik je verschillende representaties, zoals het histogram en de frequentiepolygoon. Je leert welke verbanden er tussen deze representaties bestaan en welke informatie je er bij uitstek uit af kunt lezen.

3

Bekijk nog eens de dataset Gegevens154Leerlingen.

a

Hoe lang is het grootste meisje? En de grootste jongen?

b

Welke lengtes komen het meeste voor?

Met een dotplot zijn de gegevens overzichtelijk in beeld gebracht: de meetgegevens zijn geordend en het geslacht is met kleur aangegeven.

Je kunt nu de vragen a en b gemakkelijker controleren.

c

Doe dit.

Wouter is een van de leerlingen in de dataset. Hij is 184  cm lang en weegt 68  kg. Zijn cijfergemiddelde is 7,5 .

d

Welk nummer heeft Wouter?

We vragen ons af hoe Wouter zich verhoudt tot de rest van de leerlingen in de dataset. In de onderstaande dotplot is de plek van Wouter aangegeven met een pijl.

Het is duidelijk te zien dat Wouter bij de langere leerlingen in de groep hoort: in totaal zijn er 24 van de 154  leerlingen langer dan hij. Wanneer Wouter alleen tussen de meisjes zou staan, zou hij lang zijn; er zijn maar 2  meisjes in deze groep die langer zijn dan Wouter. Met zijn 184  cm hoort Wouter bij de langere jongens: er zitten meer jongens onder deze lengte dan erboven. Toch is Wouter geen hele lange jongen, want er zijn nog 22  jongens langer dan hij.

e

Maak met behulp van de computer een dotplot voor gewicht en voor cijfergemiddelde. Wijs Wouter aan in beide grafieken.

f

Geef een omschrijving van Wouters gewicht en cijfergemiddelde ten opzichte van de rest van de groep. Gebruik alleen de informatie die je eenvoudig uit de dotplots kunt halen.

In opgave 4 zijn de ruwe data met behulp van een dotplot geordend: de frequenties zijn uitgezet tegen de waarden die de statistische variabele lengte kan aannemen. In de dotplot zie je meteen dat er 6  leerlingen zijn met een lengte van 190  cm en dat dit allemaal jongens zijn. Een dotplot brengt de frequentieverdeling van de lengtes goed in beeld.

4

Het is je waarschijnlijk opgevallen dat de verdelingen van de lengtes van de jongens en de meisjes van elkaar verschillen: de jongens zijn over het algemeen wat langer dan de meisjes. Dat wordt nog duidelijker als je de deelgroepen jongens en meisjes afzonderlijk bekijkt. Je gebruikt dan de variabele geslacht als kenmerk om de deelgroepen te herkennen. Je krijgt zo twee dotplots.

a

Maak met behulp van de computer deze dotplots door de dataset te splitsen op de variabele geslacht.

De dotplots laten de frequentieverdeling van de lengtes van de meisjes en de jongens afzonderlijk goed zien.

b

Welke lengte komt bij de meisjes het meeste voor? Welke frequentie hoort daarbij?

c

Wat is de minimale lengte bij de meisjes? En de maximale lengte?

Ad zegt: "Bij de meisjes zit een uitschieter."

d

Wat zou hij bedoelen?

In plaats van een dotplot had je ook een steelbladdiagram kunnen maken; daar kun je dezelfde informatie uithalen.

e

Geef een voordeel en een nadeel van het gebruik van een steelbladdiagram ten opzichte van het gebruik van een dotplot.

Staafdiagram, histogram en frequentiepolygoon

De gegevens uit de dotplot van opgave 4 kunnen worden verwerkt in een staafdiagram. Dit diagram krijg je door de punten in de dotplot te verzamelen in staafjes.

5

Bereken met behulp van het staafdiagram hoeveel procent van de leerlingen langer is dan 180  cm.

Ook een staafdiagram brengt de frequentieverdeling van de statistische variabele lengte goed in beeld. De lengte van een staafje in het staafdiagram laat zien hoe vaak een bepaalde waarde voorkomt: de absolute frequentie.

6

Bij het maken van staafdiagrammen bij de lengtes en de gewichten van de 154  leerlingen speelt de volgorde waarin je de gemeten waarden zet een grote rol.

Bekijk de variabele profielkeuze.

a

Kun je daarbij een zinvol staafdiagram maken? En is de volgorde van de staven dan van belang?

Bekijk de variabele huiswerk.

b

Kun je daarbij een zinvol staafdiagram maken? En is de volgorde van de staven dan van belang?

Bekijk de variabele geboortejaar.

c

Waarom is het bij deze dataset nauwelijks zinvol om bij geboortejaar een staafdiagram te maken?

Bekijk de variabele leuk.

d

Kun je daarbij een zinvol staafdiagram maken? En is de volgorde van de staven dan van belang?

Bekijk de volgende statistische variabelen:

  • de dagelijkse reistijd naar school;

  • het aantal lesuren per week;

  • de muziekvoorkeur (bedenk zelf de categorieën);

  • het belang van bewegingsonderwijs voor iedereen (vijfpuntsschaal: totaal onbelangrijk, niet erg belangrijk, neutraal, belangrijk, heel belangrijk).

e

Beschrijf voor elk variabelen of deze kwalitatief of kwantitatief is (geef bij de kwantitatieve variabelen ook aan of het een continue of discrete variabele is). Kun je een zinvol staafdiagram maken? En is de volgorde van de staven dan van belang?

Om een overzichtelijker beeld te krijgen, kun je de lengtes van de leerlingen indelen in klassen. In het onderstaande diagram is gekozen voor een klassenbreedte van 5  cm. We noemen het diagram een histogram. In het histogram lees je af dat 6  leerlingen een lengte hebben tussen 155 en 160  cm.
De getallen 155 en 160 noemen we de klassengrenzen en het getal 157,5 is het bijbehorende klassenmidden.

Opmerking:

De begrippen staafdiagram en histogram lijken veel op elkaar. Omdat de lengte van leerlingen in principe alle waarden kan aannemen, heb je hier te maken met een continue variabele. In de praktijk gebruik je een histogram alleen bij continue variabelen. In alle andere gevallen maak je een staafdiagram met losse staven; de variabele neemt dan alleen losse waarden aan, zoals 156 ; 157 ; 158 ; enzovoort.


Tip
In de praktijk probeert men het aantal klassen te beperken tot zo’n 8 à 12 klassen. Het is gemakkelijk als alle klassen (op misschien begin en eind na) even breed zijn.

7

We kijken opnieuw naar Wouter, één van de 154  leerlingen uit het databestand Gegevens154Leerlingen.
We herhalen: Wouter is 184  cm lang en weegt 68  kg. Zijn cijfergemiddelde is 7,5 .
Wouter is 184  cm lang en valt dus in de klasse 180 - 185  cm. In tegenstelling tot de dotplot kun je in het histogram Wouter niet meer aanwijzen. Door het groeperen van gegevens in klassen verlies je informatie over het individu, maar krijg je veelal een overzichtelijker beeld van de frequentieverdeling. Uit het bovenstaande histogram blijkt dat 23  leerlingen ongeveer even lang zijn als Wouter. Wouter zit niet in de klasse met de meeste leerlingen (de modale klasse), hij is dus langer dan de modale lengte. Wouter hoort bij de langere leerlingen, maar is niet uitzonderlijk lang.

a

Maak met behulp van de computer een histogram voor gewicht en voor cijfergemiddelde.

b

Wat kun je over Wouters gewicht en cijfergemiddelde zeggen wanneer je alleen naar de histogrammen kijkt?

In een histogram gaat het eigenlijk alleen maar om de hoogte van de staven. Als je die hoogte met een stip (in het midden van de staaf: het klassenmidden) aangeeft, dan kan de rest achterwege blijven. Deze stippen worden dan verbonden door rechte lijntjes. Aan het begin en aan het eind worden lijntjes naar de horizontale as getekend, ook weer met als horizontale stap één klassenbreedte.

Het diagram dat op deze wijze ontstaat, noemen we een frequentiepolygoon (poly = veel, goon = hoek). Een frequentiepolygoon geeft dus dezelfde informatie als een histogram. Maar als er meerdere histogrammen in één figuur staan, leest dat niet prettig af. Bij meerdere frequentiepolygonen in één plaatje is dat wel goed te doen.

8

De docenten van de klassen H4A en H4B vergelijken de cijfers die de leerlingen halen met de cijfers die zij in klas 3 haalden.
Om de cijfers te kunnen vergelijken, berekenen de docenten voor elke leerling het volgende verschil:
verschil = gemiddelde cijfer klas 4 – gemiddelde cijfer klas 3.
De docenten vatten de gegevens samen in een histogram (figuur 1).

a

Welke conclusie trek je op basis van het histogram in figuur 1?

De docent van H4C komt tot de conclusie dat de cijfers ongeveer gelijk zijn gebleven. Ook hij onderbouwt dit met een histogram (figuur 2). De docenten lijken allemaal gelijk te hebben.

b

Wat heeft de docent van H4C gedaan?

Opmerking:

Je krijgt een ander beeld wanneer je andere klassen neemt, dat wil zeggen wanneer je de klassenbreedte en/of de klassengrenzen verandert.

9

Bekijk opnieuw de dataset Gegevens154Leerlingen.

a

Maak met behulp van de computer drie frequentiepolygonen van de lengte. Maak de klassenbreedte eerst 5 , dan 10 en tot slot 15  cm breed.

b

Wat valt je op aan de verschillende figuren? Welke klassenindeling vind jij hier het beste passen en waarom?

c

Hoeveel procent van de meisjes is tussen de 155 en 160  cm lang?

d

Kun je met behulp van de figuren uit onderdeel a berekenen hoeveel procent van jongens langer is dan 182  cm?

e

Welke voordelen heeft het groeperen van de metingen in klassen?

f

Welke nadelen heeft het groeperen van de metingen in klassen?

g

Welk nadeel heeft het vergroten van de breedte van de klassen?

10

Je kunt een klassenindeling op verschillende manieren noteren.
Lengtes van de bladeren van een bepaald soort boom (in cm) worden ingedeeld in de klassen 6,5 -< 7,5 ; 7,5 -< 8,5 ; enz.

a

Bepaal de klassenbreedte en de klassenmiddens.

De leeftijden van de werknemers van een bepaald bedrijf worden in de volgende klassen ingedeeld 20 - 24 , 25 - 29 , ... , 60 - 64 .

b

Bepaal de klassenbreedte en de klassenmiddens.

Een theater houdt bij hoeveel kaartjes er voor een voorstelling worden verkocht. De klasse 200 - 249 geeft het aantal voorstellingen weer waarvoor 200 tot en met 249  kaartjes verkocht zijn.

c

Bepaal de klassenbreedte en het klassenmidden van deze klasse.

d

Bij welke variabele uit de dataset Gegevens154Leerlingen is het zinvol/mogelijk een klassenindeling te maken? Licht je antwoorden toe.

Cumulatieve frequentie

In plaats van de lengte van de leerlingen weer te geven in een histogram, kun je ook kiezen voor een frequentietabel. Aan de frequentietabel is de kolom cumulatieve frequentie toegevoegd. De cumulatieve frequentie (ook wel somfrequentie genaamd) bereken je door de frequenties van een bepaalde klasse en alle voorgaande klassen op te tellen. Zo vind je de somfrequentie van een lengte, bijvoorbeeld 174  cm, door alle frequenties tot en met de klasse 170 - 174 op te tellen, dus 6 + 14 + 37 + 26 = 83 .


Een lijndiagram bij deze somfrequenties noem je een somfrequentiepolygoon of cumulatieve frequentiepolygoon. De polygoon brengt de verdeling van de variabele lengte in beeld. In de somfrequentiepolygoon zie je bijvoorbeeld dat na de klasse van onze 184  cm lange Wouter, de grafiek nog maar langzaam stijgt. Dit betekent dat er niet veel leerlingen langer zijn dan Wouter.

11
a

Open de dataset Gegevens154Leerlingen en maak met de computer bij de variabelen gewicht en cijfergemiddelde cumulatieve frequentiepolygonen.

b

Wijs in elke grafiek de plek van Wouter aan. Welke informatie over Wouter kun je uit de twee cumulatieve frequentiepolygonen halen?

Let bij het tekenen van een cumulatieve frequentiepolygoon op het volgende:

  • de stippen teken je boven de rechter grens van een klasse;

  • de eerste stip teken je boven de linker grens van de kleinste klasse.

12

Leg uit waarom de twee hierboven genoemde eigenschappen van een cumulatieve frequentiepolygoon logisch zijn.

We kunnen ook kijken naar de cumulatieve percentages.
Je neemt dan de percentages tot en met een bepaalde lengte. Bijvoorbeeld, het percentage leerlingen met een lengte onder de 165  cm is 20 154 100 % 13 % .

13

Neem de tabel over en vul de ontbrekende cumulatieve percentages in.

Ook cumulatieve percentages kun je uitzetten in een lijngrafiek.

Een lijngrafiek zoals hierboven noemen we een relatieve somfrequentiepolygoon (of relatieve cumulatieve frequentiepolygoon).

14
a

Bekijk de relatieve somfrequentiepolygoon en vul de volgende zin aan: Wouter behoort tot de ... % langste leerlingen.

Een uitspraak zoals in onderdeel a is gebaseerd op de aanname dat de waarnemingen gelijkmatig binnen hun klasse zijn verdeeld.

b

Wat vind je van deze aanname?

Bekijk opnieuw de dataset Gegevens154Leerlingen.

c

Maak met behulp van de computer een relatieve somfrequentiepolygoon bij de variabelen lengte.

d

Hoeveel procent van de jongens is langer dan 180  cm?
En hoeveel procent van de meisjes?

(hint)

Splits de dataset op de variabele geslacht.

Bekijk de 50 % kleinste meisjes.

e

Tussen welke waarden ligt hun lengte? En hoe zit dat bij de jongens?

Bekijk de 25 % grootste meisjes.

f

Tussen welke waarden ligt hun lengte? En hoe zit dat bij de jongens?

Verschillende representaties, verschillende informatie

In de vorige opdrachten hebben we een hele reeks aan representaties (tabellen en diagrammen) bekeken. Je hebt gezien dat het eenvoudig is om van een dotplot een staafdiagram te maken: je ziet bij wijze van spreken de staafjes al. Voor dotplot, staafdiagram en frequentiepolygoon geldt: als je er één hebt, heb je eigenlijk ook meteen de andere twee. Moeilijker is het om op basis van een dotplot te voorspellen hoe een histogram (met klassenindeling) of een cumulatieve frequentiepolygoon eruit ziet. Maar het is wel degelijk mogelijk.

15

In de dotplot zie je de sprinttijden van een groep brugklasleerlingen.

a

Welk van de drie somfrequentiepolygonen hoort bij de dotplot? Geef een toelichting.

Hieronder vind je een histogram bij de sprinttijden.

b

Had je met behulp van de dotplot de vorm van dit histogram kunnen voorspellen? Beargumenteer je antwoord.

c

Is het mogelijk om vanuit dit histogram een zinvol steelbladdiagram te maken? Zo ja: maak het steelbladdiagram; zo nee: beargumenteer je antwoord.

Ad heeft alleen de hiernaast afgebeelde frequentietabel met sprinttijden gekregen. Op basis van deze frequentietabel maakt Ad een histogram met een klassenbreedte van 0,1  seconden.

d

Schets een histogram dat Ad getekend kan hebben. Leg uit waarom Ads histogram afwijkt van de dotplot.

Esmee wil een globaal beeld hebben van de meest voorkomende sprinttijden.

e

Welk van de bovenstaande representaties kan zij daarvoor het beste gebruiken?

Nils wil weten of hij bij de snelste 50 % van zijn klas hoort.

f

Welke representatie kan hij het beste gebruiken?

Iedere representatie heeft eigen sterke en zwakke kanten. Zo kun je uit de dotplot van de vorige vraag eenvoudig de afzonderlijke sprinttijden aflezen. Lastiger is het om direct (dus zonder tellen) uit de dotplot af te lezen hoeveel leerlingen sneller waren dan 9  seconden. Daarvoor is een somfrequentiepolygoon meer geschikt.


Verschillende diagrammen geven dus verschillende informatie.
We bekijken nogmaals het voorbeeld van de sprinttijden.

  • Een dotplot en een steelbladdiagram tonen iedere sprinttijd afzonderlijk.

  • Een frequentietabel, een staafdiagram en een frequentiepolygoon tonen de sprinttijd samengevoegd met andere sprinttijden, al naar gelang de gebruikte klassenindeling. Hoe groter de klassen zijn, hoe minder je van ieder sprinttijd terugziet maar hoe meer je kunt zeggen over groepen sprinttijden (de meest gesprintte tijden, het tijdsinterval van de langzaamste sprinters, enzovoorts).

  • Een somfrequentiepolygoon geeft vooral informatie over groepen sprinttijden, net als een indeling in grote klassen. In een relatieve somfrequentiepolygoon kun je eenvoudig de 20 % snelste sprinttijden aflezen, de 50 % langzaamste sprinttijden, enzovoorts.


Het heeft dus zin om na te denken over de keuze van een diagram; afhankelijk van de vraag kies je het meest geschikte diagram.