7.2  Gemiddelde en standaardafwijking >
1

In de figuur is de inkomensverdeling van de Amerikaanse artsen in de jaren veertig in beeld gebracht.

Het histogram is gebruikt om de gegevens overzichtelijk weer te geven. Vaak wordt een nog kortere ‘samenvatting’ gegeven.
Zo kan de vraag: “Hoeveel verdienden Amerikaanse artsen in de jaren veertig?” beantwoord worden met: “Gemiddeld zo’n 11.500  dollar.”

a

Ga na dat dit gemiddelde klopt.

In een ander land verdienen de artsen gemiddeld ook $ 11.500 per jaar, maar extreem hoge en lage lonen komen er niet voor: er is minder ‘spreiding’ in lonen.

b

Teken een histogram van (fictieve) inkomens van artsen in dit land.

Deze paragraaf gaat over gemiddelde en spreiding.

2

Je ziet hieronder het eerste stukje van een datamatrix met gegevens over de leerlingen van het Amalia College.

Kijk naar de drie leerlingen met wiskunde B.

a

Bereken voor deze drie het gemiddeld aantal uren dat ze wekelijks aan huiswerk besteden.

b

Doe dat ook voor de vier leerlingen met wiskunde A.

Hieronder zijn de scores 7 , 10 en 16 van de drie B-leerlingen met bolletjes op een getallenlijn weergegeven. De plaats van het gemiddelde is met een wigje aangegeven. De drie scores wijken respectievelijk 4 , 1 en + 5 af van het gemiddelde. Dat is in het plaatje met pijlen aangegeven. Voor de afwijkingen gebruiken we de letter d (van deviatie = afwijking). De drie d -waarden zijn hier respectievelijk 4 , 1 en + 5 .

3
a

Hoe groot is de som (optelling) van de drie deviaties hierboven?

Het gemiddelde wordt wel de evenwichtswaarde van de drie scores genoemd.

b

Waarom is dat een toepasselijke naam?

4

Hieronder zie je een stuk getallenlijn.

a

Neem de figuur over en geef met bolletjes de plaatsen aan van de vier scores voor huiswerk uit de A-groep.

b

Geef vervolgens de plaats van hun gemiddelde aan met een wigje.

c

Geef de vier deviaties aan met pijlen en zet de d -waarde erbij.

d

Hoe groot is de som van de afwijkingen?

Met de getallenlijn als een wip (balans) kun je het gemiddelde beschouwen als het evenwichtspunt. De scores zijn even zware poppetjes op de wip. De deviaties links wegen op tegen de deviaties rechts: de som van de deviaties is 0 . Het gemiddelde is een centrummaat; dat is een maat voor het centrum van de verdeling van de scores.

Naast een centrummaat als het gemiddelde is ook de spreiding van belang. In de figuur hieronder vind je de inkomensverdeling van artsen in enkele fictieve landen. Alle vijf verdelingen hebben hetzelfde gemiddelde: 11.500 .

5
a

Bepaal in elk van de vijf gevallen de mediaan. Wat is je conclusie?

b

Bepaal in elk van de vijf gevallen de modus. Wat is je conclusie?

Als de centrummaten niet voldoende zijn om een verdeling te karakteriseren, wordt vaak de spreiding van de waarnemingen erbij vermeld.

c

In welk van de vijf gevallen is er nauwelijks sprake van enige spreiding?

d

In welk geval is de spreiding het grootst?

We willen de grootte van de spreiding in een getal uitdrukken. Dat kan door de spreidingsbreedte en de kwartielafstand te berekenen en deze te visualiseren in een boxplot. Je kunt de spreiding ook goed uitdrukken met behulp van de afwijkingen van het gemiddelde ( x ¯ ). Als er veel kleine afwijkingen zijn en weinig grote, is de spreiding gering. Maar de spreiding is groot als er veel grote afwijkingen voorkomen.
Een voor de hand liggende maat voor de spreiding is de gemiddelde afwijking. Dit is voor geval B hiernaast weergegeven.

1000  waarnemingen wijken ieder 6000 af van het gemiddelde.
1000  waarnemingen wijken ieder + 6000 af van het gemiddelde.

De gemiddelde afwijking is: 1000 6000 + 1000 6000 2000 = 0 .

6

Waarom geldt altijd: de gemiddelde afwijking is gelijk aan 0 ?

De gemiddelde afwijking is dus niet zo’n geslaagde maat voor de spreiding! Beter zal het gaan als we de gemiddelde absolute afwijking nemen.

De gemiddelde absolute afwijking van de verdeling van B is: 1000 6000 + 1000 6000 2000 = 6000 .

Hetgeen prima overeenkomt met het histogram: alle waarnemingen wijken immers 6000 van het gemiddelde af!

7

Kijkend naar de histogrammen lijkt de spreiding bij B driemaal zo groot als bij C.

a

Bereken de gemiddelde absolute afwijking en controleer of dit klopt.

b

Bepaal de gemiddelde absolute afwijking van de verdelingen van D en E.

Hoewel de gemiddelde absolute afwijking een goede maat is voor de spreiding, wordt er weinig gebruik van gemaakt. De gemiddelde absolute afwijking is uit wiskundig-statistisch oogpunt niet zo goed bruikbaar. Wel goed bruikbaar is een andere spreidingsmaat: de standaardafwijking, ook vaak standaarddeviatie genoemd. Bij het bepalen van de standaardafwijking kwadrateren we de afwijkingen van het gemiddelde.

Het gemiddelde van de gekwadrateerde afwijking van B (kortweg: variantie van B) is: 1000 ( 11.500 5500 ) 2 + 1000 ( 17.500 11.500 ) 2 2000 = 6000 2 .

8
a

Reken na dat het gemiddelde van de gekwadrateerde afwijkingen van C (de variantie van C) gelijk is aan 2000 2 .

b

Is het volgende juist: variantie van B = 3 × variantie C?

Hoewel we in de histogrammen zien dat de spreiding van B driemaal zo groot is als die van C, blijkt het niet te kloppen voor het gemiddelde van de gekwadrateerde afwijkingen (de variantie): variantie van B = 9 × variantie van C.

We kunnen dit corrigeren door de wortel te nemen: 6000 2 = 3 2000 2 .
Dit is de standaardafwijking of standaarddeviatie, aangeduid met SD of met de Griekse letter σ (spreek uit: sigma).

Voorbeeld:

De variantie en standaarddeviatie van de serie 3 , 5 , 6 , 7 , 8 , 9 , 11 bereken je als volgt.

  • Bereken eerst het gemiddelde:
    3 + 5 + 6 + 7 + 8 + 9 + 11 7 = 7 .

  • Bepaal de afwijkingen (deviaties) van het gemiddelde:
    4 , 2 , 1 , 0 , 1 , 2 , 4 .

  • Bereken de kwadraten van deze afwijkingen:
    16 , 4 , 1 , 0 , 1 , 4 , 16 .

  • Bereken het gemiddelde van deze kwadraten:
    16 + 4 + 1 + 0 + 1 + 4 + 16 7 = 6 .
    Dit is de variantie.

  • Bereken de wortel van de variantie:
    6 = 2,45 .
    Dit is de standaarddeviatie (of standaardafwijking).

Opmerking:

Het handmatig bereken van de standaardafwijking is veel werk, zeker bij grote databestanden. In de praktijk laat je het rekenwerk over aan een computer of je grafische rekenmachine. Het (laten) berekenen van de standaardafwijking is dus niet echt een probleem. Belangrijker is dat je een juiste voorstelling hebt van het begrip spreiding.

9

Bereken de standaardafwijking van de inkomensverdelingen van D en E. Je mag hiervoor je grafische rekenmachine gebruiken.

Opmerking:

De betekenis van de standaardafwijking ligt niet alleen in het feit dat het een redelijke maat is om de spreiding van de waarnemingen aan te geven. De standaardafwijking geeft bovendien aan hoe ver de getallen afliggen van het gemiddelde ( x ¯ ). Meestal is het zo dat ongeveer 2 3 ( 68 % ) van de waarnemingen minder dan 1  keer de standaardafwijking van het gemiddelde verschilt (zie figuur 1). En 95 % heeft een afwijking van minder dan 2  keer de standaardafwijking van het gemiddelde (zie figuur 2).

Op deze statistische vuistregels komen we in de paragraaf “Normale verdeling” terug.