Spreiding

We kijken opnieuw naar opgave 17. Die ging over de wachttijden aan de kassa in twee warenhuizen op een doordeweekse dag.

De verwachtingswaarde van de wachttijd bleek in winkel A $1,125$ te zijn; om die waarde liggen de wachttijden in winkel A gespreid. Voor winkel B was de verwachtingswaarde $0,9$ ; de wachttijden in winkel B liggen om $0,9$ gespreid.

In welke winkel variëren de wachttijden het minst, in winkel A of in winkel B, vind je? Met andere woorden, in welke winkel is de spreiding van de wachttijden het kleinst?

We vergelijken de klasseringen van twee wielrenners in vijf grote koersen.
Renner A werd $3^{e}$ , $4^{e}$ , $20^{e}$ , $1^{e}$ en $17^{e}$ .
Renner B werd $6^{e}$ , $12^{e}$ , $9^{e}$ , $15^{e}$ en $3^{e}$ .

Bereken het gemiddelde van de klasseringen van renner A. Ook van renner B.

De prestaties liggen om de gemiddelden gespreid.

Welke renner presteert het wisselvalligst, vind je? Met andere woorden, van welke renner is de spreiding van de klasseringen het grootst?

In welke politieke staatsvorm is de spreiding van het inkomen het grootst, in een communistische of in een kapitalistische?
Schets een globale grafiek van de inkomensverdeling in beide staatsvormen in één figuur.

In welk klimaat is de spreiding van de dagelijkse temperatuur het grootst, in een landklimaat of in een zeeklimaat?
Schets een globale grafiek van de temperatuursverdeling in beide klimaattypen in één figuur.

Bij welke sport is de spreiding van de lichaamslengte het grootst, bij basketbal of van bij voetbal?
Schets een globale grafiek van de lengteverdeling van beide groepen sporters in één figuur.

In de voorbeelden van de vorige twee opgaven kun je "op gevoel" wel zeggen in welk geval de spreiding het grootst is. Dat kan natuurlijk niet altijd, bijvoorbeeld als in eerste instantie de verdelingen niet zo veel verschillen. Dan hangt het er maar vanaf hoe je kijkt of hoe je rekent bij welke verdeling de spreiding het grootst genoemd zou moeten worden. Daarom moeten we precies zeggen wat we met spreiding bedoelen. Dat kan op verschillende manieren.
Eerder al hebben we gezien:

de spreidingsbreedte; dat is de grootste min de kleinste waarde,
de kwartielafstand; dat is het derde kwartiel min het eerste kwartiel,
de gemiddelde absolute afwijking,
de standaardafwijking.

Hiervan is de standaardafwijking de belangrijkste.

De standaardafwijking van een frequentieverdeling

We herhalen wat we in hoofdstuk 1 – Verschillen hebben geleerd.
De standaardafwijking is $sd = \sqrt{\frac{Σ d^{2}}{n}}$ .
Hierbij staat $n$ voor het aantal waarnemingen en $d$ voor de afwijkingen (= deviaties) van de waarnemingen van het gemiddelde.
In woorden: de standaardafwijking is de wortel van het gemiddelde van de kwadraten van de afwijkingen (van het gemiddelde).

Hiernaast staat nog eens hoe je de standaardafwijking berekent.
Bijvoorbeeld als er drie waarnemingen zijn: $1$ , $5$ en $6$ , verloopt de berekening van de standaardafwijking als volgt:

het gemiddelde is $4$ ,
de afwijkingen van het gemiddelde zijn $‐ 3$ , $1$ en $2$ ,
de kwadraten van deze afwijkingen zijn $9$ , $1$ en $4$ ,
het gemiddelde van deze kwadraten is ongeveer $4,67$ ,
de wortel hiervan is ongeveer $2,16$ en dat is de sd.

Uit de set waarnemingen $1$ , $5$ , $6$ van bovenstaand voorbeeld maken we op meerdere manieren een nieuwe set waarnemingen.
Ga voor elke van de volgende sets waarnemingen stap voor stap na wat de sd is.

$2$ , $6$ , $7$

$101$ , $105$ , $106$

$2$ , $10$ , $12$

$10$ , $50$ , $60$

$1$ , $1$ , $5$ , $5$ , $6$ , $6$

$1$ , $1$ , $1$ , $1$ , $1$ , $5$ , $5$ , $5$ , $5$ , $5$ , $6$ , $6$ , $6$ , $6$ , $6$

Vergelijk de sd van de set $1$ , $5$ , $6$ met die van de sets in opgave 24a en 24b.

Welke conclusie trek je?

Vergelijk de sd van de set $1$ , $5$ , $6$ met die van de sets in opgave 24c en 24d.

Welke conclusie trek je?

Vergelijk de sd van de set $1$ , $5$ , $6$ met die van de sets in opgave 24e en 24f.

Welke conclusie trek je?

In de praktijk werk je met grote databestanden en dan bereken je de sd op de computer, bijvoorbeeld in Excel, in VU-Statistiek of op de GR.

Bereken met een computer of de Grafische Rekenmachine de sd van de aantallen doelpunten per voetbalwedstrijd in de eredivisie, seizoen 2006-2007:

Open met VU-statistiek het bestand kindergewichten. Dit bestand bevat de gewichten van ruim $1000$ kinderen die op de afdeling kindercardiologie van het Radboudziekenhuis in Nijmegen zijn onderzocht.

Bereken de sd van het gewicht van de kinderen.

Open met VU-statistiek het bestand oldfaithful. Dit bestand bevat $272$ eruptietijden en wachttijden (tijden tussen opeenvolgende erupties) van de geiser Old Faithful, de beroemdste en actiefste geiser in het Amerikaanse Yellowstone National Park.

Bereken de sd van de duur van de erupties.

Van een databestand is het gemiddelde $187$ cm en de standaardafwijking is $7,2$ cm.

Wat zijn het gemiddelde en de sd als we in dm rekenen in plaats van in cm?

Wat zijn het gemiddelde en de sd als we in inches rekenen? $1$ inch = $2,54$ cm.

Van Dale over spreiding:
(statistische wiskunde) middelbare fout; mate van uiteenlopen van de uitkomsten van een waarneming, syn. standaarddeviatie, strooiing

In de wiskunde verstaan we onder spreiding een getal, dat aangeeft hoezeer de data in een bestand uit elkaar liggen.
Als de spreiding $0$ is, dan zijn alle data gelijk. Kleiner kan de spreiding niet zijn.
Als de spreiding heel groot is, dan liggen de data ver uit elkaar.

De belangrijkste maat voor de spreiding van een databestand is de standaardafwijking sd. Van een databestand berekenen we die als volgt: $sd = \sqrt{\frac{Σ d^{2}}{n}}$ ; hierbij zijn $d$ de afwijkingen van het gemiddelde en is $n$ het aantal waarnemingen.

Voorbeeld
Stel dat er zes verschillende waarden voorkomen met de volgende frequenties:

Er zijn in totaal $100$ waarnemingen, het gemiddelde is $5$ en de afwijkingen van het gemiddelde zijn $‐ 2$ , $‐ 1$ , $0$ , $1$ , $2$ en $3$ . Dan gaat de berekening van de sd als volgt:
$sd = \sqrt{\frac{19 \cdot {(‐ 2)}^{2} + 22 \cdot {(‐ 1)}^{2} + 18 \cdot 0^{2} + 23 \cdot 1^{2} + 17 \cdot 2^{2} + 1 \cdot 3^{2}}{100}} \approx 1,41$ .

Algemeen
gegeven is de frequentietabel:

Er zijn $n = f_{1} + f_{2} + f_{3} + ...$ waarnemingen, het gemiddelde is $\bar{x}$ en de afwijkingen van het gemiddelde zijn $x_{1} - \bar{x}$ , $x_{2} - \bar{x}$ , $x_{3} - \bar{x}$ , $...$ . Dan gaat de berekening van de sd als volgt:
$sd = \sqrt{\frac{f_{1} \cdot {(x_{1} - \bar{x})}^{2} + f_{2} \cdot {(x_{2} - \bar{x})}^{2} + f_{3} \cdot {(x_{3} - \bar{x})}^{2} + ...}{n}}$ .

De wortel is genomen om de kwadraten op te heffen. Dankzij de wortel is in bijvoorbeeld opgave 27 de sd in cm als de gegevens in cm zijn en is de sd in inch als de gegevens in inch zijn. Zonder het wortelteken heb je dus sd². Dat heet ook wel de variantie. In het vervolg zullen we zien dat het met de variantie gemakkelijker rekent dan met de sd.

De wachttijden aan de kassa in twee warenhuizen op een doordeweekse dag zijn (zie opgave 17):

De verwachtingswaarde van de wachttijd bleek in winkel A $1,125$ te zijn en in winkel B $0,9$ .

Bereken de standaardafwijkingen van de wachttijden in beide winkels.

In opgave 22a heb je intuïtief gezegd in welke winkel de spreiding van de wachttijden het grootst is.

Is het resultaat in a hiermee in overeenstemming?

In opgave 22b hebben we de klasseringen van twee wielrenners in vijf grote koersen opgevoerd.
Renner A werd $3^{e}$ , $4^{e}$ , $20^{e}$ , $1^{e}$ en $17^{e}$ . Renner B werd $6^{e}$ , $12^{e}$ , $9^{e}$ , $15^{e}$ en $3^{e}$ . Van beide klasseringen is $9$ het gemiddelde.

Bereken de standaardafwijkingen van de klasseringen.

In opgave opgave 22c heb je intuïtief gezegd van welke renner de spreiding van de klasseringen het grootst is.

Is het resultaat in c hiermee in overeenstemming?

De standaardafwijking van een kansverdeling

De stap naar een kansverdeling is nu snel gemaakt.

Voorbeeld:

Bij een experiment wordt een aantal geteld, dat we $X$ noemen.
Stel dat $X$ zes verschillende waarden kan aannemen met de volgende kansen:

De verwachtingswaarde is $5$ en de afwijkingen van de verwachtingswaarde zijn $‐ 2$ , $‐ 1$ , $0$ , $1$ , $2$ en $3$ . Dan gaat de berekening van de sd als volgt:
$sd(X) = \sqrt{0,19 \cdot {(‐ 2)}^{2} + 0,22 \cdot {(‐ 1)}^{2} + 0,18 \cdot 0^{2} + 0,23 \cdot 1^{2} + 0,17 \cdot 2^{2} + 0,01 \cdot 3^{2}} \approx 1,41$ .

Als de tabel van de kansverdeling is:

en $E$ is de verwachtingswaarde, dan is
$sd (X) = \sqrt{p_{1} {(x_{1} - E)}^{2} + p_{2} {(x_{2} - E)}^{2} + ... + p_{n} {(x_{n} - E)}^{2}}$ .

In woorden:
$sd (X)$ is de wortel van de verwachtingswaarde van de kwadratische afwijking van $E$ .

Vergelijk de formules voor de sd van een frequentieverdeling en de sd van een kansverdeling.

Wat is het verband tussen $p_{1}$ , $f_{1}$ en $n$ ?

Bereken de standaardafwijking van het aantal ogen bij een worp met een dobbelsteen.

Op een braderie draait het rad van avontuur. Voor twee euro mag je één keer spelen. Als het rad stopt, geeft de pijl aan hoeveel euro je krijgt uitbetaald. We nemen aan dat het rad goed is uitgebalanceerd.

Hoe groot is de kans dat je winst maakt als je één keer speelt?

De uitbetaling per keer noemen we $X$ .

Bereken de verwachtingswaarde van $X$ .

Bereken de standaardafwijking van $X$ .

In hoeveel procent van de keren zal de uitbetaling meer dan $2 \cdot sd$ van de gemiddelde uitbetaling afwijken?

Een tweede rad van avontuur ziet er eenvoudiger uit.
De uitbetaling noemen we $Y$ .

Bereken $E (Y)$ .

Het is niet onmiddellijk duidelijk welk rad de grootste spreiding heeft, dit rad of het rad van opgave 31.

Gebruik de sd om te bepalen welk rad de grootste spreiding heeft.