We kijken opnieuw naar opgave 17. Die ging over de wachttijden aan de kassa in twee warenhuizen op een doordeweekse dag.
De verwachtingswaarde van de wachttijd bleek in winkel A te zijn; om die waarde liggen de wachttijden in winkel A gespreid. Voor winkel B was de verwachtingswaarde ; de wachttijden in winkel B liggen om gespreid.
In welke winkel variëren de wachttijden het minst, in winkel A of in winkel B, vind je? Met andere woorden, in welke winkel is de spreiding van de wachttijden het kleinst?
We vergelijken de klasseringen van twee wielrenners in vijf grote koersen.
Renner A werd , , , en .
Renner B werd , , , en .
Bereken het gemiddelde van de klasseringen van renner A. Ook van renner B.
De prestaties liggen om de gemiddelden gespreid.
Welke renner presteert het wisselvalligst, vind je? Met andere woorden, van welke renner is de spreiding van de klasseringen het grootst?
In welke politieke staatsvorm is de spreiding van het inkomen het grootst, in een
communistische of in een kapitalistische?
Schets een globale grafiek van de inkomensverdeling in beide staatsvormen in één
figuur.
In welk klimaat is de spreiding van de dagelijkse temperatuur het grootst, in een
landklimaat of in een zeeklimaat?
Schets een globale grafiek van de temperatuursverdeling in beide klimaattypen in
één figuur.
Bij welke sport is de spreiding van de lichaamslengte het grootst, bij basketbal of
van bij voetbal?
Schets een globale grafiek van de lengteverdeling van beide groepen sporters in één
figuur.
In de voorbeelden van de vorige twee opgaven kun je "op gevoel" wel zeggen in welk
geval de spreiding het grootst is. Dat kan natuurlijk niet altijd, bijvoorbeeld als
in eerste instantie de verdelingen niet zo veel verschillen. Dan hangt het er maar
vanaf hoe je kijkt of hoe je rekent bij welke verdeling de spreiding het grootst genoemd
zou moeten worden. Daarom moeten we precies zeggen wat we met spreiding bedoelen.
Dat kan op verschillende manieren.
Eerder al hebben we gezien:
de spreidingsbreedte; dat is de grootste min de kleinste waarde,
de kwartielafstand; dat is het derde kwartiel min het eerste kwartiel,
de gemiddelde absolute afwijking,
de standaardafwijking.
Hiervan is de standaardafwijking de belangrijkste.
We herhalen wat we in hoofdstuk 1 – Verschillen hebben geleerd.
De standaardafwijking is .
Hierbij staat voor het aantal waarnemingen en voor de afwijkingen (= deviaties) van de waarnemingen van het gemiddelde.
In woorden: de standaardafwijking is de wortel van het gemiddelde van de kwadraten van de afwijkingen
(van het gemiddelde).
Hiernaast staat nog eens hoe je de standaardafwijking berekent.
Bijvoorbeeld als er drie waarnemingen zijn: , en , verloopt de berekening van de standaardafwijking als volgt:
het gemiddelde is ,
de afwijkingen van het gemiddelde zijn , en ,
de kwadraten van deze afwijkingen zijn , en ,
het gemiddelde van deze kwadraten is ongeveer ,
de wortel hiervan is ongeveer en dat is de sd.
Uit de set waarnemingen , , van bovenstaand voorbeeld maken we op meerdere manieren een nieuwe set waarnemingen.
Ga voor elke van de volgende sets waarnemingen stap voor stap na wat de sd is.
, ,
, ,
, ,
, ,
, , , , ,
, , , , , , , , , , , , , ,
Vergelijk de sd van de set , , met die van de sets in opgave 24a en 24b.
Welke conclusie trek je?
Vergelijk de sd van de set , , met die van de sets in opgave 24c en 24d.
Welke conclusie trek je?
Vergelijk de sd van de set , , met die van de sets in opgave 24e en 24f.
Welke conclusie trek je?
In de praktijk werk je met grote databestanden en dan bereken je de sd op de computer, bijvoorbeeld in Excel, in VU-Statistiek of op de GR.
Bereken met een computer of de Grafische Rekenmachine de sd van de aantallen doelpunten per voetbalwedstrijd in de eredivisie, seizoen 2006-2007:
Open met VU-statistiek het bestand kindergewichten. Dit bestand bevat de gewichten van ruim kinderen die op de afdeling kindercardiologie van het Radboudziekenhuis in Nijmegen zijn onderzocht.
Bereken de sd van het gewicht van de kinderen.
Open met VU-statistiek het bestand oldfaithful. Dit bestand bevat eruptietijden en wachttijden (tijden tussen opeenvolgende erupties) van de geiser Old Faithful, de beroemdste en actiefste geiser in het Amerikaanse Yellowstone National Park.
Bereken de sd van de duur van de erupties.
Van een databestand is het gemiddelde cm en de standaardafwijking is cm.
Wat zijn het gemiddelde en de sd als we in dm rekenen in plaats van in cm?
Wat zijn het gemiddelde en de sd als we in inches rekenen? inch = cm.
Van Dale over spreiding:
(statistische wiskunde) middelbare fout; mate van uiteenlopen van de uitkomsten van
een waarneming, syn. standaarddeviatie, strooiing
In de wiskunde verstaan we onder spreiding een getal, dat aangeeft hoezeer de data
in een bestand uit elkaar liggen.
Als de spreiding is, dan zijn alle data gelijk. Kleiner kan de spreiding niet zijn.
Als de spreiding heel groot is, dan liggen de data ver uit elkaar.
De belangrijkste maat voor de spreiding van een databestand is de standaardafwijking sd. Van een databestand berekenen we die als volgt: ; hierbij zijn de afwijkingen van het gemiddelde en is het aantal waarnemingen.
Voorbeeld
Stel dat er zes verschillende waarden voorkomen met de volgende frequenties:
Er zijn in totaal waarnemingen, het gemiddelde is en de afwijkingen van het gemiddelde zijn , , , , en . Dan gaat de berekening van de sd als volgt:
.
Algemeen
gegeven is de frequentietabel:
Er zijn waarnemingen, het gemiddelde is en de afwijkingen van het gemiddelde zijn , , , . Dan gaat de berekening van de sd als volgt:
.
De wortel is genomen om de kwadraten op te heffen. Dankzij de wortel is in bijvoorbeeld opgave 27 de sd in cm als de gegevens in cm zijn en is de sd in inch als de gegevens in inch zijn. Zonder het wortelteken heb je dus sd2. Dat heet ook wel de variantie. In het vervolg zullen we zien dat het met de variantie gemakkelijker rekent dan met de sd.
De wachttijden aan de kassa in twee warenhuizen op een doordeweekse dag zijn (zie opgave 17):
De verwachtingswaarde van de wachttijd bleek in winkel A te zijn en in winkel B .
Bereken de standaardafwijkingen van de wachttijden in beide winkels.
In opgave 22a heb je intuïtief gezegd in welke winkel de spreiding van de wachttijden het grootst is.
Is het resultaat in a hiermee in overeenstemming?
In opgave 22b hebben we de klasseringen van twee wielrenners in vijf grote koersen opgevoerd.
Renner A werd , , , en . Renner B werd , , , en . Van beide klasseringen is het gemiddelde.
Bereken de standaardafwijkingen van de klasseringen.
In opgave opgave 22c heb je intuïtief gezegd van welke renner de spreiding van de klasseringen het grootst is.
Is het resultaat in c hiermee in overeenstemming?
De stap naar een kansverdeling is nu snel gemaakt.
Bij een experiment wordt een aantal geteld, dat we noemen.
Stel dat zes verschillende waarden kan aannemen met de volgende kansen:
De verwachtingswaarde is en de afwijkingen van de verwachtingswaarde zijn , , , , en . Dan gaat de berekening van de sd als volgt:
.
Als de tabel van de kansverdeling is:
en is de verwachtingswaarde, dan is
.
In woorden:
is de wortel van de verwachtingswaarde van de kwadratische afwijking van .
Vergelijk de formules voor de sd van een frequentieverdeling en de sd van een kansverdeling.
Wat is het verband tussen , en ?
Bereken de standaardafwijking van het aantal ogen bij een worp met een dobbelsteen.
Op een braderie draait het rad van avontuur. Voor twee euro mag je één keer spelen. Als het rad stopt, geeft de pijl aan hoeveel euro je krijgt uitbetaald. We nemen aan dat het rad goed is uitgebalanceerd.
Hoe groot is de kans dat je winst maakt als je één keer speelt?
De uitbetaling per keer noemen we .
Bereken de verwachtingswaarde van .
Bereken de standaardafwijking van .
In hoeveel procent van de keren zal de uitbetaling meer dan van de gemiddelde uitbetaling afwijken?
Een tweede rad van avontuur ziet er eenvoudiger uit.
De uitbetaling noemen we .
Bereken .
Het is niet onmiddellijk duidelijk welk rad de grootste spreiding heeft, dit rad of het rad van opgave 31.
Gebruik de sd om te bepalen welk rad de grootste spreiding heeft.