Je meet iets: de gemiddelde temperatuur in een jaar, het aantal zelfmoorden in een land, het aantal keer kop in een serie worpen met een muntstuk, … . Als je extreme resultaten krijgt, zul je concluderen dat er iets speciaals aan de hand is. Maar wanneer is een resultaat extreem, dat wil zeggen wanneer wijkt het voldoende af van wat je zou verwachten in normale omstandigheden. Dat is het grote probleem van de statisticus.
In deze opgave moet je op gevoel antwoorden. Je hoeft je antwoord dus niet met argumenten te onderbouwen.
Je werpt twintig keer met een muntstuk. Het valt keer op kop.
Is dit voor jou voldoende reden om te concluderen dat het muntstuk vals is?
Je meet in de maand mei een gemiddelde maximum dagtemperatuur van °C. Normaal is °C.
Is dit voor jou voldoende aanleiding om te concluderen dat Nederland opwarmt?
% van de mensen voelt zich in Amsterdam onveilig op straat. Dat is in 1999 uit een groot onderzoek gekomen. In een recent onderzoek zei % van de ondervraagden dat ze zich onveilig voelden op straat.
Is dat voor jou voldoende reden om te concluderen dat het percentage van % achterhaald is?
In de statistiek wordt een resultaat significant genoemd als het onwaarschijnlijk is dat het
optreedt door toeval.
Maar wat is onwaarschijnlijk?
In normale omstandigheden zal de uitkomst in de buurt van het verwachte aantal liggen.
Als het
veel van het verwachte aantal afwijkt, noemt men het resultaat significant.
Maar wat is veel afwijken?
Een resultaat heet niet-significant als een dergelijke afwijking in normale omstandigheden in
% van de gevallen zou kunnen optreden. Een resultaat heet significant als een dergelijk grote afwijking in
normale omstandigheden in minder dan % van de gevallen zou optreden.
Als een resultaat significant is, is dat voldoende reden om aan te nemen dat de
omstandigheden niet
normaal zijn. Maar het is altijd mogelijk dat door toeval in normale omstandigheden
toch dat resultaat optreedt.
De “%” en “%” zijn een keuze die veel gemaakt wordt. Andere percentages die wel worden gekozen
zijn % (en %) of
% (en %).
Het blijft tot nu toe een beetje vaag. De volgende opgaven zijn verhelderend.
Veronderstel dat % van de bevolking zich onveilig voelt op straat. Een dagblad houdt een enquête onder lezers. Waarschijnlijk ligt het aantal lezers dat zegt zich onveilig te voelen in de buurt van .
Ga na dat de kans dat dat aantal tussen en ligt, inclusief en
, groter is dan %.
Ga na dat de kans dat dat aantal tussen en ligt, inclusief
en kleiner is dan %.
Als % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van ?
Een dagblad houdt een enquête onder lezers. Nu verwacht je een aantal lezers dat zegt zich onveilig te voelen rond de .
Zoek zo scherp mogelijke grenzen, symmetrisch om , waartussen dat aantal met minstens % kans ligt.
Als % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van ?
Als de enquête onder lezers is gehouden is het resultaat
“% voelt zich onveilig” onvoldoende
reden om de % te verwerpen. De geconstateerde afwijking is niet groot genoeg.
Als de enquête onder lezers is gehouden is het resultaat
“% voelt zich onveilig” daar wel
voldoende reden voor. De geconstateerde afwijking is dan groot genoeg.
De gehanteerde % heet het
significantieniveau.
In opgave 21 heb je gezien dat het van de grootte van de enquête afhangt of een resultaat significant is.
De term significant is ingevoerd door de Britse statisticus Ronald Fisher (1890
– 1962).
Het woord significant zou het best vertaald kunnen worden met: belangrijk, veelzeggend,
in het oog
springend.
We gaan een serie van twintig worpen doen met een munt. Veronderstel dat de munt “eerlijk” is. We verwachten dat de munt circa tien keer op kop zal vallen.
Zoek zo scherp mogelijke grenzen, symmetrisch om , waartussen het aantal keer kop met minstens % kans ligt.
Het blijkt dat de munt keer op kop valt.
Is dit resultaat significant? Wat is je conclusie?
Mensen maken zich zorgen over de opwarming van de aarde, anderen zeggen dat het niet zo’n vaart loopt. De jaartemperatuur in De Bilt is normaal verdeeld met een standaardafwijking van °C. Veronderstel dat het gemiddelde (nog steeds) °C is.
Tussen welke grenzen, symmetrisch om °C, ligt de jaartemperatuur met een waarschijnlijkheid van %?
Als de jaartemperatuur het komende jaar °C blijkt te zijn, is dat dan significant hoger?
Ga naar
VUstat/Analyse/Verdelingen
en kies voor Normale verdeling.
Kies en .
Kies bij 'schuiven' voor Tweezijdig en klik "5%" aan. Je krijgt zoiets te zien als het plaatje hiernaast.
Lees in VUstat de grenzen die bij a gevraagd werden af.
Een statistische uitspraak wordt gedaan op grond van data.
een enquête
een steekproef
het verleden
Eigenlijk is een enquête ook een steekproef. Het is helemaal niet eenvoudig een goede steekproef te nemen.
Een onderzoeksbureau wil weten hoeveel procent van de Nederlandse bevolking vertrouwen
heeft in de
regering.
Bekijk de volgende drie methodes en geef kritiek.
In een winkelstraat in Amsterdam worden op zaterdagochtend mensen naar hun mening gevraagd.
Uit de adressenlijst van de grootste krant van Nederland worden namen geloot en die mensen wordt naar hun mening gevraagd.
Uit alle telefoonboeken van Nederland worden als volgt mensen geloot:
uit ieder van de regionale telefoonboeken wordt keer een willekeurige bladzijde opengeslagen
en met een speld een naam geprikt. Deze wordt gebeld en naar zijn mening gevraagd.
Het met een speld prikken suggereert dat het loten eerlijk gebeurt: iedereen zou een
even grote kans
hebben om in de steekproef te komen.
Men zou ook gebruik kunnen maken van maken van dobbelstenen met meer zes kanten, bijvoorbeeld
een -kantige
dobbelsteen.
Of zo'n -kantige dobbelsteen bestaat of niet, het
idee is duidelijk: als je ermee
gooit krijg je een getal (van t/m ) dat zuiver door toeval tot stand gekomen is. Zoiets zou prima
functioneren als je uit een groep van mensen een steekproef van
mensen wilt nemen. Je geeft alle
mensen een nummer (van t/m );
je gooit nu net zolang met de
verschillende getallen hebt.
De mensen met deze nummers komen in de steekproef.
Hoeveel keer moet je minimaal werpen om tien verschillende nummers te krijgen? En hoeveel maximaal?
We zeiden al dat zo'n -kantige dobbelsteen misschien niet bestaat; het was een gedachtenexperiment. Bovendien, als de groep te onderzoeken mensen uit personen bestaat, zou je liever een 105-kantige dobbelsteen hebben. Het eind is zoek. De computer of grafische rekenmachine bewijst hier zijn nut. Deze kunnen een lijst van zogenaamde toevalsgetallen maken. Hieronder zie je een lijst van willekeurige getallen van twee cijfers, als ware er met een -kantige dobbelsteen gegooid.
Nu is het aan de steekproefnemers om deze lijst handig te gebruiken.
Bij een autofabriek moeten de laatste auto's van de productielijn gecontroleerd worden. In plaats van
de auto’s een voor een te testen, neemt men een steekproef van stuks, die grondig worden nagekeken.
Welke auto's kiest men nu? Niet de eerste zes of laatste zes. Loten dus.
In het gedachtenexperiment zouden we met een -kantige dobbelsteen gooien totdat we zes
verschillende nummers hadden. In plaats daarvan gaan we de lijst met toevalsgetallen
gebruiken.
We kiezen een willekeurige regel, bijvoorbeeld regel zeven van de bovenstaande lijst.
Deze luidt: 29 31
09 15 98 59 12 enzovoort.
We nemen steeds twee cijfers naast elkaar. Zo ontstaan getallen van 00 tot en met
99. Getallen boven de
vijftig zijn niet bruikbaar: die slaan we over.
Wat zijn de nummers van de auto’s die worden getest?
Je kunt de toevalsgetallen ook op een andere manier gebruiken. Bijvoorbeeld als volgt.
Kies weer regel
zeven en neem weer twee cijfers naast elkaar. Spreek van tevoren af:
- als het getal kleiner dan 50 is, wordt dat gekozen,
- als het getal 50 of groter is, dan trek je er 50 vanaf.
- als je zodoende een getal twee keer tegenkomt, sla je het de tweede keer gewoon
over.
Welke auto’s worden gekozen bij de rij: 29 31 09 15 98 59 12 23 93 17 15?
Wat is het voordeel van deze tweede methode?
Een steekproef is pas 'goed' als iedere persoon (of auto, of …) uit de te onderzoeken populatie een even grote kans heeft om in de steekproef te komen. Maar daarmee ben je er nog niet. Het is bijvoorbeeld soms wenselijk dat een deelgroep (bijvoorbeeld vrouwen, allochtonen, ouderen) evenredig vertegenwoordigd is in de steekproef. We geven een voorbeeld.
Men wil een onderzoek doen naar docenten op de basisschool en neemt een steekproef van docenten. In het primaire onderwijs zijn ongeveer mannen werkzaam en vrouwen (cijfers van 2008). In de steekproef zou bij voorbaat met deze werkelijke verdeling rekening kunnen worden gehouden.
Hoeveel mannen en hoeveel vrouwen moeten dan in de steekproef worden opgenomen?
Met welke andere factoren zou men in het samenstellen van de steekproef rekening moeten houden?
Om de werking van een nieuw medicijn te onderzoeken, worden er meestal twee groepen
gemaakt: de
experimentele groep en de controlegroep. In de experimentele groep krijgt iedereen
het nieuwe medicijn
toegediend. In de controlegroep krijgt iedereen een nepmiddel (placebo), dat er precies
zo uitziet als het
echte medicijn.
Bovendien wordt het onderzoek dubbelblind uitgevoerd, dat wil zeggen dat zowel de
patiënten als
doktoren niet weten wie het echte medicijn en wie de placebo krijgt.
Waarom is het goed dat het onderzoek dubbelblind wordt uitgevoerd?
Stel dat de tabel hieronder de resultaten na drie weken geeft.
genezing |
niet |
totaal |
|
medicijn |
|||
placebo |
|||
totaal |
Vind jij dat het medicijn goed werkt? Waarom?
Als de uitslag is zoals in de tabel hieronder, zul je waarschijnlijk wel vinden dat het medicijn overtuigend presteert.
genezing |
niet |
totaal |
|
medicijn |
|||
placebo |
|||
totaal |
Vanaf welk uitslag van de placebogroep zou jij
willen concluderen dat het medicijn werkt? Het is
de bedoeling dat je je eigen criterium formuleert.
Dat hoef je niet te beargumenteren.
Vaak is het resultaat niet zo duidelijk dat je vrijwel zeker kunt concluderen dat het medicijn werkt. Bijvoorbeeld in de volgende tabel.
genezing |
niet |
totaal |
|
medicijn |
|||
placebo |
|||
totaal |
Het medicijn presteert wel wat beter dan de placebo,
maar deze uitslag kan misschien ook door toeval tot
stand zijn gekomen. Met andere woorden: is dit
resultaat afwijkend genoeg?
Die vraag gaan we beantwoorden.
We nemen een populatie van personen:
positieven en
negatieven. Daaruit trekken we een steekproef
van personen (die het medicijn krijgen toegediend). Veronderstel dat het medicijn niet
beter
werkt dan de placebo.
Hoeveel positieven verwacht je dan onder die personen?
We gaan een simulatie maken in
VUstat/Steekproeven/Steekproeven uit ja-nee populatie
:
stel het percentage paars in op (ofwel 48,5%),
neem omvang populatie ,
neem omvang steekproef ,
klik 'zonder terugleggen' aan,
voer de steekproef keer uit.
Elke keer dat de steekproef getrokken wordt, wordt het aantal paars geteld.
In het histogram kun je met 'Schuiven' (linksonder in beeld) te weten
komen hoe vaak er
of er meer paars waren.
Hoe vaak was dat in jouw geval?
Hoe groot schat jij de kans op of meer paars?
Vind je dat het resultaat in de tabel ( keer genezing) voldoende sterk om te concluderen dat het
medicijn werkt?
Een simulatie is niet nodig. De kans zou ook kunnen worden berekend. We hebben een
vaas met
paarse en gele ballen en pakken er uit.
Dan kun je de kans uitrekenen op of meer paarse ballen.
Hoe? Zeg hoe je de berekening uit zou voeren. Het uitvoeren zelf is veel werk, en kun je maar beter achterwege laten. Met Excel heb ik gevonden dat die kans is.
De redenering in bovenstaande opgave is als volgt.
Stel dat het medicijn niet werkt en het relatief hoge aantal genezingen geheel door
toeval is gekomen.
Dan verwacht je dat van de mensen met medicijn er ste-deel zal genezen.
In een simulatie blijkt dat de kans op of meer genezingen dan een kans van heeft.
Dit is niet minder dan het significantieniveau van %.
Dus is de conclusie niet gerechtvaardigd dat het medicijn werkt.
Opgave 5 ging over de test van het poliovaccin Salk. kinderen kregen het Salk-vaccin en kinderen kregen een placebo. Men constateerde de volgende aantallen polio in de twee groepen :
polio |
|
Salk |
|
placebo |
De vraag was of het middel van Salk werkt tegen polio.
Hoe zou je met een simulatie kunnen nagaan of dit resultaat significant is?
Voer de simulatie uit in VuStat.
Was het in 1956 verantwoord te concluderen dat het middel van Salk werkt?