11.3 Conclusies trekken >

Hoofdstukken > Onderzoek

Je meet iets: de gemiddelde temperatuur in een jaar, het aantal zelfmoorden in een land, het aantal keer kop in een serie worpen met een muntstuk, … . Als je extreme resultaten krijgt, zul je concluderen dat er iets speciaals aan de hand is. Maar wanneer is een resultaat extreem, dat wil zeggen wanneer wijkt het voldoende af van wat je zou verwachten in normale omstandigheden. Dat is het grote probleem van de statisticus.

In deze opgave moet je op gevoel antwoorden. Je hoeft je antwoord dus niet met argumenten te onderbouwen.

Je werpt twintig keer met een muntstuk. Het valt $15$ keer op kop.

Is dit voor jou voldoende reden om te concluderen dat het muntstuk vals is?

Je meet in de maand mei een gemiddelde maximum dagtemperatuur van $20$ °C. Normaal is $17$ °C.

Is dit voor jou voldoende aanleiding om te concluderen dat Nederland opwarmt?

$20$ % van de mensen voelt zich in Amsterdam onveilig op straat. Dat is in 1999 uit een groot onderzoek gekomen. In een recent onderzoek zei $25$ % van de $200$ ondervraagden dat ze zich onveilig voelden op straat.

Is dat voor jou voldoende reden om te concluderen dat het percentage van $20$ % achterhaald is?

Significant

In de statistiek wordt een resultaat significant genoemd als het onwaarschijnlijk is dat het optreedt door toeval.
Maar wat is onwaarschijnlijk?
In normale omstandigheden zal de uitkomst in de buurt van het verwachte aantal liggen. Als het veel van het verwachte aantal afwijkt, noemt men het resultaat significant.
Maar wat is veel afwijken?
Een resultaat heet niet-significant als een dergelijke afwijking in normale omstandigheden in $95$ % van de gevallen zou kunnen optreden. Een resultaat heet significant als een dergelijk grote afwijking in normale omstandigheden in minder dan $5$ % van de gevallen zou optreden.
Als een resultaat significant is, is dat voldoende reden om aan te nemen dat de omstandigheden niet normaal zijn. Maar het is altijd mogelijk dat door toeval in normale omstandigheden toch dat resultaat optreedt.
De “ $95$ %” en “ $5$ %” zijn een keuze die veel gemaakt wordt. Andere percentages die wel worden gekozen zijn $90$ % (en $10$ %) of $99$ % (en $1$ %).

Het blijft tot nu toe een beetje vaag. De volgende opgaven zijn verhelderend.

Veronderstel dat $20$ % van de bevolking zich onveilig voelt op straat. Een dagblad houdt een enquête onder $100$ lezers. Waarschijnlijk ligt het aantal lezers dat zegt zich onveilig te voelen in de buurt van $20$ .

Ga na dat de kans dat dat aantal tussen $12$ en $28$ ligt, inclusief $12$ en $28$ , groter is dan $95$ %.
Ga na dat de kans dat dat aantal tussen $13$ en $27$ ligt, inclusief $13$ en $27$ kleiner is dan $95$ %.

Als $25$ % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van $20$ ?

Een dagblad houdt een enquête onder $400$ lezers. Nu verwacht je een aantal lezers dat zegt zich onveilig te voelen rond de $80$ .

Zoek zo scherp mogelijke grenzen, symmetrisch om $80$ , waartussen dat aantal met minstens $95$ % kans ligt.

Als $25$ % zegt zich onveilig te voelen, wijkt het resultaat dan significant af van $80$ ?

Als de enquête onder $100$ lezers is gehouden is het resultaat “ $25$ % voelt zich onveilig” onvoldoende reden om de $20$ % te verwerpen. De geconstateerde afwijking is niet groot genoeg.

Als de enquête onder $400$ lezers is gehouden is het resultaat “ $25$ % voelt zich onveilig” daar wel voldoende reden voor. De geconstateerde afwijking is dan groot genoeg.

De gehanteerde $5$ % heet het significantieniveau.

Opmerking:

In opgave 21 heb je gezien dat het van de grootte van de enquête afhangt of een resultaat significant is.

Ronald Fisher

De term significant is ingevoerd door de Britse statisticus Ronald Fisher (1890 – 1962).
Het woord significant zou het best vertaald kunnen worden met: belangrijk, veelzeggend, in het oog springend.

We gaan een serie van twintig worpen doen met een munt. Veronderstel dat de munt “eerlijk” is. We verwachten dat de munt circa tien keer op kop zal vallen.

Zoek zo scherp mogelijke grenzen, symmetrisch om $10$ , waartussen het aantal keer kop met minstens $95$ % kans ligt.

Het blijkt dat de munt $15$ keer op kop valt.

Is dit resultaat significant? Wat is je conclusie?

Mensen maken zich zorgen over de opwarming van de aarde, anderen zeggen dat het niet zo’n vaart loopt. De jaartemperatuur in De Bilt is normaal verdeeld met een standaardafwijking van $1$ °C. Veronderstel dat het gemiddelde (nog steeds) $9,8$ °C is.

Tussen welke grenzen, symmetrisch om $9,8$ °C, ligt de jaartemperatuur met een waarschijnlijkheid van $95$ %?

Als de jaartemperatuur het komende jaar $10,4$ °C blijkt te zijn, is dat dan significant hoger?

Ga naar VUstat/Analyse/Verdelingen en kies voor Normale verdeling.
Kies $μ = 9,8$ en $σ = 1$ .
Kies bij 'schuiven' voor Tweezijdig en klik "5%" aan. Je krijgt zoiets te zien als het plaatje hiernaast.

Lees in VUstat de grenzen die bij a gevraagd werden af.

De steekproef

Een statistische uitspraak wordt gedaan op grond van data.

een enquête
een steekproef
het verleden

Eigenlijk is een enquête ook een steekproef. Het is helemaal niet eenvoudig een goede steekproef te nemen.

Een onderzoeksbureau wil weten hoeveel procent van de Nederlandse bevolking vertrouwen heeft in de regering.
Bekijk de volgende drie methodes en geef kritiek.

In een winkelstraat in Amsterdam worden op zaterdagochtend $1200$ mensen naar hun mening gevraagd.

Uit de adressenlijst van de grootste krant van Nederland worden $1200$ namen geloot en die mensen wordt naar hun mening gevraagd.

Uit alle telefoonboeken van Nederland worden als volgt $1200$ mensen geloot:
uit ieder van de $50$ regionale telefoonboeken wordt $24$ keer een willekeurige bladzijde opengeslagen en met een speld een naam geprikt. Deze wordt gebeld en naar zijn mening gevraagd.

Opmerking:

Het met een speld prikken suggereert dat het loten eerlijk gebeurt: iedereen zou een even grote kans hebben om in de steekproef te komen.
Men zou ook gebruik kunnen maken van maken van dobbelstenen met meer zes kanten, bijvoorbeeld een $100$ -kantige dobbelsteen. Of zo'n $100$ -kantige dobbelsteen bestaat of niet, het idee is duidelijk: als je ermee gooit krijg je een getal (van $00$ t/m $99$ ) dat zuiver door toeval tot stand gekomen is. Zoiets zou prima functioneren als je uit een groep van $100$ mensen een steekproef van $10$ mensen wilt nemen. Je geeft alle $100$ mensen een nummer (van $00$ t/m $99$ ); je gooit nu net zolang met de $100$ $10$ verschillende getallen hebt. De mensen met deze nummers komen in de steekproef.

Hoeveel keer moet je minimaal werpen om tien verschillende nummers te krijgen? En hoeveel maximaal?

We zeiden al dat zo'n $100$ -kantige dobbelsteen misschien niet bestaat; het was een gedachtenexperiment. Bovendien, als de groep te onderzoeken mensen uit $105$ personen bestaat, zou je liever een 105-kantige dobbelsteen hebben. Het eind is zoek. De computer of grafische rekenmachine bewijst hier zijn nut. Deze kunnen een lijst van zogenaamde toevalsgetallen maken. Hieronder zie je een lijst van willekeurige getallen van twee cijfers, als ware er met een $100$ -kantige dobbelsteen gegooid.

Nu is het aan de steekproefnemers om deze lijst handig te gebruiken.

Bij een autofabriek moeten de laatste $50$ auto's van de productielijn gecontroleerd worden. In plaats van de auto’s een voor een te testen, neemt men een steekproef van $6$ stuks, die grondig worden nagekeken. Welke auto's kiest men nu? Niet de eerste zes of laatste zes. Loten dus.
In het gedachtenexperiment zouden we met een $50$ -kantige dobbelsteen gooien totdat we zes verschillende nummers hadden. In plaats daarvan gaan we de lijst met toevalsgetallen gebruiken. We kiezen een willekeurige regel, bijvoorbeeld regel zeven van de bovenstaande lijst. Deze luidt: 29 31 09 15 98 59 12 enzovoort.
We nemen steeds twee cijfers naast elkaar. Zo ontstaan getallen van 00 tot en met 99. Getallen boven de vijftig zijn niet bruikbaar: die slaan we over.

Wat zijn de nummers van de auto’s die worden getest?

Je kunt de toevalsgetallen ook op een andere manier gebruiken. Bijvoorbeeld als volgt. Kies weer regel zeven en neem weer twee cijfers naast elkaar. Spreek van tevoren af:
- als het getal kleiner dan 50 is, wordt dat gekozen,
- als het getal 50 of groter is, dan trek je er 50 vanaf.
- als je zodoende een getal twee keer tegenkomt, sla je het de tweede keer gewoon over.

Welke auto’s worden gekozen bij de rij: 29 31 09 15 98 59 12 23 93 17 15?

Wat is het voordeel van deze tweede methode?

Opmerking:

Een steekproef is pas 'goed' als iedere persoon (of auto, of …) uit de te onderzoeken populatie een even grote kans heeft om in de steekproef te komen. Maar daarmee ben je er nog niet. Het is bijvoorbeeld soms wenselijk dat een deelgroep (bijvoorbeeld vrouwen, allochtonen, ouderen) evenredig vertegenwoordigd is in de steekproef. We geven een voorbeeld.

Men wil een onderzoek doen naar docenten op de basisschool en neemt een steekproef van $150$ docenten. In het primaire onderwijs zijn ongeveer $21.000$ mannen werkzaam en $117.000$ vrouwen (cijfers van 2008). In de steekproef zou bij voorbaat met deze werkelijke verdeling rekening kunnen worden gehouden.

Hoeveel mannen en hoeveel vrouwen moeten dan in de steekproef worden opgenomen?

Met welke andere factoren zou men in het samenstellen van de steekproef rekening moeten houden?

Simuleren

Om de werking van een nieuw medicijn te onderzoeken, worden er meestal twee groepen gemaakt: de experimentele groep en de controlegroep. In de experimentele groep krijgt iedereen het nieuwe medicijn toegediend. In de controlegroep krijgt iedereen een nepmiddel (placebo), dat er precies zo uitziet als het echte medicijn.
Bovendien wordt het onderzoek dubbelblind uitgevoerd, dat wil zeggen dat zowel de patiënten als doktoren niet weten wie het echte medicijn en wie de placebo krijgt.

Waarom is het goed dat het onderzoek dubbelblind wordt uitgevoerd?

Stel dat de tabel hieronder de resultaten na drie weken geeft.

	genezing	niet	totaal
medicijn	$35$	$22$	$57$
placebo	$28$	$14$	$42$
totaal	$63$	$36$	$99$

Vind jij dat het medicijn goed werkt? Waarom?

Als de uitslag is zoals in de tabel hieronder, zul je waarschijnlijk wel vinden dat het medicijn overtuigend presteert.

	genezing	niet	totaal
medicijn	$35$	$22$	$57$
placebo	$5$	$37$	$42$
totaal	$40$	$59$	$99$

Vanaf welk uitslag van de placebogroep zou jij willen concluderen dat het medicijn werkt? Het is de bedoeling dat je je eigen criterium formuleert.
Dat hoef je niet te beargumenteren.

Vaak is het resultaat niet zo duidelijk dat je vrijwel zeker kunt concluderen dat het medicijn werkt. Bijvoorbeeld in de volgende tabel.

	genezing	niet	totaal
medicijn	$32$	$27$	$59$
placebo	$16$	$24$	$40$
totaal	$48$	$51$	$99$

Het medicijn presteert wel wat beter dan de placebo, maar deze uitslag kan misschien ook door toeval tot stand zijn gekomen. Met andere woorden: is dit resultaat afwijkend genoeg? Die vraag gaan we beantwoorden.
We nemen een populatie van $99$ personen: $48$ positieven en $51$ negatieven. Daaruit trekken we een steekproef van $59$ personen (die het medicijn krijgen toegediend). Veronderstel dat het medicijn niet beter werkt dan de placebo.

Hoeveel positieven verwacht je dan onder die $59$ personen?

We gaan een simulatie maken in VUstat/Steekproeven/Steekproeven uit ja-nee populatie :

stel het percentage paars in op $\frac{48}{99} \approx 0,485$ (ofwel 48,5%),
neem omvang populatie $99$ ,
neem omvang steekproef $59$ ,
klik 'zonder terugleggen' aan,
voer de steekproef $1000$ keer uit.

Elke keer dat de steekproef getrokken wordt, wordt het aantal paars geteld.
In het histogram kun je met 'Schuiven' (linksonder in beeld) te weten komen hoe vaak er $32$ of er meer paars waren.

Hoe vaak was dat in jouw geval?
Hoe groot schat jij de kans op $32$ of meer paars?
Vind je dat het resultaat in de tabel ( $32$ keer genezing) voldoende sterk om te concluderen dat het medicijn werkt?

Een simulatie is niet nodig. De kans zou ook kunnen worden berekend. We hebben een vaas met $48$ paarse en $51$ gele ballen en pakken er $59$ uit.
Dan kun je de kans uitrekenen op $32$ of meer paarse ballen.

Hoe? Zeg hoe je de berekening uit zou voeren. Het uitvoeren zelf is veel werk, en kun je maar beter achterwege laten. Met Excel heb ik gevonden dat die kans $\approx 0,1177$ is.

De redenering in bovenstaande opgave is als volgt.
Stel dat het medicijn niet werkt en het relatief hoge aantal genezingen geheel door toeval is gekomen. Dan verwacht je dat van de $57$ mensen met medicijn er $\frac{48}{99}$ ste-deel zal genezen. In een simulatie blijkt dat de kans op $32$ of meer genezingen dan een kans van $0,058$ heeft.
Dit is niet minder dan het significantieniveau van $5$ %.
Dus is de conclusie niet gerechtvaardigd dat het medicijn werkt.

Opgave 5 ging over de test van het poliovaccin Salk. $200.000$ kinderen kregen het Salk-vaccin en $200.000$ kinderen kregen een placebo. Men constateerde de volgende aantallen polio in de twee groepen :

	polio
Salk	$56$
placebo	$142$

De vraag was of het middel van Salk werkt tegen polio.

Hoe zou je met een simulatie kunnen nagaan of dit resultaat significant is?

Voer de simulatie uit in VuStat.

Was het in 1956 verantwoord te concluderen dat het middel van Salk werkt?