7.9  Wel of niet uitzonderlijk >

In praktijk zijn populatie-eigenschappen onbekend en schat je populatiegemiddelden of -proporties met de resultaten van een enkele steekproef. Je bent immers vrijwel nooit in staat om de volledige populatie te onderzoeken. In deze paragraaf trekken we echter aselecte steekproeven uit bekende populaties; het populatiegemiddelde of de populatiefractie is dus bekend. Ook als we steekproeven trekken uit bekende populaties, treedt door de rol van toeval variatie op in de steekproefuitkomsten. Hoewel de precieze uitkomst van een steekproef niet te voorspellen is, heb je in de vorige paragraaf gezien dat steekproevenverdelingen normaal verdeeld zijn als de steekproefomvang voldoende groot is. In deze paragraaf combineren we dit gegeven met onze kennis over de normale verdeling en leer je hoe je kunt komen tot uitspraken als “met een waarschijnlijkheid van … procent zal de steekproefproportie tussen … en … liggen”.

1

De gemeente wil in de wijk “Zuilen” een buurthuis bouwen. Raadslid Reuling beweert dat 25  procent van de bewoners van de wijk tegen het plan is. De gemeenteraad besluit een enquête te houden onder 50  inwoners van de wijk.

a

Hoe zou jij de 50  inwoners selecteren?

Veronderstel dat raadslid Reuling gelijk heeft en dat inderdaad 25  procent van de bewoners tegen het plan is, ofwel de populatieproportie is 0,25 . Om een beeld te krijgen van de mogelijke uitkomsten van de enquête, simuleren we 5000  keer een steekproef van 50  personen (natuurlijk wordt de eigenlijke enquête maar één keer gehouden). Het histogram hieronder geeft de resultaten van deze simulaties.

b

Tussen welke waarden ligt 100 % van de steekproefproporties?

c

Tussen welke twee waarden ligt de middelste 95 % van steekproefproporties?

d

Hoe groot schat je de standaardafwijking ongeveer?

(hint)

Maak gebruik van de vuistregels van de normale verdeling.

2

Stel dat niet 25 % maar 30 % van de bewoners van de wijk “Zuilen” tegen de bouwplannen is; de populatieproportie (afgekort met P p ) is dus 0,30 . We nemen een aselecte steekproef van 50  bewoners ( n = 50 ) en vragen of ze voor of tegen het wetsvoorstel zijn. Uit deze enquête komt dat 21 van de 50  bewoners tegen de bouwplannen zijn. In deze opgave gaan we na of deze uitkomst uitzonderlijk is.

a

Simuleer (bijvoorbeeld met de online-app Steekproevenverdeling) minstens 500  keer een steekproef van 50  personen en teken het histogram van de steekproefproporties.

(hint)

In VUStat ga naar Steekproeven steekproevenverdeling en kies dan bij “Populatie” voor “proporties”.

b

Tussen welke grenzen ligt de middelste 95 % van de steekproefproporties?

(hint)

In VUStat kun je intervalschuiven gebruiken om het 95 % -gebied te bepalen.

c

Is de uitkomst van de enquête al dan niet uitzonderlijk? Licht je antwoord toe met behulp van de uitkomsten van je simulatie.

Via de theorie weten we dat het 95 % -gebied van steekproefproporties (het gebied waar de middelste 95 % van de steekproefproporties binnen valt) berekend kan worden met de formule:
P p ± 2 P p ( 1 P p ) n
waarbij P p de populatieproportie en n de steekproefomvang is.

3

We kijken nogmaals naar de bewoners van de wijk “Zuilen”. In de vorige opgave heb je door middel van een simulatie een verdeling van de steekproefproporties getekend.

a

Voer de simulatie nog enkele malen uit waarbij je steeds de populatieproportie ( P p ) en/of de steekproefomvang ( n ) varieert, zoals aangegeven in de onderstaande tabel. Noteer je resultaten in een tabel en controleer zo de formule uit de theorie.

b

Vergelijk je antwoorden met die van je klasgenoten en geef een verklaring voor verschillen en overeenkomsten.

c

Hoe zie je aan de histogrammen dat een grotere steekproef een smaller 95 % -gebied geeft voor de steekproefproportie?

d

Leg uit dat dit ook volgt uit de formule voor het 95 % -gebied van de steekproefproportie.

4

De gemiddelde lengte van vrouwen is bij benadering normaal verdeeld. In 1995 was de gemiddelde lengte van de vrouwen in Nederland 170  centimeter ( μ = 170 ) met een standaardafwijking van 6,5  centimeter ( σ = 6,5 ). We trekken een steekproef van 50  vrouwen uit deze bekende populatie en kijken naar het steekproefgemiddelde.

a

Simuleer (bijvoorbeeld met de online-app Steekproevenverdeling) minstens 500  keer zo’n steekproef met een omvang van 50 en bepaal tussen welke grenzen de middelste 95  procent van de steekproefgemiddelden ligt.

(hint)

In VUStat ga naar steekproeven steekproevenverdeling. Kies voor normale verdeling, μ = 170 en σ = 6,5 . Kies voor omvang van de steekproef  50 en gebruik de intervalschuiven.

b

Voer de simulatie nog enkele malen uit. Noteer je resultaten in de eerste drie kolommen van de tabel. In de vierde kolom kun je een formule uit de theorie gebruiken:
populatiegemiddelde ± 2 populatiestandaardafwijking steekproefomvang

Omdat de steekproevenverdeling van een gemiddelde normaal verdeeld is (als de steekproefomvang voldoende groot is), kun je het 95 % -gebied van de steekproefgemiddelden (het gebied waar de middelste 95 % van de steekproefgemiddelden binnen valt) berekenen met behulp van de volgende formule:
populatiegemiddelde ± 2 populatiestandaardafwijking steekproefomvang

Opmerking:

We kunnen ook kijken naar andere gebieden dan 95  procent. We moeten dan de factor  2 aanpassen. Als je de paragraaf ‘De standaard normale verdeling’ gemaakt hebt, dan kun je zelf de factoren vinden bij bijvoorbeeld het 90 % -gebied en het 99 % -gebied ( 1,64 respectievelijk 2,58 ).

5

In deze opgave testen we de bovenstaande formule voor het 95 % -gebied van steekproefgemiddelden.
Neem het bestand WeerData; hierin zie je gegevens over het weer vanaf 1894. We gaan kijken hoe het steekproefgemiddelde varieert als we een groot aantal keren een steekproef met dezelfde steekproefomvang nemen uit een populatie. We bekijken de variabele “zonuren”.

a

Neem 100  keer een steekproef met een omvang van 25 , bepaal van elke steekproef het gemiddeld aantal zonuren en verwerk deze steekproefgemiddelden in een histogram.

(hint)

In VUStat kies onder “Steekproeven” voor “Veel steekproeven uit bestand”; kies “zonuren” als steekproefvariabele en selecteer “gemiddelde” als uitvoer. Stel de steekproefomvang in op 25 en laat 100  keer een dergelijke steekproef trekken.
(Deze optie is (nog) niet beschikbaar in de online app-versie.)

b

Bereken het gemiddelde en de standaardafwijking bij jouw histogram (dit zijn dus het gemiddelde en de standaardafwijking van jouw steekproevenverdeling).

c

Ga nu naar de populatiegegevens en laat het gemiddelde aantal zonuren over alle jaren berekenen en de bijbehorende standaardafwijking. Noteer ook deze resultaten.

d

Test nu de formule:
populatiegemiddelde ± 2 populatiestandaardafwijking steekproefomvang

In de praktijk zal de populatie niet bekend zijn. Immers, daarvoor trekken we een steekproef. Op basis van zo’n steekproef willen we dan conclusies trekken over de (onbekende) populatie. In het volgende statistiekhoofdstuk leer je hier meer over.

6

Bij een eindexamen is de gemiddelde score van de kandidaten 64  punten met een standaardafwijking van 12  punten. Er wordt een steekproef van 50  kandidaten uit deze groep getrokken en het gemiddelde van deze groep berekend.

a

Bepaal het 95 % -gebied van de gemiddelde score van de kandidaten.

b

Wat gebeurt er met het 95 % -gebied als de steekproefomvang wordt vergroot naar 500  kandidaten?

7

Bij de presidentsverkiezingen is er keuze uit kandidaten A en B. In een krant staat: ‘Uit de laatste opiniepeiling onder 1200 mensen blijkt dat 54 procent van de stemgerechtigden voor kandidaat A zal stemmen. Dus kandidaat A zal zeker winnen’.
De krant trekt deze conclusie omdat de steekproefproportie ( 0,54 ) groter is dan 0,5 . Maar is dat niet wat voorbarig?
Stel dat een minderheid – dus hooguit 50  procent – in de populatie kandidaat A kiest. We kunnen berekenen of het 95 % -gebied van de steekproefproporties de uitkomst 0,54 bevat. Indien dit niet zo is, dan zeggen we dat met 95  procent betrouwbaarheid kandidaat A zal winnen; is dit niet het geval dan zullen we niet de conclusie trekken dat A gaat winnen.

Onderzoek of met een betrouwbaarheid van 95  procent gezegd kan worden dat kandidaat A een meerderheid heeft.

8

Uit een enquête in opdracht van de Stichting tegen Kanker van maart 2007 onder 1988  Belgen blijkt 61  procent voorstander te zijn van het rookvrij maken van cafés. In oktober 2006 was dat nog 55  procent van alle Belgen.

Kun je zeggen dat het aantal voorstanders in de periode van oktober 2006 tot maart 2007 is toegenomen? Of is het percentage mogelijk gelijk gebleven (en bedraagt het nog steeds 55 ) en passen deze resultaten bij de onnauwkeurigheid van steekproefresultaten?

9

Het Centraal Bureau Rijvaardigheidsbewijzen (CBR) stelt dat 65  procent van de examenkandidaten in één keer slaagt voor het rijexamen.
Een autorijschool meldt dat hun percentage geslaagden hoger is. Als dit een betrouwbare uitspraak wil zijn (met betrouwbaarheid van 95  procent), dan moet het aantal geslaagden van deze autorijschool zo hoog zijn dat dit aantal buiten het 95 % -gebied van het CBR ligt.

Bereken hoeveel van de 150  mensen bij deze autorijschool moeten slagen, als het resultaat inderdaad beter moet zijn dan 65  procent.