1.6  Effectgrootte >

Is er verschil?

Heeft het gebruik van kunstmest bij appelbomen zin? Om daar achter te komen worden twee groepen appelbomen bekeken: in groep A wordt kunstmest gebruikt en in groep B niet. Het blijkt dat de appels in groep A gemiddeld een diameter van 6,8 cm hebben met een standaardafwijking van 0,28 cm. De appels in groep B hebben een diameter van 6,2 cm met een standaardafwijking van 0,20 cm.

Kan op grond van dit resultaat beslist worden dat het gebruik van kunstmest zinvol is, of is het verschil daarvoor te gering? (Kleine verschillen kunnen altijd wel optreden door toevallige verschillen in omstandigheden.)

Dit is een vraag waar de statistiek antwoord op wil geven. We willen het effect van het gebruik van kunstmest in een getal uitdrukken. Als dat getal groot is, zullen we concluderen dat kunstmest grotere appels geeft, als het getal klein is, zullen we dat niet zeggen (en natuurlijk blijven er twijfelgevallen).

1
a

Stel dat groep A als gemiddelde 7,0 cm met standaardafwijking 0,28 zou geven, was dan het effect van het gebruik van kunstmest groter of kleiner dan bij het bovenbeschreven resultaat?

b

Stel dat groep A als gemiddelde 6,8 cm met standaardafwijking 0,23 zou geven, was dan het effect van het gebruik van kunstmest groter of kleiner dan bij bovenbeschreven resultaat?

Overlap

Bij een onderwijskundig onderzoek wordt in twee vergelijkbare klassen een wiskundig begrip op twee verschillende manieren uitgelegd: een traditionele manier en een nieuwe manier. In de twee klassen werd de uitleg afgesloten met dezelfde toets.

Het dubbele histogram laat de (denkbeeldige) toetsresultaten van de twee klassen zien. De klas waarvan links het histogram staat had de nieuwe manier van uitleg gekregen. De cijfers in het rechter histogram zijn precies 1 punt lager dan in het linker. Het gemiddelde van de rechter klas is dus precies 1 punt lager dan dat van de linker klas. De standaarddeviaties zijn gelijk (Kun je uitleggen waarom?); in dit geval is sd = 0,99. De nieuwe manier van uitleg lijkt een duidelijk effect te hebben. Hoe groot het effect is, gaan we uitdrukken in een getal.

Daartoe leggen we de twee histogrammen over elkaar en letten op de overlap.

Er zitten 18 van de 27 leerlingen in de overlap, dat is 67%; dus 33% zit niet in de overlap.

Bij 100% overlap zou het effect van de nieuwe uitleg nihil zijn. Bij 0% overlap zou het effect van de nieuwe uitleg zeer groot zijn. Het percentage dat niet in de overlap zit wordt genoteerd met de Griekse letter Δ. In dit geval is Δ = 0,33 (33%).

2

Het experiment wordt herhaald in twee vergelijkbare klassen op een andere school. Hier zie je het (weer denkbeeldige) resultaat.

a

Hoeveel verschillen de gemiddeldes tussen de twee klassen? En de standaardafwijkingen?

b

Waaraan zie je dat op de tweede school de standaardafwijking van de toetsresultaten groter is dan op de eerste school?

De standaardafwijking is nu 1,93.

c

Leg op het werkblad de histogrammen over elkaar.

d

Hoeveel procent van de leerlingen zit in de overlap?

e

Hoe groot is Δ?

f

Op welke school had de nieuwe uitleg het meeste effect?

Het percentage Δ dat niet in de overlap zit is een maat voor het effect dat een nieuwe uitleg heeft. Als Δ = 0, is er geen effect. Hoe groter Δ, des te groter het effect.
De groepen die je vergelijkt moeten even groot zijn.

Effectgrootte

Het effect van de nieuwe uitleg kan ook op een andere manier worden gemeten. Daarbij is niet alleen het verschil van de gemiddelde toetscijfers van belang, maar ook de standaardafwijkingen in beide groepen.

J. Cohen stelde in 1962 voor de effectgrootte bij een vergelijking van twee groepen als volgt te berekenen: neem het verschil tussen de gemiddeldes en deel dat door de standaardafwijking (als tenminste de standaardafwijkingen in beide groepen gelijk zijn; neem anders het gemiddelde van de standaardafwijkingen). Hij gebruikte de letter D voor deze effectgrootte.

Effectgrootte = D = verschil tussen de gemiddeldes gemiddelde van de standaardafwijkingen

Hierbij is er altijd sprake van een groep waarop iets nieuws wordt uitgeprobeerd en een groep waarop dat niet gebeurt (de controlegroep). De letter D is van “differentie”, wat “verschil” betekent.

Waardoor in deze formule gedeeld moet worden is onderwerp van discussie tussen statistici. Volgens sommigen kan beter gedeeld worden door de standaardafwijking van de controlegroep. Wij zullen bovenstaande definitie hanteren.

3
a

Ga met een berekening na dat de effectgrootte in de eerste school (in de tekst voor opgave 57) ongeveer 1 is.

b

Bereken de effectgrootte in de tweede school (opgave 57).

c

In welke school had de nieuwe uitleg het meeste effect?

Als waardering van D is vrij gangbaar:

  • D 0,4 : gering effect

  • 0,4 < D 0,8 : middelmatig effect

  • 0,8 < D 1,5 : groot effect

  • D > 1,5 : erg groot effect

4
a

Bereken de effectgrootte van kunstmest in de situatie van het begin van deze paragraaf.

b

Is het effect van kunstmest groot?

5

Waarom wordt er in de formule voor de effectgrootte überhaupt gedeeld (door het gemiddelde van de standaardafwijkingen)? Waarom is het verschil tussen de gemiddeldes niet goed? In deze opgave wordt dat uitgelegd.

Stel dat de cijfers niet op een schaal van 1 t/m 10 zouden zijn gegeven, maar op een schaal van 1 t/m 100. We kijken naar de eerste school.

a

Wat zou dan het verschil tussen de gemiddeldes zijn?

b

Wat zou de standaardafwijking dan zijn?

c

Wat is dan dus de effectgrootte?

Opmerking:

Dankzij het feit dat gedeeld wordt door de standaardafwijking, doet de “schaal” waarop de cijfers worden gegeven er niet toe. Als niet gedeeld zou worden door de standaardafwijking zou je niet kunnen zeggen of een effectgrootte van bijvoorbeeld 1,9 groot is of niet.

6

Op het Amalia College telt in vwo4 de A/C-groep 40 leerlingen en de B-groep 30 leerlingen. In de volgende tabel zijn van vijf variabelen voor beide groepen het gemiddelde en de standaardafwijking gegeven.

a

Bereken voor elke variabele de effectgrootte D van de groep en benoem telkens de grootte van het effect.

b

Op welke variabele verschillen de twee groepen het meest?

c

Op welke variabele(n) verschillen de twee groepen maar weinig, vind jij?

7

In de volgende figuur zie je een dubbel steel-blad-diagram van de scores op cijfgem in de wiskunde-A/C- en de wiskunde-B-groep van het Amalia College.

a

Bereken de effectgrootte D van de groep op de variabele cijfgem.

In de volgende figuur zijn hokken om de bladeren van het steelbladdiagram getekend. Dan gaat het op twee histogrammen lijken.

b

Wat zijn de klassengrenzen bij deze histogrammen?

c

Waarom kun je in dit geval niet de verschilmaat Δ met de gegevens van deze histogrammen berekenen?

8

We illustreren de effectgrootte aan de hand van de lengte van jongens en meisjes. Zet je een groep van 18-jarige meisjes naast een groep 18-jarige jongens, dan zie je het lengteverschil onmiddellijk. Op 14-jarige leeftijd is het verschil nog nauwelijks waarneembaar. Tot de leeftijd van 13 jaar zijn jongens en meisjes in Nederland vrijwel even lang, maar daarna ontwikkelt zich een verschil. Meisjes van 14 jaar zijn gemiddeld 165 cm lang en jongens van deze leeftijd 168 cm. De standaardafwijking zowel bij de meisjes als bij de jongens is op die leeftijd 7 cm.

a

Bereken de effectgrootte van de sekse op de lengte bij 14-jarigen.

b

Is hier sprake van een klein, matig, groot of erg groot verschil?

Op 18-jarige leeftijd zijn de gemiddeldes 170 cm en 183 cm, terwijl de standaardafwijkingen bij beide groepen 7 cm blijft.

c

Wat is nu de effectgrootte en hoe zou je de grootte van dat verschil nu kwalificeren?

9

Voor de jongens en meisjes in 4 vwo van het Amalia College zijn de gemiddelde lengtes: 169,9 en 176,5 cm. De bijbehorende standaardafwijkingen zijn 8,6 en 8,9 cm.

Is hier sprake van een klein, matig, groot of erg groot verschil?

10

Iemand beweert: “Bij de keuze in klas 3 voor wel of geen wiskunde B speelt op het Amalia College het cijfer voor wiskunde een grote rol”. Zie opgave 61 voor de gegevens.

Wat vind je van die uitspraak?

Opmerking:

In paragraaf 11 vind je een onderzoek dat je nu kunt doen.