Hypotesetest 🎯
Forestil dig, at en ven påstår, at hans terning er fair. Du kaster den 60 gange og slår 18 seksere – det er næsten dobbelt så mange, som du ville forvente. Er terningen snydt, eller er det bare tilfældig variation? Hypotesetest giver dig et systematisk og matematisk stringent værktøj til at besvare præcis den slags spørgsmål.
I stedet for at stole på mavefornemmelse bruger vi data og sandsynligheder til at træffe beslutninger. Det er videnskabelig tænkning i sin reneste form – og nu skal du mestre det! 🧪
Teori: Grundbegreber i hypotesetest
En hypotesetest er en struktureret procedure, der bruger data til at afgøre, om en påstand (hypotese) om en population er rimelig.
De to hypoteser:
-
Nulhypotesen : Den “kedelige” hypotese – typisk at alt er, som forventet. Ingen effekt, ingen forskel, ingen ændring.
-
Alternativhypotesen (eller ): Den “spændende” hypotese – der er en effekt, en forskel eller en ændring.
Eksempler på hypotesepar:
| Situation | ||
|---|---|---|
| Er terningen fair? | ||
| Virker medicinen bedre? | Ingen forskel | Medicin er bedre |
| Passer fordelingen? | Data følger forventet fordeling | Data afviger fra fordelingen |
Vigtig pointe: Vi beviser aldrig, at er sand. Vi undersøger kun, om der er tilstrækkelig evidens til at forkaste . Tænk på det som et retssystem: den anklagede (=) er uskyldig, indtil det modsatte er bevist.
Teori: Signifikansniveau og fejltyper
Signifikansniveauet er den grænse, vi sætter for, hvor stor risiko vi er villige til at acceptere for at begå en fejl. De mest almindelige værdier er:
| Betydning | Bruges typisk til | |
|---|---|---|
| 10% risiko | Indledende screening | |
| 5% risiko | Standard i de fleste undersøgelser | |
| 1% risiko | Vigtige medicinske/sikkerhedstests |
To typer fejl kan opstå:
Type I-fejl (falsk alarm): Vi forkaster , selvom faktisk er sand.
- Sandsynlighed: (signifikansniveauet)
- Eksempel: Vi konkluderer, at terningen er snydt, men den er faktisk fair.
Type II-fejl (overset effekt): Vi forkaster ikke , selvom faktisk er falsk.
- Sandsynlighed:
- Eksempel: Vi konkluderer, at terningen er fair, men den er faktisk snydt.
Der er en afvejning: Lavere (færre falske alarmer) giver højere (flere oversete effekter). Vi vælger ud fra konsekvenserne af at begå en Type I-fejl.
Vis Eksempel: At forstå fejltyper ⚡
Situation: En fabrik hævder, at højst 2% af deres produkter er defekte. En kvalitetsinspektør tester dette.
Type I-fejl: Inspektøren konkluderer, at defektraten er for høj, men den er faktisk OK.
- Konsekvens: Fabrikken stoppes unødvendigt – dyrt, men ikke farligt.
Type II-fejl: Inspektøren konkluderer, at defektraten er OK, men den er faktisk for høj.
- Konsekvens: Defekte produkter sendes til kunderne – potentielt farligt!
Her er Type II-fejl mest alvorlig, så man bør vælge et relativt højt (fx ) for at minimere risikoen for at overse problemer.
Teori: P-værdi og teststørrelse
P-værdien er det centrale begreb i hypotesetest. Den besvarer spørgsmålet:
“Hvis er sand, hvad er så sandsynligheden for at observere noget mindst lige så ekstremt som vores data?”
Tolkning af -værdien:
- Lille -værdi (fx 0,002): Det er meget usandsynligt at se disse data, hvis er sand → stærk evidens mod .
- Stor -værdi (fx 0,43): Det er helt normalt at se disse data, selvom er sand → svag evidens mod .
Beslutningsreglen:
En teststørrelse er en talværdi beregnet fra data, der opsummerer, hvor langt de observerede data ligger fra det forventede under . Jo større teststørrelse, jo mere ekstremt er resultatet.
Vis Eksempel: Trin-for-trin hypotesetest ⚡
Opgave: En møntproducent hævder, at deres mønter er fair (). Du kaster en mønt 100 gange og får 62 plat. Er mønten fair? Brug .
Trin 1: Opstil hypoteser
Trin 2: Signifikansniveau
Trin 3: Under er
Forventet antal plat:
Spredning:
Observeret:
Trin 4: Beregn -værdi
Da det er en tosidet test, beregner vi sandsynligheden for at være mindst 12 fra middelværdien (begge retninger):
Med CAS:
Trin 5: Konklusion
Vi forkaster . Der er statistisk signifikant evidens for, at mønten ikke er fair.
Bemærk: Statistisk signifikans betyder ikke nødvendigvis praktisk signifikans. er tæt på – i praksis ville mønten stadig virke “næsten fair”.
Teori: Chi²-test for goodness-of-fit
Chi²-testen (udtales “ki-i-anden-testen”) bruges, når vi vil undersøge, om observerede frekvenser stemmer overens med forventede frekvenser. Det er en goodness-of-fit-test – den tester, om data passer til en bestemt model.
Hvornår bruger vi chi²-test?
- Når vi har kategoriske data (tæller observationer i kategorier)
- Når vi vil sammenligne observerede og forventede frekvenser
- Typisk krav: Alle forventede frekvenser
Teststørrelsen beregnes som:
hvor:
- er antallet af kategorier
- er den observerede frekvens i kategori
- er den forventede frekvens i kategori (under )
Tolkning af :
- : Perfekt overensstemmelse (observeret = forventet)
- Lille : God overensstemmelse → beholdes
- Stor : Dårlig overensstemmelse → forkastes
Frihedsgrader:
hvor er antallet af kategorier. -værdien slås op i en chi²-tabel eller beregnes med CAS ud fra og .
Vis Eksempel: Chi²-test – er terningen fair? ⚡
Opgave: En terning kastes 120 gange med følgende resultater:
| Udfald | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Observeret | 25 | 17 | 15 | 23 | 18 | 22 |
Er terningen fair? Brug .
Trin 1: Hypoteser
Trin 2: Forventede frekvenser
Hvis terningen er fair, forventer vi i hvert udfald:
Trin 3: Beregn teststørrelsen
Vi beregner hvert led:
Trin 4: Frihedsgrader og -værdi
Vi slår op i chi²-tabellen (eller bruger CAS): For og :
Trin 5: Konklusion
Vi forkaster ikke . Der er ingen statistisk signifikant evidens for, at terningen er unfair. De observerede afvigelser kan forklares ved tilfældig variation.
Vis Eksempel: Chi²-test – fordeling af blodtyper ⚡
Opgave: I Danmark forventes blodtypefordelingen at være: A: 44%, B: 11%, AB: 4%, O: 41%. I en stikprøve af 500 personer observeres:
| Blodtype | A | B | AB | O |
|---|---|---|---|---|
| Observeret | 205 | 65 | 30 | 200 |
| Forventet | 220 | 55 | 20 | 205 |
Passer stikprøven til den forventede fordeling? Brug .
Trin 1: Hypoteser
Trin 2: Kontrollér betingelse
Alle forventede frekvenser ✅ ()
Trin 3: Beregn teststørrelsen
Trin 4: Frihedsgrader og -værdi
Med CAS:
Trin 5: Konklusion
Vi forkaster . Stikprøven afviger statistisk signifikant fra den forventede blodtypefordeling. Især bidrager blodtype AB (med ) mest til den samlede teststørrelse.
Teori: Samlet overblik – de 5 trin i en hypotesetest
Uanset typen af test (binomialtest, chi²-test osv.) følger alle hypotesetests den samme overordnede struktur:
Trin 1: Formulér hypoteser
- : Nulhypotesen (det vi antager gælder, indtil vi har bevis for andet)
- : Alternativhypotesen (det vi vil undersøge)
Trin 2: Vælg signifikansniveau
- Standard: (medmindre andet er angivet)
Trin 3: Indsaml data og beregn teststørrelse
- Binomialtest: Tæl succeser og brug binomialfordelingen
- Chi²-test: Beregn
Trin 4: Find -værdien
- Brug CAS, tabeller eller formler
Trin 5: Drag konklusion
- : Forkast – statistisk signifikant
- : Forkast ikke – ikke tilstrækkelig evidens
Husk: Vi siger aldrig “acceptér ” – vi siger “forkast ikke ”. Det er en vigtig nuance!
Vis Eksempel: Valg af testtype ⚡
Hvornår bruger du hvilken test?
| Situation | Testtype |
|---|---|
| Teste om en andel har en bestemt værdi | Binomialtest |
| Teste om observerede frekvenser passer til en model | Chi²-test (goodness-of-fit) |
| Teste om to kategoriske variable er uafhængige | Chi²-test (uafhængighedstest) |
Eksempel 1: “Er andelen af venstrehåndede i klassen 10%?” → Binomialtest med
Eksempel 2: “Følger fødselsdage en jævn fordeling over årets 12 måneder?” → Chi²-test med forventede frekvenser for hver måned
Eksempel 3: “Passer de observerede terningkast til en fair terning?” → Chi²-test med for hvert udfald
Tommelfingerregel: Brug binomialtest, når du har to kategorier (succes/fiasko). Brug chi²-test, når du har flere kategorier.
Vis Bevis: Hvorfor chi²-formlen virker ⚡
Intuitivt måler chi²-teststørrelsen den samlede afvigelse mellem observerede og forventede frekvenser. Lad os se, hvorfor formlen er designet, som den er:
1. Afvigelsen :
Forskellen mellem observeret og forventet. Kan være positiv eller negativ.
2. Kvadrering :
Vi kvadrerer for at gøre alle bidrag positive (ligesom ved varians). Uden kvadrering ville positive og negative afvigelser ophæve hinanden.
3. Division med :
Vi dividerer med den forventede frekvens for at normalisere. En afvigelse på 5 fra en forventning på 10 er mere alvorlig end en afvigelse på 5 fra en forventning på 1000:
4. Summation :
Vi lægger alle bidrag sammen for at få ét samlet mål for uoverensstemmelse.
Under følger tilnærmelsesvist en chi²-fordeling med frihedsgrader (for store stikprøver). Dette følger af den centrale grænseværdisætning.
🏋️ Træningsopgaver
Opgave 1: Hypoteser Formulér nulhypotese og alternativhypotese for følgende situationer:
- a) Du vil undersøge, om en mønt er fair.
- b) En virksomhed hævder, at 95% af deres leverancer er til tiden. Du mistænker, at andelen er lavere.
- c) Du vil teste, om fordelingen af karakterer i en klasse følger normalfordelingen.
Opgave 2: Simpel chi²-test En slikautomat påstår at indeholde lige mange af 4 slags slik. Du køber 80 stykker og observerer:
| Type | Lakrids | Vingummi | Chokolade | Karamel |
|---|---|---|---|---|
| Antal | 25 | 14 | 22 | 19 |
Udfør en chi²-test med for at vurdere, om fordelingen er jævn.
Opgave 3: Fejltyper For følgende situationer: Beskriv, hvad en Type I-fejl og en Type II-fejl ville betyde i praksis.
- a) Du tester, om et nyt undervisningsprogram forbedrer eksamensresultater.
- b) Du tester, om en medicin har bivirkninger.
Opgave 4: Chi²-test med flere kategorier I en spørgeundersøgelse om yndlingsfag svarer 200 elever:
| Fag | Matematik | Dansk | Engelsk | Fysik | Andet |
|---|---|---|---|---|---|
| Observeret | 52 | 38 | 35 | 30 | 45 |
En model forudsiger fordelingen: Mat 30%, Dansk 20%, Engelsk 20%, Fysik 10%, Andet 20%.
- a) Beregn de forventede frekvenser.
- b) Beregn teststørrelsen .
- c) Bestem antallet af frihedsgrader.
- d) Find -værdien med CAS og drag en konklusion med .
Opgave 5: Helhedsopgave En lærer påstår, at 70% af eleverne foretrækker digitale lærebøger. I en stikprøve af 40 elever svarer 22 ja.
- a) Udfør en binomialtest med (tosidet).
- b) Beregn -værdien og formulér din konklusion.
- c) Hvad ville ændre sig, hvis du brugte ?