Matematik B avanceret statistik
Kapitel Overblik Hypotesetest
📘 Matematik B

Hypotesetest er den statistiske metode til at afgøre om observeret data er i overensstemmelse med en teori. Det er kernen i videnskabelig metode og bruges i alle samfundsfaglige og naturvidenskabelige undersøgelser.

Du lærer at:
  • Opstille nulhypotese H₀ og alternativ hypotese H₁
  • Beregne en teststørrelse og den tilhørende p-værdi
  • Sammenligne p-værdien med signifikansniveauet α for at konkludere
  • Undgå de typiske fejl (type I og type II fejl)
💡
Intuitionen

"Hypotesetest spørger: 'Hvis min antagelse (H₀) er sand, hvad er så sandsynligheden for at se det jeg observerede?' Hvis sandsynligheden er meget lav, forkaster vi antagelsen."

Hypotesetest 🎯

Forestil dig, at en ven påstår, at hans terning er fair. Du kaster den 60 gange og slår 18 seksere – det er næsten dobbelt så mange, som du ville forvente. Er terningen snydt, eller er det bare tilfældig variation? Hypotesetest giver dig et systematisk og matematisk stringent værktøj til at besvare præcis den slags spørgsmål.

I stedet for at stole på mavefornemmelse bruger vi data og sandsynligheder til at træffe beslutninger. Det er videnskabelig tænkning i sin reneste form – og nu skal du mestre det! 🧪


Teori: Grundbegreber i hypotesetest

En hypotesetest er en struktureret procedure, der bruger data til at afgøre, om en påstand (hypotese) om en population er rimelig.

De to hypoteser:

  • Nulhypotesen H0H_0: Den “kedelige” hypotese – typisk at alt er, som forventet. Ingen effekt, ingen forskel, ingen ændring.

  • Alternativhypotesen H1H_1 (eller HaH_a): Den “spændende” hypotese – der er en effekt, en forskel eller en ændring.

Eksempler på hypotesepar:

SituationH0H_0H1H_1
Er terningen fair?p=16p = \frac{1}{6}p16p \neq \frac{1}{6}
Virker medicinen bedre?Ingen forskelMedicin er bedre
Passer fordelingen?Data følger forventet fordelingData afviger fra fordelingen

Vigtig pointe: Vi beviser aldrig, at H0H_0 er sand. Vi undersøger kun, om der er tilstrækkelig evidens til at forkaste H0H_0. Tænk på det som et retssystem: den anklagede (=H0H_0) er uskyldig, indtil det modsatte er bevist.


Teori: Signifikansniveau og fejltyper

Signifikansniveauet α\alpha er den grænse, vi sætter for, hvor stor risiko vi er villige til at acceptere for at begå en fejl. De mest almindelige værdier er:

α\alphaBetydningBruges typisk til
0,100{,}1010% risikoIndledende screening
0,050{,}055% risikoStandard i de fleste undersøgelser
0,010{,}011% risikoVigtige medicinske/sikkerhedstests

To typer fejl kan opstå:

Type I-fejl (falsk alarm): Vi forkaster H0H_0, selvom H0H_0 faktisk er sand.

  • Sandsynlighed: α\alpha (signifikansniveauet)
  • Eksempel: Vi konkluderer, at terningen er snydt, men den er faktisk fair.

Type II-fejl (overset effekt): Vi forkaster ikke H0H_0, selvom H0H_0 faktisk er falsk.

  • Sandsynlighed: β\beta
  • Eksempel: Vi konkluderer, at terningen er fair, men den er faktisk snydt.

Der er en afvejning: Lavere α\alpha (færre falske alarmer) giver højere β\beta (flere oversete effekter). Vi vælger α\alpha ud fra konsekvenserne af at begå en Type I-fejl.


Vis Eksempel: At forstå fejltyper ⚡

Situation: En fabrik hævder, at højst 2% af deres produkter er defekte. En kvalitetsinspektør tester dette.

H0:p0,02(fabrikken taler sandt)H_0: p \leq 0{,}02 \quad \text{(fabrikken taler sandt)}H1:p>0,02(defektraten er for høj)H_1: p > 0{,}02 \quad \text{(defektraten er for høj)}

Type I-fejl: Inspektøren konkluderer, at defektraten er for høj, men den er faktisk OK.

  • Konsekvens: Fabrikken stoppes unødvendigt – dyrt, men ikke farligt.

Type II-fejl: Inspektøren konkluderer, at defektraten er OK, men den er faktisk for høj.

  • Konsekvens: Defekte produkter sendes til kunderne – potentielt farligt!

Her er Type II-fejl mest alvorlig, så man bør vælge et relativt højt α\alpha (fx 0,100{,}10) for at minimere risikoen for at overse problemer.


Teori: P-værdi og teststørrelse

P-værdien er det centrale begreb i hypotesetest. Den besvarer spørgsmålet:

“Hvis H0H_0 er sand, hvad er så sandsynligheden for at observere noget mindst lige så ekstremt som vores data?”

p-værdi=P(data mindst lige sa˚ ekstremeH0 er sand)p\text{-værdi} = P(\text{data mindst lige så ekstreme} \mid H_0 \text{ er sand})

Tolkning af pp-værdien:

  • Lille pp-værdi (fx 0,002): Det er meget usandsynligt at se disse data, hvis H0H_0 er sand → stærk evidens mod H0H_0.
  • Stor pp-værdi (fx 0,43): Det er helt normalt at se disse data, selvom H0H_0 er sand → svag evidens mod H0H_0.

Beslutningsreglen:

{p-værdiαForkast H0 (statistisk signifikant)p-værdi>αForkast ikke H0\begin{cases} p\text{-værdi} \leq \alpha & \Rightarrow \text{Forkast } H_0 \text{ (statistisk signifikant)} \\ p\text{-værdi} > \alpha & \Rightarrow \text{Forkast ikke } H_0 \end{cases}

En teststørrelse er en talværdi beregnet fra data, der opsummerer, hvor langt de observerede data ligger fra det forventede under H0H_0. Jo større teststørrelse, jo mere ekstremt er resultatet.


Vis Eksempel: Trin-for-trin hypotesetest ⚡

Opgave: En møntproducent hævder, at deres mønter er fair (p=0,50p = 0{,}50). Du kaster en mønt 100 gange og får 62 plat. Er mønten fair? Brug α=0,05\alpha = 0{,}05.

Trin 1: Opstil hypoteser

H0:p=0,50(mønten er fair)H_0: p = 0{,}50 \quad \text{(mønten er fair)}H1:p0,50(mønten er ikke fair – tosidet test)H_1: p \neq 0{,}50 \quad \text{(mønten er ikke fair – tosidet test)}

Trin 2: Signifikansniveau

α=0,05\alpha = 0{,}05

Trin 3: Under H0H_0 er Xb(100;0,50)X \sim b(100;\, 0{,}50)

Forventet antal plat: μ=1000,50=50\mu = 100 \cdot 0{,}50 = 50

Spredning: σ=1000,500,50=25=5\sigma = \sqrt{100 \cdot 0{,}50 \cdot 0{,}50} = \sqrt{25} = 5

Observeret: k=62k = 62

Trin 4: Beregn pp-værdi

Da det er en tosidet test, beregner vi sandsynligheden for at være mindst 12 fra middelværdien (begge retninger):

p-værdi=P(X38)+P(X62)p\text{-værdi} = P(X \leq 38) + P(X \geq 62)

Med CAS: p-værdi0,0176p\text{-værdi} \approx 0{,}0176

Trin 5: Konklusion

p-værdi=0,0176<0,05=αp\text{-værdi} = 0{,}0176 < 0{,}05 = \alpha

Vi forkaster H0H_0. Der er statistisk signifikant evidens for, at mønten ikke er fair.

Bemærk: Statistisk signifikans betyder ikke nødvendigvis praktisk signifikans. p=0,62p = 0{,}62 er tæt på 0,500{,}50 – i praksis ville mønten stadig virke “næsten fair”.


Teori: Chi²-test for goodness-of-fit

Chi²-testen (udtales “ki-i-anden-testen”) bruges, når vi vil undersøge, om observerede frekvenser stemmer overens med forventede frekvenser. Det er en goodness-of-fit-test – den tester, om data passer til en bestemt model.

Hvornår bruger vi chi²-test?

  • Når vi har kategoriske data (tæller observationer i kategorier)
  • Når vi vil sammenligne observerede og forventede frekvenser
  • Typisk krav: Alle forventede frekvenser 5\geq 5

Teststørrelsen beregnes som:

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

hvor:

  • kk er antallet af kategorier
  • OiO_i er den observerede frekvens i kategori ii
  • EiE_i er den forventede frekvens i kategori ii (under H0H_0)

Tolkning af χ2\chi^2:

  • χ2=0\chi^2 = 0: Perfekt overensstemmelse (observeret = forventet)
  • Lille χ2\chi^2: God overensstemmelse → H0H_0 beholdes
  • Stor χ2\chi^2: Dårlig overensstemmelse → H0H_0 forkastes

Frihedsgrader:

df=k1df = k - 1

hvor kk er antallet af kategorier. pp-værdien slås op i en chi²-tabel eller beregnes med CAS ud fra χ2\chi^2 og dfdf.


Vis Eksempel: Chi²-test – er terningen fair? ⚡

Opgave: En terning kastes 120 gange med følgende resultater:

Udfald123456
Observeret OiO_i251715231822

Er terningen fair? Brug α=0,05\alpha = 0{,}05.

Trin 1: Hypoteser

H0:Terningen er fair (alle udfald har sandsynlighed 16)H_0: \text{Terningen er fair (alle udfald har sandsynlighed } \tfrac{1}{6}\text{)}H1:Terningen er ikke fairH_1: \text{Terningen er ikke fair}

Trin 2: Forventede frekvenser

Hvis terningen er fair, forventer vi i hvert udfald:

Ei=1206=20for alle iE_i = \frac{120}{6} = 20 \quad \text{for alle } i

Trin 3: Beregn teststørrelsen

χ2=i=16(OiEi)2Ei\chi^2 = \sum_{i=1}^{6} \frac{(O_i - E_i)^2}{E_i}

Vi beregner hvert led:

(2520)220=2520=1,25(1720)220=920=0,45(1520)220=2520=1,25(2320)220=920=0,45(1820)220=420=0,20(2220)220=420=0,20\begin{aligned} \frac{(25-20)^2}{20} &= \frac{25}{20} = 1{,}25 \\[6pt] \frac{(17-20)^2}{20} &= \frac{9}{20} = 0{,}45 \\[6pt] \frac{(15-20)^2}{20} &= \frac{25}{20} = 1{,}25 \\[6pt] \frac{(23-20)^2}{20} &= \frac{9}{20} = 0{,}45 \\[6pt] \frac{(18-20)^2}{20} &= \frac{4}{20} = 0{,}20 \\[6pt] \frac{(22-20)^2}{20} &= \frac{4}{20} = 0{,}20 \end{aligned}χ2=1,25+0,45+1,25+0,45+0,20+0,20=3,80\chi^2 = 1{,}25 + 0{,}45 + 1{,}25 + 0{,}45 + 0{,}20 + 0{,}20 = 3{,}80

Trin 4: Frihedsgrader og pp-værdi

df=61=5df = 6 - 1 = 5

Vi slår op i chi²-tabellen (eller bruger CAS): For χ2=3,80\chi^2 = 3{,}80 og df=5df = 5:

p-værdi0,578p\text{-værdi} \approx 0{,}578

Trin 5: Konklusion

p-værdi=0,578>0,05=αp\text{-værdi} = 0{,}578 > 0{,}05 = \alpha

Vi forkaster ikke H0H_0. Der er ingen statistisk signifikant evidens for, at terningen er unfair. De observerede afvigelser kan forklares ved tilfældig variation.


Vis Eksempel: Chi²-test – fordeling af blodtyper ⚡

Opgave: I Danmark forventes blodtypefordelingen at være: A: 44%, B: 11%, AB: 4%, O: 41%. I en stikprøve af 500 personer observeres:

BlodtypeABABO
Observeret OiO_i2056530200
Forventet EiE_i2205520205

Passer stikprøven til den forventede fordeling? Brug α=0,05\alpha = 0{,}05.

Trin 1: Hypoteser

H0:Blodtypefordelingen følger den forventede modelH_0: \text{Blodtypefordelingen følger den forventede model}H1:Blodtypefordelingen afviger fra modellenH_1: \text{Blodtypefordelingen afviger fra modellen}

Trin 2: Kontrollér betingelse

Alle forventede frekvenser Ei5E_i \geq 5 ✅ (Emin=20E_{\min} = 20)

Trin 3: Beregn teststørrelsen

χ2=(205220)2220+(6555)255+(3020)220+(200205)2205=225220+10055+10020+25205=1,023+1,818+5,000+0,122=7,963\begin{aligned} \chi^2 &= \frac{(205-220)^2}{220} + \frac{(65-55)^2}{55} + \frac{(30-20)^2}{20} + \frac{(200-205)^2}{205} \\[6pt] &= \frac{225}{220} + \frac{100}{55} + \frac{100}{20} + \frac{25}{205} \\[6pt] &= 1{,}023 + 1{,}818 + 5{,}000 + 0{,}122 \\[6pt] &= 7{,}963 \end{aligned}

Trin 4: Frihedsgrader og pp-værdi

df=41=3df = 4 - 1 = 3

Med CAS: p-værdi0,047p\text{-værdi} \approx 0{,}047

Trin 5: Konklusion

p-værdi=0,047<0,05=αp\text{-værdi} = 0{,}047 < 0{,}05 = \alpha

Vi forkaster H0H_0. Stikprøven afviger statistisk signifikant fra den forventede blodtypefordeling. Især bidrager blodtype AB (med (3020)220=5,0\frac{(30-20)^2}{20} = 5{,}0) mest til den samlede teststørrelse.


Teori: Samlet overblik – de 5 trin i en hypotesetest

Uanset typen af test (binomialtest, chi²-test osv.) følger alle hypotesetests den samme overordnede struktur:

Trin 1: Formulér hypoteser

  • H0H_0: Nulhypotesen (det vi antager gælder, indtil vi har bevis for andet)
  • H1H_1: Alternativhypotesen (det vi vil undersøge)

Trin 2: Vælg signifikansniveau α\alpha

  • Standard: α=0,05\alpha = 0{,}05 (medmindre andet er angivet)

Trin 3: Indsaml data og beregn teststørrelse

  • Binomialtest: Tæl succeser og brug binomialfordelingen
  • Chi²-test: Beregn χ2=(OiEi)2Ei\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}

Trin 4: Find pp-værdien

  • Brug CAS, tabeller eller formler

Trin 5: Drag konklusion

  • p-værdiαp\text{-værdi} \leq \alpha: Forkast H0H_0 – statistisk signifikant
  • p-værdi>αp\text{-værdi} > \alpha: Forkast ikke H0H_0 – ikke tilstrækkelig evidens

Husk: Vi siger aldrig “acceptér H0H_0” – vi siger “forkast ikke H0H_0”. Det er en vigtig nuance!


Vis Eksempel: Valg af testtype ⚡

Hvornår bruger du hvilken test?

SituationTesttype
Teste om en andel pp har en bestemt værdiBinomialtest
Teste om observerede frekvenser passer til en modelChi²-test (goodness-of-fit)
Teste om to kategoriske variable er uafhængigeChi²-test (uafhængighedstest)

Eksempel 1: “Er andelen af venstrehåndede i klassen 10%?” → Binomialtest med H0:p=0,10H_0: p = 0{,}10

Eksempel 2: “Følger fødselsdage en jævn fordeling over årets 12 måneder?” → Chi²-test med forventede frekvenser Ei=n12E_i = \frac{n}{12} for hver måned

Eksempel 3: “Passer de observerede terningkast til en fair terning?” → Chi²-test med Ei=n6E_i = \frac{n}{6} for hvert udfald

Tommelfingerregel: Brug binomialtest, når du har to kategorier (succes/fiasko). Brug chi²-test, når du har flere kategorier.


Vis Bevis: Hvorfor chi²-formlen virker ⚡

Intuitivt måler chi²-teststørrelsen den samlede afvigelse mellem observerede og forventede frekvenser. Lad os se, hvorfor formlen er designet, som den er:

1. Afvigelsen OiEiO_i - E_i:

Forskellen mellem observeret og forventet. Kan være positiv eller negativ.

2. Kvadrering (OiEi)2(O_i - E_i)^2:

Vi kvadrerer for at gøre alle bidrag positive (ligesom ved varians). Uden kvadrering ville positive og negative afvigelser ophæve hinanden.

3. Division med EiE_i:

Vi dividerer med den forventede frekvens for at normalisere. En afvigelse på 5 fra en forventning på 10 er mere alvorlig end en afvigelse på 5 fra en forventning på 1000:

(1510)210=2,5vs.(10051000)21000=0,025\frac{(15-10)^2}{10} = 2{,}5 \quad \text{vs.} \quad \frac{(1005-1000)^2}{1000} = 0{,}025

4. Summation \sum:

Vi lægger alle bidrag sammen for at få ét samlet mål for uoverensstemmelse.

Under H0H_0 følger χ2\chi^2 tilnærmelsesvist en chi²-fordeling med k1k-1 frihedsgrader (for store stikprøver). Dette følger af den centrale grænseværdisætning.


🏋️ Træningsopgaver

Opgave 1: Hypoteser Formulér nulhypotese og alternativhypotese for følgende situationer:

  • a) Du vil undersøge, om en mønt er fair.
  • b) En virksomhed hævder, at 95% af deres leverancer er til tiden. Du mistænker, at andelen er lavere.
  • c) Du vil teste, om fordelingen af karakterer i en klasse følger normalfordelingen.

Opgave 2: Simpel chi²-test En slikautomat påstår at indeholde lige mange af 4 slags slik. Du køber 80 stykker og observerer:

TypeLakridsVingummiChokoladeKaramel
Antal25142219

Udfør en chi²-test med α=0,05\alpha = 0{,}05 for at vurdere, om fordelingen er jævn.

Opgave 3: Fejltyper For følgende situationer: Beskriv, hvad en Type I-fejl og en Type II-fejl ville betyde i praksis.

  • a) Du tester, om et nyt undervisningsprogram forbedrer eksamensresultater.
  • b) Du tester, om en medicin har bivirkninger.

Opgave 4: Chi²-test med flere kategorier I en spørgeundersøgelse om yndlingsfag svarer 200 elever:

FagMatematikDanskEngelskFysikAndet
Observeret5238353045

En model forudsiger fordelingen: Mat 30%, Dansk 20%, Engelsk 20%, Fysik 10%, Andet 20%.

  • a) Beregn de forventede frekvenser.
  • b) Beregn teststørrelsen χ2\chi^2.
  • c) Bestem antallet af frihedsgrader.
  • d) Find pp-værdien med CAS og drag en konklusion med α=0,05\alpha = 0{,}05.

Opgave 5: Helhedsopgave En lærer påstår, at 70% af eleverne foretrækker digitale lærebøger. I en stikprøve af 40 elever svarer 22 ja.

  • a) Udfør en binomialtest med α=0,05\alpha = 0{,}05 (tosidet).
  • b) Beregn pp-værdien og formulér din konklusion.
  • c) Hvad ville ændre sig, hvis du brugte α=0,01\alpha = 0{,}01?

Quiz – Test din forståelse

Matematik Boss-Kamp ⚔️

Løs opgavesættet

Op til +50 XP
Hvad beskriver p-værdien i en hypotesetest?