Normalfordeling og tæthedsfunktioner 🎯
Har du nogensinde undret dig over, hvorfor gennemsnitshøjden i en befolkning altid samler sig omkring ét tal, mens ekstreme højder er sjældne? Eller hvorfor eksamenskarakterer ofte danner en symmetrisk “klokke”? Svaret er normalfordelingen — naturens mest elegante mønster.
I dette kapitel går vi fra diskrete sandsynligheder (som du kender fra terningkast) til den kontinuerte verden, hvor sandsynlighed måles som arealer under kurver. Det er et fundamentalt skift i tankegang — og det åbner døren til kraftfulde statistiske metoder.
Gør dig klar til at level up din statistikforståelse! 🚀
Teori: Fra diskret til kontinuert sandsynlighed
Når vi arbejder med en diskret stokastisk variabel (fx antal 6’ere i tre terningkast), kan vi angive sandsynligheden for hvert enkelt udfald: , osv.
Men hvad gør vi, når den stokastiske variabel er kontinuert? Fx “hvad er sandsynligheden for, at en tilfældigt valgt person er præcis 178,000… cm høj?” — svaret er faktisk ! Der er uendeligt mange mulige værdier.
Nøgleindsigt: For kontinuerte variable giver det kun mening at tale om sandsynligheden for, at værdien falder i et interval:
Denne sandsynlighed beregnes som arealet under en kurve — og den kurve kalder vi en tæthedsfunktion.
Teori: Tæthedsfunktionen
En tæthedsfunktion for en kontinuert stokastisk variabel opfylder to krav:
Krav 1: Funktionen er aldrig negativ:
Krav 2: Det samlede areal under kurven er præcis 1:
Dette svarer til, at den samlede sandsynlighed er 100 % — noget skal jo ske!
Sandsynlighed som areal:
Sandsynligheden for at lander mellem og er altså arealet under fra til .
Vigtigt: Værdien er ikke en sandsynlighed i sig selv — den er en tæthed. Tænk på det som en “sandsynlighedstæthed”: jo højere er i et punkt, desto mere sandsynligt er det at lander tæt på det punkt.
Vis Eksempel: Simpel tæthedsfunktion ⚡
Opgave: En kontinuert stokastisk variabel har tæthedsfunktionen:
Vent — lad os bruge en endnu simplere: for og ellers.
Tjek at det er en gyldig tæthedsfunktion:
Beregn :
Fortolkning: Der er 75 % sandsynlighed for, at lander mellem 1 og 2. Bemærk at tætheden er størst ved , så store værdier er mere sandsynlige end små.
Teori: Normalfordelingen
Normalfordelingen er den vigtigste kontinuerte sandsynlighedsfordeling i hele statistikken. Den opstår naturligt, når mange små, uafhængige faktorer bidrager til en samlet effekt (fx genetik, miljø og kost påvirker tilsammen en persons højde).
Tæthedsfunktionen for normalfordelingen er:
Denne formel ser vild ud — men du behøver ikke at huske den! Det vigtige er at forstå, hvad de to parametre gør:
| Parameter | Symbol | Betydning |
|---|---|---|
| Middelværdi | Kurvens centrum — det mest sandsynlige område | |
| Spredning | Kurvens bredde — hvor spredt data er |
Egenskaber ved normalfordelingskurven:
- Den er symmetrisk omkring
- Den er klokkeformet — højest ved , falder mod begge sider
- Den nærmer sig 0, men rører aldrig -aksen
- Arealet under hele kurven er præcis 1
- bestemmer, hvor “bred” eller “smal” klokken er
Interaktiv Normalfordeling & Areal
Flyt middelværdien μ og spredningen σ for at transformere klokkekurven, og se arealet (sandsynligheden) opdateret live.
Sandsynlighedsberegner
Vis Eksempel: Normalfordeling i praksis ⚡
Situation: Højden for voksne danske mænd er tilnærmelsesvist normalfordelt med cm og cm. Vi skriver:
Det betyder:
- De fleste mænd har en højde tæt på 181 cm
- En spredning på 7 cm fortæller os, at de fleste ligger inden for ca. 7 cm af gennemsnittet
- Meget få mænd er over 200 cm eller under 160 cm
Hvad fortæller kurven os?
Tæthedsfunktionen er højest ved — det er det mest “tætte” område. Når vi bevæger os væk fra 181, falder kurven symmetrisk. Det svarer til, at de fleste mænd har en højde tæt på gennemsnittet, og ekstreme højder er sjældne.
Teori: Standardnormalfordelingen
Standardnormalfordelingen er den specielle normalfordeling med:
Vi skriver og kalder en standardnormalfordelt variabel.
Hvorfor er den vigtig?
Enhver normalfordelt variabel kan omregnes til en standardnormalfordelt variabel. Det betyder, at vi kun behøver én tabel (standardnormaltabellen) til at beregne sandsynligheder for alle normalfordelinger!
Tæthedsfunktionen for skrives traditionelt :
Og den kumulative fordelingsfunktion (arealet til venstre for ) skrives :
Det er netop vi slår op i tabellen!
Teori: Z-transformation — broen til tabellen
For at bruge standardnormaltabellen skal vi z-transformere. Formlen er:
Hvad gør formlen?
- : Forskyder fordelingen, så centrum ligger i 0
- Division med : Skalerer, så spredningen bliver 1
Resultat: Hvis , så er:
Sandsynligheder beregnes nu via tabellen:
Vis Eksempel: Z-transformation med højdedata ⚡
Opgave: Højden for voksne danske kvinder er normalfordelt: . Find sandsynligheden for, at en tilfældigt valgt kvinde er højst 174 cm høj.
Løsning:
Vi z-transformerer :
Nu slår vi op i tabellen:
Svar: Der er ca. 84,1 % sandsynlighed for, at en tilfældigt valgt dansk kvinde er højst 174 cm.
Fortolkning: En -værdi på 1,00 betyder, at 174 cm ligger præcis én spredning over gennemsnittet. Ifølge 68-95-99.7-reglen (som vi ser om lidt) er ca. 84 % af alle værdier under dette punkt — og det passer!
Vis Eksempel: Sandsynlighed for et interval ⚡
Opgave: Med — find .
Løsning:
Vi z-transformerer begge grænser:
Nu bruger vi formlen for intervalsandsynlighed:
Svar: Ca. 68,3 % af danske kvinder har en højde mellem 162 cm og 174 cm.
Bemærk: på grund af symmetrien!
Teori: 68-95-99.7-reglen (den empiriske regel)
68-95-99.7-reglen er en fantastisk tommelfingerregel, der gælder for alle normalfordelinger:
| Interval | Andel af data |
|---|---|
| ca. 68,3 % | |
| ca. 95,4 % | |
| ca. 99,7 % |
I formler:
Hvad betyder det i praksis?
- Ca. 2 ud af 3 observationer ligger inden for af gennemsnittet
- Næsten alle (95 %) ligger inden for
- Kun ca. 3 ud af 1000 observationer falder uden for — disse er ekstremt usædvanlige!
Denne regel er utrolig nyttig til hurtigt at vurdere, om en observation er “normal” eller “usædvanlig”.
Vis Eksempel: 68-95-99.7-reglen med IQ-scores ⚡
Situation: IQ-scores er normalfordelt med og , altså .
Spørgsmål: Mellem hvilke værdier ligger de midterste 95 % af IQ-scorerne?
Løsning med 68-95-99.7-reglen:
De midterste 95 % svarer til intervallet :
Svar: Ca. 95 % af alle IQ-scores ligger mellem 70 og 130.
Fortolkning: En person med IQ over 130 tilhører de øverste 2,5 % — det er ret usædvanligt. En IQ under 70 er tilsvarende sjælden (de nederste 2,5 %).
Hvad med de midterste 68 %?
Altså har ca. 2 ud af 3 mennesker en IQ mellem 85 og 115.
Teori: Aflæsning i standardnormaltabellen
Standardnormaltabellen giver dig — altså arealet til venstre for under -kurven.
Sådan bruger du tabellen:
- Find -værdiets heltal og første decimal i rækken (fx 1,0)
- Find anden decimal i kolonnen (fx 0,05 for )
- Aflæs sandsynligheden i krydsfeltet
Nyttige regneregler:
| Situation | Formel |
|---|---|
| — aflæs direkte | |
| (symmetri) | |
Symmetriegenskaben er nøglen til at håndtere negative -værdier:
Dette gælder fordi normalfordelingen er symmetrisk om 0.
Eksempel på tabelaflæsning:
For :
- Række: 1,9
- Kolonne: 0,06
- Aflæsning:
Det vil sige, at 97,5 % af alle værdier i en standardnormalfordeling er mindre end 1,96.
Vis Eksempel: Komplet opgave med tabelaflæsning ⚡
Opgave: En maskine producerer skruer med en længde, der er normalfordelt: mm. En skrue kasseres, hvis den er kortere end 49,2 mm eller længere end 50,6 mm. Hvor stor en andel kasseres?
Løsning:
Vi skal finde .
Trin 1: Z-transformér begge grænser:
Trin 2: Slå op i tabellen:
Trin 3: Beregn kasseringsandelen:
Svar: Ca. 9,0 % af skruerne kasseres. Bemærk at flere kasseres for at være for lange () end for korte (), fordi grænsen er skævt placeret i forhold til middelværdien.
Vis Bevis: Symmetriegenskaben ⚡
Påstand:
Bevis:
Vi udnytter at tæthedsfunktionen er en lige funktion: .
🏋️ Træningsopgaver
Opgave 1 — Grundlæggende z-transformation: Vægten af nyfødte børn er normalfordelt med kg og kg. a) Z-transformér værdien kg. b) Z-transformér værdien kg. c) Beregn ved hjælp af tabellen.
Opgave 2 — Intervalsandsynlighed: En elevator har en maksimal belastning, der modelleres som kg. a) Find sandsynligheden for, at belastningen er mellem 750 kg og 850 kg. b) Find sandsynligheden for, at belastningen overstiger 900 kg. c) Brug 68-95-99.7-reglen til at verificere dit svar i a).
Opgave 3 — Kassering: Længden af producerede søm er normalfordelt: mm. Et søm kasseres, hvis det afviger mere end 0,5 mm fra 30 mm. a) Opskriv kasseringsbetingelsen som en sandsynlighed. b) Beregn kasseringsandelen.
Opgave 4 — Omvendt opslag: En stokastisk variabel . Find den værdi , så . Hint: Find først fra tabellen, og brug derefter .
Opgave 5 — 68-95-99.7-reglen: Dagligt salg i en butik er normalfordelt med kr og kr. a) Mellem hvilke beløb ligger de midterste 68 % af dagene? b) Hvad er sandsynligheden for en dag med salg over 16.000 kr? c) Hvor usædvanligt er et salg på 18.000 kr?