Matematik C statistik og sandsynlighed
Kapitel Overblik Ugrupperet data
🌱 Matematik C

Beskrivende statistik for ugrupperet data giver dig værktøjerne til at opsummere et datasæt med tal. Middelværdi, median, typetal og spredning er de vigtigste deskriptorer.

Du lærer at:
  • Beregne middelværdi, median og typetal for et datasæt
  • Bestemme kvartiler, kvartilsæt og interkvartilbredde
  • Beregne varians og standardafvigelse
  • Fortolke boksplot og andre statistiske visualiseringer
💡
Intuitionen

"Middelværdien fortæller dig tyngdepunktet i data. Medianen fortæller dig midtpunktet. Og standardafvigelsen fortæller dig, hvor spredt data er om middelværdien."

Ugrupperet data 🎯

Forestil dig, at du har spurgt 10 klassekammerater, hvor mange timer de sover om natten. Du får en liste med tal — og nu vil du gerne opsummere og forstå de tal. Det er præcis det, deskriptiv statistik handler om!

Ugrupperet data er den simpleste form: du har en liste af tal, og du vil finde mønstre i dem.

I dette kapitel lærer du alle de vigtigste redskaber til at beskrive et datasæt. Lad os dykke ned! 🏊


Teori: Hyppighed og frekvens

Når du har et datasæt, er det første skridt at tælle, hvor ofte hver værdi optræder.

Hyppighed er antallet af gange en bestemt værdi optræder.

Frekvens (også kaldet relativ hyppighed) er hyppigheden divideret med det samlede antal observationer:

Frekvens=HyppighedAntal observationer i alt\text{Frekvens} = \frac{\text{Hyppighed}}{\text{Antal observationer i alt}}

Frekvensen angiver altså andelen af observationer med en bestemt værdi. Den kan udtrykkes som decimaltal eller i procent.

Vigtig egenskab: Summen af alle frekvenser er altid 1 (eller 100 %).


Vis Eksempel: Hyppighed og frekvens ⚡

En klasse med 20 elever har svaret på, hvor mange søskende de har:

0,1,1,2,1,0,3,1,2,1,0,1,2,1,0,2,1,3,1,20, 1, 1, 2, 1, 0, 3, 1, 2, 1, 0, 1, 2, 1, 0, 2, 1, 3, 1, 2

Vi tæller hyppigheden for hver værdi:

Antal søskendeHyppighedFrekvens
04420=0,20=20%\frac{4}{20} = 0{,}20 = 20\%
19920=0,45=45%\frac{9}{20} = 0{,}45 = 45\%
25520=0,25=25%\frac{5}{20} = 0{,}25 = 25\%
32220=0,10=10%\frac{2}{20} = 0{,}10 = 10\%
I alt201,00 = 100 %

Vi kan altså sige, at 45 % af eleverne har præcis 1 søskende. Det er den mest typiske værdi.


Teori: Gennemsnit (middelværdi)

Gennemsnittet er den mest kendte måde at beskrive et datasæts “centrum” på. Det beregnes ved:

xˉ=x1+x2++xnn=i=1nxin\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}

Her er x1,x2,,xnx_1, x_2, \ldots, x_n de nn observationer, og xˉ\bar{x} (udtales “x-streg”) er gennemsnittet.

Intuition: Gennemsnittet er det tal, som alle observationer ville have, hvis den samlede sum blev fordelt ligeligt.

Pas på: Gennemsnittet er følsomt over for outliers (ekstreme værdier). Én meget stor eller lille observation kan trække gennemsnittet væk fra de “typiske” værdier.


Vis Eksempel: Beregning af gennemsnit ⚡

Fem elevers karakterer i matematik er: 4,7,7,10,124, 7, 7, 10, 12.

Vi beregner gennemsnittet trin for trin:

xˉ=4+7+7+10+125=405=8,0\begin{aligned} \bar{x} &= \frac{4 + 7 + 7 + 10 + 12}{5} \\[6pt] &= \frac{40}{5} \\[6pt] &= 8{,}0 \end{aligned}

Gennemsnitskarakteren er altså 8,08{,}0.

Hvad hvis der var en outlier? Lad os erstatte 1212 med 0202 (en meget lav karakter): 4,7,7,10,024, 7, 7, 10, 02.

xˉ=4+7+7+10+25=305=6,0\bar{x} = \frac{4 + 7 + 7 + 10 + 2}{5} = \frac{30}{5} = 6{,}0

Gennemsnittet falder fra 8,08{,}0 til 6,06{,}0 — kun fordi én observation ændrede sig. Det viser, at gennemsnittet er følsomt over for outliers!


Teori: Median

Medianen er den midterste observation, når datasættet er sorteret i stigende rækkefølge.

Til at finde medianen:

  1. Sortér observationerne i stigende rækkefølge.
  2. Hvis antallet nn er ulige: Medianen er observation nr. n+12\frac{n+1}{2}.
  3. Hvis antallet nn er lige: Medianen er gennemsnittet af observation nr. n2\frac{n}{2} og nr. n2+1\frac{n}{2}+1.

Hvorfor bruge medianen? Medianen er robust — den påvirkes næsten ikke af outliers. Derfor bruges medianen ofte til at beskrive indkomster, boligpriser osv.


Vis Eksempel: Median med ulige antal ⚡

Syv elevers daglige skærmtid (i timer) er: 2,5,3,1,4,6,32, 5, 3, 1, 4, 6, 3.

Trin 1: Sortér i stigende rækkefølge:

1,2,3,3,4,5,61, 2, 3, 3, 4, 5, 6

Trin 2: Vi har n=7n = 7 observationer (ulige), så medianen er observation nr.:

n+12=7+12=4\frac{n+1}{2} = \frac{7+1}{2} = 4

Trin 3: Den 4. observation i den sorterede liste er 33.

Median=3 timer\text{Median} = 3 \text{ timer}

Vis Eksempel: Median med lige antal ⚡

Seks elevers daglige skærmtid (i timer) er: 2,5,3,1,4,62, 5, 3, 1, 4, 6.

Trin 1: Sortér:

1,2,3,4,5,61, 2, 3, 4, 5, 6

Trin 2: Vi har n=6n = 6 (lige), så medianen er gennemsnittet af observation nr. 62=3\frac{6}{2} = 3 og nr. 44:

Median=x3+x42=3+42=3,5 timer\text{Median} = \frac{x_3 + x_4}{2} = \frac{3 + 4}{2} = 3{,}5 \text{ timer}

Teori: Typetal

Typetallet er den værdi, der optræder flest gange i datasættet.

  • Hvis én værdi optræder flest gange: datasættet har ét typetal.
  • Hvis to værdier deler førstepladsen: datasættet er bimodalt (to typetal).
  • Hvis alle værdier optræder lige ofte: der er intet meningsfuldt typetal.

Typetallet er det eneste centralmål, der også kan bruges til kategoriske data (fx favoritfarve).


Vis Eksempel: Typetal ⚡

Datasæt 1: 3,5,5,7,8,5,93, 5, 5, 7, 8, 5, 9

Værdien 55 optræder 3 gange — flere end nogen anden. Typetallet er 55.

Datasæt 2: 2,2,4,4,6,82, 2, 4, 4, 6, 8

Både 22 og 44 optræder 2 gange. Datasættet er bimodalt med typetallene 22 og 44.

Datasæt 3: 1,3,5,7,91, 3, 5, 7, 9

Alle værdier optræder præcis én gang. Der er intet meningsfuldt typetal.


Teori: Variationsbredde

Variationsbredden er det simpleste spredningsmål. Den angiver, hvor “bredt” datasættet er:

Variationsbredde=xmaxxmin\text{Variationsbredde} = x_{\max} - x_{\min}

Variationsbredden er let at beregne, men den siger kun noget om de to mest ekstreme værdier — den fortæller ingenting om, hvordan resten af dataen fordeler sig.


Vis Eksempel: Variationsbredde ⚡

Et datasæt med temperaturer (i °C) henover en uge: 12,15,14,18,13,20,1612, 15, 14, 18, 13, 20, 16.

xmax=20xmin=12Variationsbredde=2012=8 °C\begin{aligned} x_{\max} &= 20 \\ x_{\min} &= 12 \\ \text{Variationsbredde} &= 20 - 12 = 8 \text{ °C} \end{aligned}

Temperaturerne varierer altså med 88 grader i løbet af ugen.


Teori: Kvartiler og kvartilbredde

Kvartilerne deler det sorterede datasæt i fire lige store dele:

  • Q1Q_1 (nedre kvartil): 25 % af observationerne ligger under denne værdi.
  • Q2Q_2 (medianen): 50 % ligger under.
  • Q3Q_3 (øvre kvartil): 75 % ligger under.

Fremgangsmåde til at finde kvartiler:

  1. Sortér datasættet.
  2. Find medianen (Q2Q_2) — den deler datasættet i en nedre og en øvre halvdel.
  3. Q1Q_1 er medianen af den nedre halvdel.
  4. Q3Q_3 er medianen af den øvre halvdel.

Kvartilbredden (IQR) måler spredningen af de midterste 50 % af dataen:

IQR=Q3Q1\text{IQR} = Q_3 - Q_1

Kvartilbredden er mere robust end variationsbredden, fordi den ignorerer de mest ekstreme observationer.


Vis Eksempel: Kvartiler trin for trin ⚡

Datasæt med 12 observationer (allerede sorteret):

2,4,5,7,8,9,10,12,14,15,18,202, 4, 5, 7, 8, 9, 10, 12, 14, 15, 18, 20

Trin 1: Find medianen (Q2Q_2). Vi har n=12n = 12 (lige antal):

Q2=x6+x72=9+102=9,5Q_2 = \frac{x_6 + x_7}{2} = \frac{9 + 10}{2} = 9{,}5

Trin 2: Nedre halvdel (de første 6 observationer): 2,4,5,7,8,92, 4, 5, 7, 8, 9.

Q1=x3+x42=5+72=6Q_1 = \frac{x_3 + x_4}{2} = \frac{5 + 7}{2} = 6

Trin 3: Øvre halvdel (de sidste 6 observationer): 10,12,14,15,18,2010, 12, 14, 15, 18, 20.

Q3=x3+x42=14+152=14,5Q_3 = \frac{x_3 + x_4}{2} = \frac{14 + 15}{2} = 14{,}5

Trin 4: Kvartilbredde:

IQR=Q3Q1=14,56=8,5\text{IQR} = Q_3 - Q_1 = 14{,}5 - 6 = 8{,}5

Opsummering: De midterste 50 % af observationerne ligger mellem 66 og 14,514{,}5, og de spænder over 8,58{,}5 enheder.


Teori: Boksplot

Et boksplot er en visuel opsummering af datasættet. Det viser fem nøgletal (fem-tals-sammenfatningen):

  1. Minimum (xminx_{\min})
  2. Nedre kvartil (Q1Q_1)
  3. Median (Q2Q_2)
  4. Øvre kvartil (Q3Q_3)
  5. Maksimum (xmaxx_{\max})

Sådan ser det ud:

  • Boksen strækker sig fra Q1Q_1 til Q3Q_3 (viser de midterste 50 % af data).
  • En lodret streg inde i boksen markerer medianen.
  • Whiskers (antenner) strækker sig fra boksen ud til minimum og maksimum.

Hvad kan du aflæse?

  • Boksens bredde = kvartilbredden (IQR).
  • Hvis medianen ligger midt i boksen, er fordelingen symmetrisk.
  • Hvis medianen ligger tæt på Q1Q_1, er fordelingen højreskæv (halen strækker sig mod højre).
  • Hvis medianen ligger tæt på Q3Q_3, er fordelingen venstreskæv.

Interaktivt Boksplot & Fordeling

Træk i de røde datapunkter på tallinjen for at se, hvordan gennemsnit, median og boksplot ændrer sig med det samme!

02468101214161820Datapunkter (træk vandret):356778891012
Statistisk Opsummering
Ingen data tilgængelig
Prøv dette eksperiment:Træk et enkelt punkt helt ud til 20 (outlier). Læg mærke til, hvordan gennemsnittet (trekanten) trækkes kraftigt til højre, mens medianen (Q₂) næsten står stille. Det viser, hvorfor medianen kaldes et **robust** centralmål!

Vis Eksempel: Tegning af boksplot ⚡

Vi bruger datasættet fra kvartil-eksemplet:

2,4,5,7,8,9,10,12,14,15,18,202, 4, 5, 7, 8, 9, 10, 12, 14, 15, 18, 20

Fem-tals-sammenfatningen:

MålVærdi
Minimum22
Q1Q_166
Median (Q2Q_2)9,59{,}5
Q3Q_314,514{,}5
Maksimum2020

Boksplottet:

  Min   Q1    Q2     Q3    Max
   |----[=====|======]-----|
   2    6    9,5   14,5    20

Aflæsning: Medianen (9,59{,}5) ligger lidt til venstre for midten af boksen. Det tyder på en svag højreskævhed — de store værdier strækker sig lidt længere ud end de små.


Vis Eksempel: Sammenligning af boksplot ⚡

To klasser har taget den samme prøve:

Klasse A: 3,5,6,7,7,8,8,9,10,123, 5, 6, 7, 7, 8, 8, 9, 10, 12

  • Min = 3, Q1=6Q_1 = 6, Median = 7,5, Q3=9Q_3 = 9, Max = 12
  • IQR = 3

Klasse B: 2,4,5,6,7,8,10,11,11,142, 4, 5, 6, 7, 8, 10, 11, 11, 14

  • Min = 2, Q1=5Q_1 = 5, Median = 7,5, Q3=11Q_3 = 11, Max = 14
  • IQR = 6

Begge klasser har samme median (7,5), men klasse B har dobbelt så stor kvartilbredde (6 vs. 3). Det betyder, at resultaterne i klasse B er mere spredte — der er større forskel på de dygtige og de mindre dygtige elever.

Boksplottet gør det nemt at se denne forskel med det blotte øje! 👀


🏋️ Træningsopgaver

Opgave 1: Et datasæt er: 3,7,5,9,5,8,5,6,4,83, 7, 5, 9, 5, 8, 5, 6, 4, 8. Bestem hyppigheden og frekvensen for hver værdi.

Opgave 2: Beregn gennemsnittet for datasættet: 12,15,18,14,2112, 15, 18, 14, 21.

Opgave 3: Find medianen for: 9,3,7,1,5,8,29, 3, 7, 1, 5, 8, 2.

Opgave 4: Angiv typetallet for: 4,6,2,4,8,6,4,6,44, 6, 2, 4, 8, 6, 4, 6, 4.

Opgave 5: Et datasæt er: 1,3,5,6,8,9,11,13,15,17,19,211, 3, 5, 6, 8, 9, 11, 13, 15, 17, 19, 21. Find Q1Q_1, Q2Q_2 (medianen), Q3Q_3 og kvartilbredden, og tegn et boksplot.

Opgave 6: To vennegrupper har målt deres daglige skærmtid (i timer):

  • Gruppe 1: 2,3,3,4,4,4,5,5,6,72, 3, 3, 4, 4, 4, 5, 5, 6, 7
  • Gruppe 2: 1,1,2,4,5,5,6,8,9,101, 1, 2, 4, 5, 5, 6, 8, 9, 10

Beregn gennemsnit, median og kvartilbredde for begge grupper. Hvilken gruppe har mest ensartet skærmtid?


Quiz – Test din forståelse

Matematik Boss-Kamp ⚔️

Løs opgavesættet

Op til +50 XP
Et datasæt har 40 observationer. Værdien 7 optræder 10 gange. Hvad er frekvensen for værdien 7?