Matematik C statistik og sandsynlighed
Kapitel Overblik Grupperet data
🌱 Matematik C

Grupperet data opstår når mange observationer sorteres i klasser eller intervaller. Du lærer at beregne approksimative deskriptorer og aflæse sumkurven til kvartilbestemmelse.

Du lærer at:
  • Opstille frekvenstavle og beregne relative frekvenser for grupperet data
  • Beregne approksimativ middelværdi og standardafvigelse for grupperet data
  • Tegne og aflæse sumkurver (ogiver)
  • Bestemme kvartiler fra sumkurven
💡
Intuitionen

"Når du grupperer data mister du information om de præcise værdier, men du vinder overblik over fordelingen. Det er en afvejning – og sumkurven er dit vigtigste redskab."

Grupperet data 📊

Når du har mange observationer — fx 200 elevers resultater på en prøve — giver det sjældent mening at liste hvert enkelt tal. I stedet grupperer vi data i intervaller. Det giver overblik, men vi mister information om de præcise værdier.

I dette kapitel lærer du at arbejde med grupperet data: beregne gennemsnit, tegne sumkurver og aflæse kvartiler. Level up! 🚀


Teori: Fra ugrupperet til grupperet data

Når vi grupperer data, opdeler vi tallinjen i klasser (intervaller) og tæller, hvor mange observationer der falder i hver klasse.

Eksempel på en frekvensoversigt:

Klasse (interval)Hyppighed
[0;10[[0 ; 10[5
[10;20[[10 ; 20[12
[20;30[[20 ; 30[18
[30;40[[30 ; 40[10
[40;50][40 ; 50]5

Notationen [10;20[[10 ; 20[ betyder “fra og med 10 til, men ikke med 20”. Det sikrer, at hvert interval er entydigt.

Klassebredden er længden af hvert interval. I eksemplet ovenfor er klassebredden 1010 for alle klasser.

Fordele: Overskueligt, let at visualisere i histogrammer.

Ulemper: Vi kender ikke de præcise observationer — kun hvilke intervaller de ligger i.


Teori: Intervalmidtpunkter

Da vi ikke kender de præcise værdier i hvert interval, antager vi, at observationerne er jævnt fordelt. Vi repræsenterer derfor alle observationer i et interval med intervalmidtpunktet:

mi=nedre grænse+øvre grænse2m_i = \frac{\text{nedre grænse} + \text{øvre grænse}}{2}

For intervallet [10;20[[10 ; 20[ er midtpunktet:

m=10+202=15m = \frac{10 + 20}{2} = 15

Intervalmidtpunktet bruges som “repræsentant” for alle observationer i intervallet, når vi beregner gennemsnit og andre mål.


Vis Eksempel: Beregning af intervalmidtpunkter ⚡

Vi har følgende gruppering af data:

KlasseNedre grænseØvre grænseMidtpunkt mim_i
[0;10[[0 ; 10[0010100+102=5\frac{0+10}{2} = 5
[10;20[[10 ; 20[1010202010+202=15\frac{10+20}{2} = 15
[20;30[[20 ; 30[2020303020+302=25\frac{20+30}{2} = 25
[30;40[[30 ; 40[3030404030+402=35\frac{30+40}{2} = 35
[40;50][40 ; 50]4040505040+502=45\frac{40+50}{2} = 45

Disse midtpunkter bruger vi nu i beregninger, som om alle observationer i intervallet havde netop den værdi.


Teori: Gennemsnit for grupperet data

Når data er grupperet, kan vi ikke beregne det præcise gennemsnit — men vi kan give et godt estimat ved at bruge intervalmidtpunkterne.

Formlen for det estimerede gennemsnit er:

xˉi=1kmihii=1khi=m1h1+m2h2++mkhkn\bar{x} \approx \frac{\sum_{i=1}^{k} m_i \cdot h_i}{\sum_{i=1}^{k} h_i} = \frac{m_1 \cdot h_1 + m_2 \cdot h_2 + \cdots + m_k \cdot h_k}{n}

Her er:

  • mim_i = intervalmidtpunktet for klasse ii
  • hih_i = hyppigheden (antal observationer) i klasse ii
  • kk = antallet af klasser
  • nn = det samlede antal observationer

Intuition: Vi “vægter” hvert midtpunkt med, hvor mange observationer der ligger i det interval. Intervaller med mange observationer tæller mere.


Vis Eksempel: Gennemsnit for grupperet data ⚡

50 elever har fået deres prøveresultater grupperet:

KlasseMidtpunkt mim_iHyppighed hih_imihim_i \cdot h_i
[0;10[[0 ; 10[55552525
[10;20[[10 ; 20[15151212180180
[20;30[[20 ; 30[25251818450450
[30;40[[30 ; 40[35351010350350
[40;50][40 ; 50]454555225225
I alt501230

Nu beregner vi det estimerede gennemsnit:

xˉmihihi=25+180+450+350+22550=123050=24,6\begin{aligned} \bar{x} &\approx \frac{\sum m_i \cdot h_i}{\sum h_i} \\[6pt] &= \frac{25 + 180 + 450 + 350 + 225}{50} \\[6pt] &= \frac{1230}{50} \\[6pt] &= 24{,}6 \end{aligned}

Det estimerede gennemsnit er altså 24,624{,}6 point.


Teori: Kumuleret hyppighed og sumkurve

Kumuleret hyppighed er den løbende sum af hyppigheder: for hver klasse tæller du alle observationer fra starten op til og med den pågældende klasse.

Sumkurven (også kaldet den kumulative frekvensfunktion) er en grafisk fremstilling af den kumulerede hyppighed (eller kumulerede frekvens).

Sådan tegner du en sumkurve:

  1. Beregn den kumulerede hyppighed for hver klasse.
  2. Plot punkterne (øvre grænse,kumuleret hyppighed)(\text{øvre grænse}, \text{kumuleret hyppighed}).
  3. Forbind punkterne med rette linjer (lineær interpolation).
  4. Start altid i (xmin,0)(x_{\min}, 0) — ingen observationer er kumuleret ved datasættets start.

Vis Eksempel: Tegning af sumkurve ⚡

Vi bruger datasættet fra før:

KlasseHyppighed hih_iKumuleret hyppighedKumuleret frekvens
[0;10[[0 ; 10[5555550=0,10\frac{5}{50} = 0{,}10
[10;20[[10 ; 20[12125+12=175 + 12 = 171750=0,34\frac{17}{50} = 0{,}34
[20;30[[20 ; 30[181817+18=3517 + 18 = 353550=0,70\frac{35}{50} = 0{,}70
[30;40[[30 ; 40[101035+10=4535 + 10 = 454550=0,90\frac{45}{50} = 0{,}90
[40;50][40 ; 50]5545+5=5045 + 5 = 505050=1,00\frac{50}{50} = 1{,}00

Punkter til sumkurven:

(0,  0),(10,  5),(20,  17),(30,  35),(40,  45),(50,  50)(0,\; 0), \quad (10,\; 5), \quad (20,\; 17), \quad (30,\; 35), \quad (40,\; 45), \quad (50,\; 50)
Kumuleret
hyppighed
   50 |                                    ●
   45 |                              ●----/
   35 |                  ●----------/
   17 |          ●------/
    5 |    ●----/
    0 ●---/
      +----+----+----+----+----+----→ Værdi
      0   10   20   30   40   50

Sumkurven stiger stejlest, hvor der er flest observationer (klassen [20;30[[20 ; 30[).


Teori: Kvartiler fra sumkurven

Sumkurven er et kraftfuldt værktøj, fordi du kan aflæse median og kvartiler direkte fra den!

Fremgangsmåde:

  1. Beregn 25%25\%, 50%50\% og 75%75\% af det samlede antal observationer nn.
  2. Find disse værdier på yy-aksen (kumuleret hyppighed).
  3. Gå vandret til sumkurven og derefter lodret ned til xx-aksen.
  4. De aflæste xx-værdier er Q1Q_1, Q2Q_2 og Q3Q_3.

Med formler (lineær interpolation):

Hvis Q1Q_1 ligger i klassen [a;b[[a ; b[ med kumuleret hyppighed FførF_{\text{før}} ved den nedre grænse og FefterF_{\text{efter}} ved den øvre grænse, så:

Q1=a+0,25nFførFefterFfør(ba)Q_1 = a + \frac{0{,}25 \cdot n - F_{\text{før}}}{F_{\text{efter}} - F_{\text{før}}} \cdot (b - a)

Tilsvarende formler gælder for medianen (med 0,50n0{,}50 \cdot n) og Q3Q_3 (med 0,75n0{,}75 \cdot n).

Interaktiv Sumkurve & Kvartilaflæsning

Juster hyppigheden for hvert interval for at se, hvordan sumkurven deformeres og kvartilerne flytter sig.

010203040500%25%50%75%100%Q₁ = 16.25M = 24.44Q₃ = 32.50
Vis:
Juster Hyppigheder (hᵢ)
Interval [0 ; 10[:5 obs
Interval [10 ; 20[:12 obs
Interval [20 ; 30[:18 obs
Interval [30 ; 40[:10 obs
Interval [40 ; 50]:5 obs
Samlet observationer (n):50
Estimeret Gennemsnit (x̄):24.60
Nedre Q₁
16.25
Median Q₂
24.44
Øvre Q₃
32.50

Vis Eksempel: Kvartiler fra sumkurven ⚡

Vi bruger sumkurven fra det forrige eksempel med n=50n = 50 observationer.

Find Q1Q_1: Vi søger den værdi, hvor 0,2550=12,50{,}25 \cdot 50 = 12{,}5 observationer er kumuleret.

12,512{,}5 ligger mellem kumuleret hyppighed 55 (ved x=10x = 10) og 1717 (ved x=20x = 20). Altså ligger Q1Q_1 i intervallet [10;20[[10 ; 20[.

Q1=10+12,55175(2010)=10+7,51210=10+6,25=16,25\begin{aligned} Q_1 &= 10 + \frac{12{,}5 - 5}{17 - 5} \cdot (20 - 10) \\[6pt] &= 10 + \frac{7{,}5}{12} \cdot 10 \\[6pt] &= 10 + 6{,}25 \\[6pt] &= 16{,}25 \end{aligned}

Find medianen (Q2Q_2): Vi søger 0,5050=250{,}50 \cdot 50 = 25 observationer.

2525 ligger mellem 1717 (ved x=20x = 20) og 3535 (ved x=30x = 30). Altså ligger medianen i [20;30[[20 ; 30[.

Q2=20+25173517(3020)=20+81810=20+4,4424,4\begin{aligned} Q_2 &= 20 + \frac{25 - 17}{35 - 17} \cdot (30 - 20) \\[6pt] &= 20 + \frac{8}{18} \cdot 10 \\[6pt] &= 20 + 4{,}44 \\[6pt] &\approx 24{,}4 \end{aligned}

Find Q3Q_3: Vi søger 0,7550=37,50{,}75 \cdot 50 = 37{,}5 observationer.

37,537{,}5 ligger mellem 3535 (ved x=30x = 30) og 4545 (ved x=40x = 40). Altså ligger Q3Q_3 i [30;40[[30 ; 40[.

Q3=30+37,5354535(4030)=30+2,51010=30+2,5=32,5\begin{aligned} Q_3 &= 30 + \frac{37{,}5 - 35}{45 - 35} \cdot (40 - 30) \\[6pt] &= 30 + \frac{2{,}5}{10} \cdot 10 \\[6pt] &= 30 + 2{,}5 \\[6pt] &= 32{,}5 \end{aligned}

Opsummering:

MålVærdi
Q1Q_116,2516{,}25
Median (Q2Q_2)24,4\approx 24{,}4
Q3Q_332,532{,}5
IQR32,516,25=16,2532{,}5 - 16{,}25 = 16{,}25

Vis Eksempel: Komplet opgave med grupperet data ⚡

En virksomhed har registreret medarbejdernes daglige transporttid (i minutter):

Transporttid (min)Hyppighed
[0;15[[0 ; 15[8
[15;30[[15 ; 30[15
[30;45[[30 ; 45[22
[45;60[[45 ; 60[12
[60;90][60 ; 90]3
I alt60

a) Estimeret gennemsnit:

Klassemim_ihih_imihim_i \cdot h_i
[0;15[[0 ; 15[7,57{,}5886060
[15;30[[15 ; 30[22,522{,}51515337,5337{,}5
[30;45[[30 ; 45[37,537{,}52222825825
[45;60[[45 ; 60[52,552{,}51212630630
[60;90][60 ; 90]757533225225
I alt602077,5
xˉ2077,56034,6 minutter\bar{x} \approx \frac{2077{,}5}{60} \approx 34{,}6 \text{ minutter}

b) Kumuleret hyppighed og median:

KlasseHyppighedKumuleret
[0;15[[0 ; 15[8888
[15;30[[15 ; 30[15152323
[30;45[[30 ; 45[22224545
[45;60[[45 ; 60[12125757
[60;90][60 ; 90]336060

Medianen svarer til 0,5060=300{,}50 \cdot 60 = 30 observationer. Kumuleret 2323 ved x=30x = 30 og 4545 ved x=45x = 45. Medianen er i [30;45[[30 ; 45[:

Q2=30+3023452315=30+7221530+4,8=34,8 minQ_2 = 30 + \frac{30 - 23}{45 - 23} \cdot 15 = 30 + \frac{7}{22} \cdot 15 \approx 30 + 4{,}8 = 34{,}8 \text{ min}

Teori: Histogram

Et histogram er den grafiske fremstilling af grupperet data.

Vigtige regler:

  • Søjlerne rører hinanden (ingen mellemrum) — for at vise, at data er kontinuert.
  • Hvis alle klasser har samme bredde: søjlens højde viser hyppigheden direkte.
  • Hvis klasserne har forskellig bredde: det er arealet af søjlen, der repræsenterer hyppigheden. Højden er da hyppighedstætheden: hiklassebredde\frac{h_i}{\text{klassebredde}}.

Histogrammet og sumkurven supplerer hinanden: histogrammet viser fordelingens form, sumkurven gør det nemt at aflæse kvartiler.


🏋️ Træningsopgaver

Opgave 1: Et datasæt er grupperet som følger:

KlasseHyppighed
[0;5[[0 ; 5[4
[5;10[[5 ; 10[9
[10;15[[10 ; 15[14
[15;20[[15 ; 20[8
[20;25][20 ; 25]5

a) Beregn intervalmidtpunkterne. b) Estimér gennemsnittet. c) Lav en tabel over kumuleret hyppighed.

Opgave 2: Brug tabellen fra opgave 1 til at bestemme Q1Q_1, medianen og Q3Q_3 ved lineær interpolation.

Opgave 3: 100 elever har fået deres springhøjde (i cm) grupperet:

KlasseHyppighed
[100;110[[100 ; 110[10
[110;120[[110 ; 120[25
[120;130[[120 ; 130[35
[130;140[[130 ; 140[20
[140;150][140 ; 150]10

a) Estimér gennemsnittet. b) Tegn sumkurven og aflæs medianen. c) Bestem kvartilbredden.

Opgave 4: Forklar med egne ord, hvorfor gennemsnittet for grupperet data kun er et estimat og ikke den præcise værdi.


Quiz – Test din forståelse

Matematik Boss-Kamp ⚔️

Løs opgavesættet

Op til +50 XP
Hvad er intervalmidtpunktet for klassen [20 ; 30[?