Ugrupperet data 🎯
Forestil dig, at du har spurgt 10 klassekammerater, hvor mange timer de sover om natten. Du får en liste med tal — og nu vil du gerne opsummere og forstå de tal. Det er præcis det, deskriptiv statistik handler om!
Ugrupperet data er den simpleste form: du har en liste af tal, og du vil finde mønstre i dem.
I dette kapitel lærer du alle de vigtigste redskaber til at beskrive et datasæt. Lad os dykke ned! 🏊
Teori: Hyppighed og frekvens
Når du har et datasæt, er det første skridt at tælle, hvor ofte hver værdi optræder.
Hyppighed er antallet af gange en bestemt værdi optræder.
Frekvens (også kaldet relativ hyppighed) er hyppigheden divideret med det samlede antal observationer:
Frekvensen angiver altså andelen af observationer med en bestemt værdi. Den kan udtrykkes som decimaltal eller i procent.
Vigtig egenskab: Summen af alle frekvenser er altid 1 (eller 100 %).
Vis Eksempel: Hyppighed og frekvens ⚡
En klasse med 20 elever har svaret på, hvor mange søskende de har:
Vi tæller hyppigheden for hver værdi:
| Antal søskende | Hyppighed | Frekvens |
|---|---|---|
| 0 | 4 | |
| 1 | 9 | |
| 2 | 5 | |
| 3 | 2 | |
| I alt | 20 | 1,00 = 100 % |
Vi kan altså sige, at 45 % af eleverne har præcis 1 søskende. Det er den mest typiske værdi.
Teori: Gennemsnit (middelværdi)
Gennemsnittet er den mest kendte måde at beskrive et datasæts “centrum” på. Det beregnes ved:
Her er de observationer, og (udtales “x-streg”) er gennemsnittet.
Intuition: Gennemsnittet er det tal, som alle observationer ville have, hvis den samlede sum blev fordelt ligeligt.
Pas på: Gennemsnittet er følsomt over for outliers (ekstreme værdier). Én meget stor eller lille observation kan trække gennemsnittet væk fra de “typiske” værdier.
Vis Eksempel: Beregning af gennemsnit ⚡
Fem elevers karakterer i matematik er: .
Vi beregner gennemsnittet trin for trin:
Gennemsnitskarakteren er altså .
Hvad hvis der var en outlier? Lad os erstatte med (en meget lav karakter): .
Gennemsnittet falder fra til — kun fordi én observation ændrede sig. Det viser, at gennemsnittet er følsomt over for outliers!
Teori: Median
Medianen er den midterste observation, når datasættet er sorteret i stigende rækkefølge.
Til at finde medianen:
- Sortér observationerne i stigende rækkefølge.
- Hvis antallet er ulige: Medianen er observation nr. .
- Hvis antallet er lige: Medianen er gennemsnittet af observation nr. og nr. .
Hvorfor bruge medianen? Medianen er robust — den påvirkes næsten ikke af outliers. Derfor bruges medianen ofte til at beskrive indkomster, boligpriser osv.
Vis Eksempel: Median med ulige antal ⚡
Syv elevers daglige skærmtid (i timer) er: .
Trin 1: Sortér i stigende rækkefølge:
Trin 2: Vi har observationer (ulige), så medianen er observation nr.:
Trin 3: Den 4. observation i den sorterede liste er .
Vis Eksempel: Median med lige antal ⚡
Seks elevers daglige skærmtid (i timer) er: .
Trin 1: Sortér:
Trin 2: Vi har (lige), så medianen er gennemsnittet af observation nr. og nr. :
Teori: Typetal
Typetallet er den værdi, der optræder flest gange i datasættet.
- Hvis én værdi optræder flest gange: datasættet har ét typetal.
- Hvis to værdier deler førstepladsen: datasættet er bimodalt (to typetal).
- Hvis alle værdier optræder lige ofte: der er intet meningsfuldt typetal.
Typetallet er det eneste centralmål, der også kan bruges til kategoriske data (fx favoritfarve).
Vis Eksempel: Typetal ⚡
Datasæt 1:
Værdien optræder 3 gange — flere end nogen anden. Typetallet er .
Datasæt 2:
Både og optræder 2 gange. Datasættet er bimodalt med typetallene og .
Datasæt 3:
Alle værdier optræder præcis én gang. Der er intet meningsfuldt typetal.
Teori: Variationsbredde
Variationsbredden er det simpleste spredningsmål. Den angiver, hvor “bredt” datasættet er:
Variationsbredden er let at beregne, men den siger kun noget om de to mest ekstreme værdier — den fortæller ingenting om, hvordan resten af dataen fordeler sig.
Vis Eksempel: Variationsbredde ⚡
Et datasæt med temperaturer (i °C) henover en uge: .
Temperaturerne varierer altså med grader i løbet af ugen.
Teori: Kvartiler og kvartilbredde
Kvartilerne deler det sorterede datasæt i fire lige store dele:
- (nedre kvartil): 25 % af observationerne ligger under denne værdi.
- (medianen): 50 % ligger under.
- (øvre kvartil): 75 % ligger under.
Fremgangsmåde til at finde kvartiler:
- Sortér datasættet.
- Find medianen () — den deler datasættet i en nedre og en øvre halvdel.
- er medianen af den nedre halvdel.
- er medianen af den øvre halvdel.
Kvartilbredden (IQR) måler spredningen af de midterste 50 % af dataen:
Kvartilbredden er mere robust end variationsbredden, fordi den ignorerer de mest ekstreme observationer.
Vis Eksempel: Kvartiler trin for trin ⚡
Datasæt med 12 observationer (allerede sorteret):
Trin 1: Find medianen (). Vi har (lige antal):
Trin 2: Nedre halvdel (de første 6 observationer): .
Trin 3: Øvre halvdel (de sidste 6 observationer): .
Trin 4: Kvartilbredde:
Opsummering: De midterste 50 % af observationerne ligger mellem og , og de spænder over enheder.
Teori: Boksplot
Et boksplot er en visuel opsummering af datasættet. Det viser fem nøgletal (fem-tals-sammenfatningen):
- Minimum ()
- Nedre kvartil ()
- Median ()
- Øvre kvartil ()
- Maksimum ()
Sådan ser det ud:
- Boksen strækker sig fra til (viser de midterste 50 % af data).
- En lodret streg inde i boksen markerer medianen.
- Whiskers (antenner) strækker sig fra boksen ud til minimum og maksimum.
Hvad kan du aflæse?
- Boksens bredde = kvartilbredden (IQR).
- Hvis medianen ligger midt i boksen, er fordelingen symmetrisk.
- Hvis medianen ligger tæt på , er fordelingen højreskæv (halen strækker sig mod højre).
- Hvis medianen ligger tæt på , er fordelingen venstreskæv.
Interaktivt Boksplot & Fordeling
Træk i de røde datapunkter på tallinjen for at se, hvordan gennemsnit, median og boksplot ændrer sig med det samme!
Statistisk Opsummering
Vis Eksempel: Tegning af boksplot ⚡
Vi bruger datasættet fra kvartil-eksemplet:
Fem-tals-sammenfatningen:
| Mål | Værdi |
|---|---|
| Minimum | |
| Median () | |
| Maksimum |
Boksplottet:
Min Q1 Q2 Q3 Max
|----[=====|======]-----|
2 6 9,5 14,5 20Aflæsning: Medianen () ligger lidt til venstre for midten af boksen. Det tyder på en svag højreskævhed — de store værdier strækker sig lidt længere ud end de små.
Vis Eksempel: Sammenligning af boksplot ⚡
To klasser har taget den samme prøve:
Klasse A:
- Min = 3, , Median = 7,5, , Max = 12
- IQR = 3
Klasse B:
- Min = 2, , Median = 7,5, , Max = 14
- IQR = 6
Begge klasser har samme median (7,5), men klasse B har dobbelt så stor kvartilbredde (6 vs. 3). Det betyder, at resultaterne i klasse B er mere spredte — der er større forskel på de dygtige og de mindre dygtige elever.
Boksplottet gør det nemt at se denne forskel med det blotte øje! 👀
🏋️ Træningsopgaver
Opgave 1: Et datasæt er: . Bestem hyppigheden og frekvensen for hver værdi.
Opgave 2: Beregn gennemsnittet for datasættet: .
Opgave 3: Find medianen for: .
Opgave 4: Angiv typetallet for: .
Opgave 5: Et datasæt er: . Find , (medianen), og kvartilbredden, og tegn et boksplot.
Opgave 6: To vennegrupper har målt deres daglige skærmtid (i timer):
- Gruppe 1:
- Gruppe 2:
Beregn gennemsnit, median og kvartilbredde for begge grupper. Hvilken gruppe har mest ensartet skærmtid?