Regression 📊
I den virkelige verden har vi sjældent en formel fra start — vi har data. Regression handler om at finde den matematiske funktion, der bedst beskriver en samling datapunkter. Det er et af de mest anvendte værktøjer i alt fra videnskab til erhvervsliv.
Tænk på regression som at lægge den perfekte kurve hen over dine datapunkter. Jo bedre kurven passer, jo mere XP får du! 🎯
Teori: Hvad er regression?
Regression er en metode til at bestemme den funktion, der bedst beskriver en sammenhæng mellem to variable ud fra observerede datapunkter.
Grundideen:
Vi har datapunkter og vil finde en funktion , der passer bedst muligt til data.
Tre hovedtyper regression i Matematik C:
| Regressionstype | Funktionstype | Hvornår bruges den? |
|---|---|---|
| Lineær | Data følger en ret linje | |
| Eksponentiel | Data vokser/aftager med en fast procent | |
| Potens | Sammenhæng mellem to størrelser med potenslov |
Vigtigt: Regression giver altid et resultat, men det er op til os at vurdere, om modellen faktisk giver mening for det fænomen, vi undersøger.
Teori: Mindste kvadraters metode — intuitionen
Hvordan finder vi den “bedste” linje? Vi bruger mindste kvadraters metode (MKM).
Ideen i ord:
For hvert datapunkt beregner vi forskellen mellem den observerede -værdi og den forudsagte værdi . Denne forskel kaldes et residual:
Vi kvadrerer residualerne (så negative og positive fejl tæller lige meget) og summerer dem:
Den bedste tilpasning er den, der minimerer .
Hvorfor kvadrerer vi?
- Positive og negative afvigelser skal tælle lige meget
- Store afvigelser straffes hårdere end små (en afvigelse på bidrager med , ikke )
- Matematisk er kvadratfunktionen differentiabel, hvilket gør optimering mulig
Visuelt: Tænk på residualerne som lodrette afstande fra datapunkterne ned (eller op) til linjen. Vi vil gøre de samlede “kvadratiske afstande” så små som muligt.
Teori: Lineær regression
Ved lineær regression finder vi den rette linje , der minimerer summen af kvadrerede residualer.
Formlerne (du behøver normalt ikke beregne disse i hånden — brug CAS/lommeregner):
hvor og er gennemsnittene af - og -værdierne.
I praksis: Brug CAS-værktøjet til at bestemme og . Det vigtige er at du:
- Kan indtaste data korrekt
- Kan aflæse resultaterne (, og )
- Kan fortolke parametrene i kontekst
Vis Eksempel: Lineær regression med CAS ⚡
Opgave: En virksomheds omsætning (i mio. kr.) over 5 år er målt:
| År () | |||||
|---|---|---|---|---|---|
| Omsætning () |
Bestem den lineære regressionsmodel.
Løsning:
Vi beregner de nødvendige summer (eller bruger CAS direkte):
Med CAS får vi:
Regressionslinjen er:
Fortolkning:
- : Omsætningen stiger med ca. mio. kr. pr. år
- : Modellenens estimat for “år 0” er mio. kr.
Forudsigelse for år 7:
Teori: Eksponentiel regression
Ved eksponentiel regression finder vi konstanter og i:
Metoden (i praksis):
Vi kan transformere den eksponentielle model til en lineær ved at tage logaritmen:
Sætter vi , og , får vi:
som er lineær! Vi kan altså:
- Beregne for alle datapunkter
- Udføre lineær regression på
- Omregne: og
I praksis bruger vi bare CAS, der automatisk udfører eksponentiel regression.
Hvornår vælges eksponentiel regression?
- Data ser ud til at vokse/aftage med en fast procentuel rate
- På enkeltlogaritmisk papir ligger data tilnærmelsesvist på en ret linje
Vis Eksempel: Eksponentiel regression ⚡
Opgave: En bakteriekultur måles over tid:
| Tid ( timer) | |||||
|---|---|---|---|---|---|
| Antal () |
Bestem en eksponentiel model.
Løsning:
Trin 1: Vi beregner :
Trin 2: Vi udfører lineær regression på :
Vi finder: hældning og skæring .
Trin 3: Vi omregner:
Modellen er:
Fortolkning: Begyndelsesværdien er bakterier, og antallet vokser med ca. pr. time.
Fordoblingstid:
Teori: Potensregression
Ved potensregression finder vi konstanter og i:
Metoden:
Vi transformerer ved at tage logaritmen:
Sætter vi og , får vi:
Vi udfører lineær regression på og aflæser (hældningen) og .
Hvornår vælges potensregression?
- Sammenhængen beskrives naturligt som en potenslov
- På dobbeltlogaritmisk papir ligger data tilnærmelsesvist på en ret linje
- Eksempler: areal som funktion af sidelængde, stofskifte som funktion af kropsvægt
Vis Eksempel: Potensregression ⚡
Opgave: Sammenhængen mellem et dyrs kropsvægt (kg) og dets daglige energibehov (kcal) er målt:
Find en potensmodel.
Løsning:
Trin 1: Beregn og :
Trin 2: Lineær regression på :
Hældning og skæring .
Trin 3: Omregn: .
Modellen er:
Fortolkning: Energibehovet vokser med kropsvægten opløftet i . Det betyder, at en fordobling af vægten ikke fordobler energibehovet — det stiger kun med faktoren .
Teori: Forklaringsgraden r²
Forklaringsgraden (eller determinationskoefficienten) måler, hvor godt modellen passer til data.
Fortolkning:
| -værdi | Fortolkning |
|---|---|
| Perfekt tilpasning — alle punkter ligger på kurven | |
| Rigtig god tilpasning | |
| Moderat tilpasning | |
| Dårlig tilpasning | |
| Modellen forklarer intet — ingen sammenhæng |
I praksis:
- angives automatisk af CAS-værktøjet
- En høj betyder, at modellen forklarer en stor del af variationen i data
- betyder: ” af variationen i data forklares af modellen”
Korrelationskoefficienten :
For lineær regression bruges også korrelationskoefficienten , der har fortegn:
- : Positiv sammenhæng (begge variable stiger sammen)
- : Negativ sammenhæng (den ene stiger, den anden falder)
- tæt på : Stærk lineær sammenhæng
- tæt på : Svag eller ingen lineær sammenhæng
Vis Eksempel: Sammenlign regressionsmodeller ⚡
Opgave: For et datasæt giver CAS følgende regressioner:
| Model | Forskrift | |
|---|---|---|
| Lineær | ||
| Eksponentiel | ||
| Potens |
Hvilken model passer bedst?
Løsning:
Vi sammenligner -værdierne:
- Lineær: — God, men ikke den bedste
- Eksponentiel: — Bedst tilpasning
- Potens: — Rigtig god
Den eksponentielle model passer bedst, da den har den højeste -værdi på . Det betyder at af variationen i data forklares af modellen.
Men husk: Statistisk bedste model er ikke altid den fagligt mest meningsfulde. Overvej altid om modellen giver mening i konteksten!
Vis Eksempel: Fuld regressionsanalyse — fra data til model ⚡
Opgave: En webshops besøgstal (, i tusinder) de første 6 måneder er:
| Måned () | ||||||
|---|---|---|---|---|---|---|
| Besøg () |
a) Udfør lineær og eksponentiel regression. b) Hvilken model passer bedst? c) Forudsig besøgstallet for måned 8.
Løsning:
a) Lineær regression:
Med CAS: , .
Eksponentiel regression:
Vi beregner :
Lineær regression på giver: hældning , skæring .
Altså: og .
Med CAS: , .
b) Den eksponentielle model passer markant bedre ( vs. ).
c) Forudsigelse for måned 8:
Advarsel: Ekstrapolation (forudsigelse uden for datas interval) skal altid tages med forbehold. Eksponentiel vækst kan sjældent fortsætte ubegrænset.
🏋️ Træningsopgaver
Opgave 1: Følgende data er givet:
a) Bestem den lineære regressionsmodel (brug CAS). b) Beregn og vurder tilpasningen. c) Forudsig for .
Opgave 2: En population vokser eksponentielt. Data:
| Tid (år) | |||||
|---|---|---|---|---|---|
| Population |
Bestem en eksponentiel model og beregn fordoblingstiden.
Opgave 3: Bestem om følgende data bedst beskrives med lineær, eksponentiel eller potensregression (brug -værdier):
Opgave 4: Forklar med egne ord, hvad det betyder at en regressionsmodel har .
Opgave 5: Diskuter: Kan man altid stole på en regressionsmodel, der har ? Giv eksempler på, hvornår man skal være forsigtig.