Matematik C funktioner
Kapitel Overblik Regression
🌱 Matematik C

Regression er metoden til at fitte en matematisk model til rå data. Du bruger det til at forudsige fremtidige værdier og forstå sammenhænge i datasæt fra virkeligheden.

Du lærer at:
  • Udføre lineær regression og fortolke hældning og skæring
  • Beregne og fortolke forklaringsgraden R²
  • Vælge den bedste regressionsmodel (lineær, eksponentiel, potens) til data
  • Bruge residualer til at vurdere modellens kvalitet
💡
Intuitionen

"Regression finder den linje (eller kurve), der minimerer den samlede fejl til alle datapunkter. Det er som at finde den 'gennemsnitlige tendens' i et rodet datasæt."

Regression 📊

I den virkelige verden har vi sjældent en formel fra start — vi har data. Regression handler om at finde den matematiske funktion, der bedst beskriver en samling datapunkter. Det er et af de mest anvendte værktøjer i alt fra videnskab til erhvervsliv.

Tænk på regression som at lægge den perfekte kurve hen over dine datapunkter. Jo bedre kurven passer, jo mere XP får du! 🎯


Teori: Hvad er regression?

Regression er en metode til at bestemme den funktion, der bedst beskriver en sammenhæng mellem to variable ud fra observerede datapunkter.

Grundideen:

Vi har nn datapunkter (x1,y1),(x2,y2),,(xn,yn)(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) og vil finde en funktion f(x)f(x), der passer bedst muligt til data.

Tre hovedtyper regression i Matematik C:

RegressionstypeFunktionstypeHvornår bruges den?
Lineærf(x)=ax+bf(x) = ax + bData følger en ret linje
Eksponentielf(x)=baxf(x) = b \cdot a^xData vokser/aftager med en fast procent
Potensf(x)=bxaf(x) = b \cdot x^aSammenhæng mellem to størrelser med potenslov

Vigtigt: Regression giver altid et resultat, men det er op til os at vurdere, om modellen faktisk giver mening for det fænomen, vi undersøger.


Teori: Mindste kvadraters metode — intuitionen

Hvordan finder vi den “bedste” linje? Vi bruger mindste kvadraters metode (MKM).

Ideen i ord:

For hvert datapunkt (xi,yi)(x_i, y_i) beregner vi forskellen mellem den observerede yy-værdi og den forudsagte værdi f(xi)f(x_i). Denne forskel kaldes et residual:

ei=yif(xi)e_i = y_i - f(x_i)

Vi kvadrerer residualerne (så negative og positive fejl tæller lige meget) og summerer dem:

S=i=1nei2=i=1n(yif(xi))2S = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - f(x_i))^2

Den bedste tilpasning er den, der minimerer SS.

Hvorfor kvadrerer vi?

  • Positive og negative afvigelser skal tælle lige meget
  • Store afvigelser straffes hårdere end små (en afvigelse på 44 bidrager med 1616, ikke 44)
  • Matematisk er kvadratfunktionen differentiabel, hvilket gør optimering mulig

Visuelt: Tænk på residualerne som lodrette afstande fra datapunkterne ned (eller op) til linjen. Vi vil gøre de samlede “kvadratiske afstande” så små som muligt.


Teori: Lineær regression

Ved lineær regression finder vi den rette linje f(x)=ax+bf(x) = ax + b, der minimerer summen af kvadrerede residualer.

Formlerne (du behøver normalt ikke beregne disse i hånden — brug CAS/lommeregner):

a=nxiyixiyinxi2(xi)2a = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - \left(\sum x_i\right)^2}b=yˉaxˉb = \bar{y} - a\bar{x}

hvor xˉ\bar{x} og yˉ\bar{y} er gennemsnittene af xx- og yy-værdierne.

I praksis: Brug CAS-værktøjet til at bestemme aa og bb. Det vigtige er at du:

  1. Kan indtaste data korrekt
  2. Kan aflæse resultaterne (aa, bb og r2r^2)
  3. Kan fortolke parametrene i kontekst

Vis Eksempel: Lineær regression med CAS ⚡

Opgave: En virksomheds omsætning (i mio. kr.) over 5 år er målt:

År (xx)1122334455
Omsætning (yy)2,32{,}32,82{,}83,13{,}13,73{,}74,04{,}0

Bestem den lineære regressionsmodel.

Løsning:

Vi beregner de nødvendige summer (eller bruger CAS direkte):

xˉ=1+2+3+4+55=3ogyˉ=2,3+2,8+3,1+3,7+4,05=3,18\bar{x} = \frac{1+2+3+4+5}{5} = 3 \quad \text{og} \quad \bar{y} = \frac{2{,}3+2{,}8+3{,}1+3{,}7+4{,}0}{5} = 3{,}18

Med CAS får vi:

a0,43ogb1,89a \approx 0{,}43 \quad \text{og} \quad b \approx 1{,}89

Regressionslinjen er:

f(x)=0,43x+1,89f(x) = 0{,}43x + 1{,}89

Fortolkning:

  • a=0,43a = 0{,}43: Omsætningen stiger med ca. 0,430{,}43 mio. kr. pr. år
  • b=1,89b = 1{,}89: Modellenens estimat for “år 0” er 1,891{,}89 mio. kr.

Forudsigelse for år 7:

f(7)=0,437+1,89=3,01+1,89=4,90 mio. kr.f(7) = 0{,}43 \cdot 7 + 1{,}89 = 3{,}01 + 1{,}89 = 4{,}90 \text{ mio. kr.}

Teori: Eksponentiel regression

Ved eksponentiel regression finder vi konstanter aa og bb i:

f(x)=baxf(x) = b \cdot a^x

Metoden (i praksis):

Vi kan transformere den eksponentielle model til en lineær ved at tage logaritmen:

ln(y)=ln(b)+xln(a)\ln(y) = \ln(b) + x \cdot \ln(a)

Sætter vi Y=ln(y)Y = \ln(y), A=ln(a)A = \ln(a) og B=ln(b)B = \ln(b), får vi:

Y=Ax+BY = Ax + B

som er lineær! Vi kan altså:

  1. Beregne ln(yi)\ln(y_i) for alle datapunkter
  2. Udføre lineær regression(xi,ln(yi))(x_i, \ln(y_i))
  3. Omregne: a=eAa = e^A og b=eBb = e^B

I praksis bruger vi bare CAS, der automatisk udfører eksponentiel regression.

Hvornår vælges eksponentiel regression?

  • Data ser ud til at vokse/aftage med en fast procentuel rate
  • enkeltlogaritmisk papir ligger data tilnærmelsesvist på en ret linje

Vis Eksempel: Eksponentiel regression ⚡

Opgave: En bakteriekultur måles over tid:

Tid (tt timer)0011223344
Antal (NN)100100122122150150182182223223

Bestem en eksponentiel model.

Løsning:

Trin 1: Vi beregner ln(N)\ln(N):

tt0011223344
ln(N)\ln(N)4,6054{,}6054,8044{,}8045,0115{,}0115,2045{,}2045,4075{,}407

Trin 2: Vi udfører lineær regression på (t,ln(N))(t, \ln(N)):

Vi finder: hældning A0,200A \approx 0{,}200 og skæring B4,605B \approx 4{,}605.

Trin 3: Vi omregner:

a=e0,2001,221ogb=e4,605100a = e^{0{,}200} \approx 1{,}221 \quad \text{og} \quad b = e^{4{,}605} \approx 100

Modellen er:

N(t)=1001,221tN(t) = 100 \cdot 1{,}221^t

Fortolkning: Begyndelsesværdien er 100100 bakterier, og antallet vokser med ca. 22,1%22{,}1\% pr. time.

Fordoblingstid:

T2=ln(2)ln(1,221)=0,6930,2003,5 timerT_2 = \frac{\ln(2)}{\ln(1{,}221)} = \frac{0{,}693}{0{,}200} \approx 3{,}5 \text{ timer}

Teori: Potensregression

Ved potensregression finder vi konstanter aa og bb i:

f(x)=bxaf(x) = b \cdot x^a

Metoden:

Vi transformerer ved at tage logaritmen:

ln(y)=ln(b)+aln(x)\ln(y) = \ln(b) + a \cdot \ln(x)

Sætter vi Y=ln(y)Y = \ln(y) og X=ln(x)X = \ln(x), får vi:

Y=aX+ln(b)Y = aX + \ln(b)

Vi udfører lineær regression på (ln(xi),ln(yi))(\ln(x_i), \ln(y_i)) og aflæser aa (hældningen) og b=eskæringb = e^{\text{skæring}}.

Hvornår vælges potensregression?

  • Sammenhængen beskrives naturligt som en potenslov
  • dobbeltlogaritmisk papir ligger data tilnærmelsesvist på en ret linje
  • Eksempler: areal som funktion af sidelængde, stofskifte som funktion af kropsvægt

Vis Eksempel: Potensregression ⚡

Opgave: Sammenhængen mellem et dyrs kropsvægt WW (kg) og dets daglige energibehov EE (kcal) er målt:

WW55101020205050100100
EE2502504004006406401200120019001900

Find en potensmodel.

Løsning:

Trin 1: Beregn ln(W)\ln(W) og ln(E)\ln(E):

ln(W)\ln(W)1,611{,}612,302{,}303,003{,}003,913{,}914,614{,}61
ln(E)\ln(E)5,525{,}525,995{,}996,466{,}467,097{,}097,557{,}55

Trin 2: Lineær regression på (ln(W),ln(E))(\ln(W), \ln(E)):

Hældning a0,68a \approx 0{,}68 og skæring ln(b)4,42\ln(b) \approx 4{,}42.

Trin 3: Omregn: b=e4,4283b = e^{4{,}42} \approx 83.

Modellen er:

E(W)=83W0,68E(W) = 83 \cdot W^{0{,}68}

Fortolkning: Energibehovet vokser med kropsvægten opløftet i 0,680{,}68. Det betyder, at en fordobling af vægten ikke fordobler energibehovet — det stiger kun med faktoren 20,681,62^{0{,}68} \approx 1{,}6.


Teori: Forklaringsgraden r²

Forklaringsgraden (eller determinationskoefficienten) r2r^2 måler, hvor godt modellen passer til data.

r2=1(yif(xi))2(yiyˉ)2r^2 = 1 - \frac{\sum (y_i - f(x_i))^2}{\sum (y_i - \bar{y})^2}

Fortolkning:

r2r^2-værdiFortolkning
r2=1r^2 = 1Perfekt tilpasning — alle punkter ligger på kurven
r20,9r^2 \geq 0{,}9Rigtig god tilpasning
r20,7r^2 \approx 0{,}7Moderat tilpasning
r20,3r^2 \approx 0{,}3Dårlig tilpasning
r2=0r^2 = 0Modellen forklarer intet — ingen sammenhæng

I praksis:

  • r2r^2 angives automatisk af CAS-værktøjet
  • En høj r2r^2 betyder, at modellen forklarer en stor del af variationen i data
  • r2=0,85r^2 = 0{,}85 betyder: ”85%85\% af variationen i data forklares af modellen”

Korrelationskoefficienten rr:

For lineær regression bruges også korrelationskoefficienten r=±r2r = \pm\sqrt{r^2}, der har fortegn:

  • r>0r > 0: Positiv sammenhæng (begge variable stiger sammen)
  • r<0r < 0: Negativ sammenhæng (den ene stiger, den anden falder)
  • r|r| tæt på 11: Stærk lineær sammenhæng
  • r|r| tæt på 00: Svag eller ingen lineær sammenhæng

Vis Eksempel: Sammenlign regressionsmodeller ⚡

Opgave: For et datasæt giver CAS følgende regressioner:

ModelForskriftr2r^2
Lineærf(x)=3,2x+1,5f(x) = 3{,}2x + 1{,}50,870{,}87
Eksponentielf(x)=2,11,35xf(x) = 2{,}1 \cdot 1{,}35^x0,980{,}98
Potensf(x)=1,8x1,4f(x) = 1{,}8 \cdot x^{1{,}4}0,930{,}93

Hvilken model passer bedst?

Løsning:

Vi sammenligner r2r^2-værdierne:

  • Lineær: r2=0,87r^2 = 0{,}87 — God, men ikke den bedste
  • Eksponentiel: r2=0,98r^2 = 0{,}98Bedst tilpasning
  • Potens: r2=0,93r^2 = 0{,}93 — Rigtig god

Den eksponentielle model f(x)=2,11,35xf(x) = 2{,}1 \cdot 1{,}35^x passer bedst, da den har den højeste r2r^2-værdi på 0,980{,}98. Det betyder at 98%98\% af variationen i data forklares af modellen.

Men husk: Statistisk bedste model er ikke altid den fagligt mest meningsfulde. Overvej altid om modellen giver mening i konteksten!


Vis Eksempel: Fuld regressionsanalyse — fra data til model ⚡

Opgave: En webshops besøgstal (yy, i tusinder) de første 6 måneder er:

Måned (xx)112233445566
Besøg (yy)1,21{,}21,81{,}82,72{,}74,04{,}05,95{,}98,98{,}9

a) Udfør lineær og eksponentiel regression. b) Hvilken model passer bedst? c) Forudsig besøgstallet for måned 8.

Løsning:

a) Lineær regression:

Med CAS: f(x)=1,50x0,77f(x) = 1{,}50x - 0{,}77, r2=0,95r^2 = 0{,}95.

Eksponentiel regression:

Vi beregner ln(y)\ln(y):

xx112233445566
ln(y)\ln(y)0,180{,}180,590{,}590,990{,}991,391{,}391,771{,}772,192{,}19

Lineær regression på (x,ln(y))(x, \ln(y)) giver: hældning 0,397\approx 0{,}397, skæring 0,19\approx -0{,}19.

Altså: a=e0,3971,49a = e^{0{,}397} \approx 1{,}49 og b=e0,190,83b = e^{-0{,}19} \approx 0{,}83.

Med CAS: g(x)=0,831,49xg(x) = 0{,}83 \cdot 1{,}49^x, r2=0,999r^2 = 0{,}999.

b) Den eksponentielle model passer markant bedre (r2=0,999r^2 = 0{,}999 vs. r2=0,95r^2 = 0{,}95).

c) Forudsigelse for måned 8:

g(8)=0,831,498=0,8319,716,3 tusind besøgg(8) = 0{,}83 \cdot 1{,}49^8 = 0{,}83 \cdot 19{,}7 \approx 16{,}3 \text{ tusind besøg}

Advarsel: Ekstrapolation (forudsigelse uden for datas interval) skal altid tages med forbehold. Eksponentiel vækst kan sjældent fortsætte ubegrænset.


🏋️ Træningsopgaver

Opgave 1: Følgende data er givet:

xx1133557799
yy441010141422222626

a) Bestem den lineære regressionsmodel f(x)=ax+bf(x) = ax + b (brug CAS). b) Beregn r2r^2 og vurder tilpasningen. c) Forudsig yy for x=12x = 12.

Opgave 2: En population vokser eksponentielt. Data:

Tid (år)0055101015152020
Population1000100013401340179017902400240032103210

Bestem en eksponentiel model og beregn fordoblingstiden.

Opgave 3: Bestem om følgende data bedst beskrives med lineær, eksponentiel eller potensregression (brug r2r^2-værdier):

xx224466881010
yy6,36{,}317,817{,}832,632{,}650,450{,}470,770{,}7

Opgave 4: Forklar med egne ord, hvad det betyder at en regressionsmodel har r2=0,72r^2 = 0{,}72.

Opgave 5: Diskuter: Kan man altid stole på en regressionsmodel, der har r2=0,99r^2 = 0{,}99? Giv eksempler på, hvornår man skal være forsigtig.


Quiz – Test din forståelse

Matematik Boss-Kamp ⚔️

Løs opgavesættet

Op til +50 XP
Hvad minimerer mindste kvadraters metode?