Det er “fejl på fejl på fejl” Det skriver vildtbiolog Egon Bennetsen efter sin gennemgang af DCE’s anbefalede tandsnitsmetode. En metode som måske skal anvendes som barometer på fremtidens kronvildtforvaltning …

Af: Egon Bennetsen, Vildtbiolog, d. 25.12. 2016

NOTAT VEDRØRENDE DCEs ANALYSE AF TANDSNITSMETODEN

Konklusion:

DCE har forsøgt at validere tandsnitsmetoden til aldersbestemmelse på et materiale bestående af 37 danske krondyr. Forskerne på DCE har kaldt det ”guldstandarden” inden for aldersbestemmelse af kronvildt. Metoden er vidt udbredt, og som eksempler nævner DCE kronvildt og elg i Norge. Man hævder, at metoden rammer tæt på den faktiske gennemsnitsalder for en bestand.

Det er rigtigt nok, men gennemsnitsalderen er helt uinteressant, når det – sådan som metoden er tiltænkt i den danske hjorteforvaltning – drejer sig om at vurdere, hvorvidt 5 af 100 hjorte (5%) er 8 år eller ældre.

DCE har behandlet tandsnitsmetoden. Rapporterne indeholder imidlertid en række faglige fejl både hvad angår teksten, grafikken og tabellerne. Men værst af alt indeholder rapporterne også en række graverende statistiske og faglige fejl i DCEs beregning og vurdering af tandsnitsmetodens præcision. DCE postulerer følgende:

1) Tandsnitsmetoden har en høj grad af forklaret variation (Determinationskoefficienten) R2 = 0,92 = 92%

2) Tandsnitsmetoden kan fastlægge den faktiske alder +/- 2 år

3) Tandsnitsmetoden kan fastlægge den reelle alder +/- 10 %
Alle 3 DCE-påstande er forkerte.

Som dette notat viser, er faktum derimod, at tandsnitsmetoden har en meget lav forklaringsgrad på kun 50 %, og således videnskabelig set er ubrugelig samt at DCE i flere tilfælde fejlagtigt tolker tandsnitsmetodens præcision på en måde, der slet ikke er fagligt belæg for.

Med andre ord: Fejl på fejl på fejl.

Det er altså ikke på redelig vis lykkedes DCE at validere tandsnitsmetoden på danske krondyr. Hvorvidt det skyldes metodeusikkerhed, eller det skyldes de forhold dyrene lever under i Danmark (eksempelvis lille årstidsvariation i fødegrundlag), aner jeg ikke.

Det er derimod sikkert, at aldersbestemmelse vha. tandsnit er uanvendelig for danske krondyr, og at metoden derfor ikke kan danne grundlag for fremtidens kronvildtforvaltning.

    ****** GENNEMGANG ******

1) Fejl i DCEs analyse af tandsnitsmetodens præcision (R2)

I DCE-rapporten: Bæredygtig kronvildtforvaltning. Videnskabelig rapport nr. 106. 2014 Sunde og Haugaard (Kilde 1)

hævdes det:

”I et referencemateriale på 37 individer med kendt alder (mærket som kalve eller 1-årige), kunne de enkelte dyrs alder uden systematiske fejlkilder og med en høj grad af forklaret variation (R2 = 97 %) estimeres vha.antallet af vækstlinjer i tandmateriale, om end med en usikkerhed på ± 2 år for det enkelte individ. Overordnet set betyder dette, at aldersbestemmelse vha. tandsnit må betegnes som en anvendelig og objektiv metode til aldersbestemmelser af danske krondyr.” (Min fremhævelse).

Referencematerialet er vist i nedenstående fig. 5.

Her er det dog kun muligt at finde de 30 punkter. Der mangler altså 7. Det er en klar fejl.

1

Figur 5. Alder estimeret ud fra tandsnit plottet mod kendt alder for 37 krondyr fra tre danske bestande. Den tykke linje angiver regressionslinjen af den estimerede sammenhæng mellem alder bestemt ved tandsnit og dyrets faktiske alder med skæring i punktet 0,0. De tynde linjer angiver 95 %-sikkerhedsgrænser for bestemmelsen af den rette linje. Dyr til og med det 2. fyldte år kan aldersbestemmes uden usikkerhed ud fra sammensætningen af mælketænder og blivende tænder.

Jeg beder i en henvendelse til DCE (31/10/16) om en forklaring på to forskellige værdier på R2, nemlig de 97 % nævnt ovenfor, og de 0,919 = 92 %, der er angivet i figur 5.

Hertil svarer Aksel Bo Madsen på vegne af DCE (2/11):

”I din henvendelse kan vi se at R2 – værdien i Figur er forkert angivet til 97 % side 5, og det vil vi ændre til den korrekte værdi 92%. Fejlen beror på en hændelig, beklagelig slåfejl.” Min fremhævelse.

Igen en klar fejl taget i betragtning, at adskillige fagpersoner, heriblandt mindst 6 fra DCE, har gennemlæst og/eller kvalitetssikret rapporten. (https://www.netnatur.dk/dnhs-hjoreteplan-det-faglige-grundlag-d/

I et notat fra DCE til Danmarks Jægerforbund (16/9/16):

ALDERSBEDØMMELSE OG KÆBEINDSAMLING

står der:

”I en analyse af 37 dyr med kendt alder, blev den estimerede alder for det enkelte dyr fra og med det 4. fyldte år undertiden estimeret ente for højt eller for lavt i forhold til dyrets rigtige alder (Sunde and Haugaard 2014: Figur 5). I gennemsnit rammer aldersbestemmelsen imidlertid rigtigt, hvilket betyder at en bestands aldersfordelingen estimeret ud fra denne metode bliver retvisende og med en høj statistisk forklaringsgrad (92-98 %: Figur 5 og 6 i Sunde and Haugaard 2014)” (Min fremhævelse).

På et tidligt tidspunkt forekom det mig, og flere andre, besynderligt, at den viste fordeling af de 30 punkter i figur 5, kunne give en så høj forklaringsgrad (præcision) som de angivne 92 %.

I artiklen på Netnatur.dk d. 2/10: https://www.netnatur.dk/dnhs-hjoreteplan-det-faglige-grundlag-d/

har jeg fremført, at min beregning af R2, på grundlag af de 30 punkter der kunne erkendes, var: 0,42. Hvis de resterende 7 punkter blev placeret på linjen Y= X, var værdien 0,51. Alt beregnet relativt simpelt i Excel.

TØVENDE UDLEVERING

At tabellen, der lå til grund for figur 5, ikke var medtaget i rapporten (Kilde 1), er en grov fejl. Selvom jeg havde påpeget de manglende 7 punkter, var de ikke medsendt i svaret d. 2/11/16. Jeg kunne derfor ikke lave den korrekte beregning i forhold til Peter Sundes beregning på 0,92.

Den 8/11 begærede jeg derfor i henhold til offentlighedsloven aktindsigt i de 7 punkter og beregningen af den mistænkeligt høje forklaringsgrad på 0,92. Først den 23/11 skete der noget, da jeg fik fremsendt de 37 punkter (Bilag 1) og beregningen af R2 (Bilag 2) fra en jurist i DCE.

(Filen med beregningen af regressionen med R2 værdien på 0,92 fylder 17 sider. I Bilag 2 er medtaget de 2 sider, der opsummerer beregningen).

På baggrund heraf kunne jeg beregne R2 til 0,5014 = 0,50 = 50 %. Altså en meget lav forklaringsgrad, der ikke kan anvendes videnskabeligt.

DCE fastholdt altså– ukommenteret – værdien på 0,92.

…………………………………..

Den 7/11/16 blev jeg af Danmarks Jægerforbund inviteret til møde i Jagtens Hus sammen med nogle jagtforeningsformænd fra Thy, der har efterspurgt svar på mine spørgsmål, som de finder relevante.

I indbydelsen stod bl.a.:

”På vegne af Danmarks Jægerforbund vil vi gerne invitere jer til et dialogmøde i Jagtens Hus for at gå i dybden med besvarelse af nogle af de spørgsmål I har stillet knyttet til hjortevildtforvaltning og adaptiv forvaltning.” (Min fremhævelse).

På mødet, der blev afholdt d. 13/12, havde vi håbet, at Peter Sunde og Aksel Bo Madsen, som repræsenterede DCE, ville forklare, hvordan Sunde var kommet frem til de 0,92.

Stor var vores forbløffelse, da Aksel Bo Madsen startede mødet med at fastslå, at man ikke agtede at svare på mine spørgsmål, ud over hvad der allerede var sket med Bilag 1 og Bilag 2.

Vi fik altså ikke en forklaring på – eller en diskussion om – hvorfor vi kunne komme frem til to forskellige grader af præcision for de samme 37 punkters R2 værdi.

Peter Sunde betonede dog, at de havde anvendt statistikprogrammet SAS, og at det blev brugt af mange videnskabelige institutter.

Så med hensyn til hvorvidt tandsnitsmetoden med de 37 danske krondyr med kendt alder er videnskabeligt valideret med resultatet i figur 5, stod vi mildest talt milevidt fra hinanden

Da jeg ikke er statistiker, var det svært at komme videre, når DCE hårdnakket nægtede at medvirke til en afklaring.

Det var der imidlertid et par statistiske begavelser, vi kalder dem NN1 og NN2, der gerne ville…!

DEN TEKNISKE ANALYSE

I bilag 1 fra DCE fik jeg endelig kendskab til de 37 punkter.

Sat ind i Excel giver det følgende fig.:

Figur 1

Bemærk: I figurerne vises kun 28 af de 37 punkter, der ligger til grund for beregningerne, idet flere datapar er identiske. For datasættet med de 37 krondyr se bilag 1.

 

1r2jpg

Heraf fremgår det tydeligvis at R2 = 0.5014

Bemærk at linjen er med skæring i punktet 0,0.

(Hvorvidt dette er korrekt, kan i høj grad diskuteres, hvis linjen skal bruges til kalibrering af fremtidige resultater).

Hvis vi ikke ”tvinger” linjen gennem 0,0, men bruger beregnet skæring, ændres R2 kun ubetydeligt til 0,5182. Se Figur 2

Figur 2

fig22

En entusiastisk person gjorde mig opmærksom på, at en af hans kolleger havde vist ham, at man også i Excel, ved hjælp at et tillægsprogram med ”Dataanalyse”, kunne komme frem til 0,92.

Hvis vi her (fejlagtigt) vinkler feltet: ”Konstant er nul” af, får vi Sundes R2 = 0.9189, hvilket er langt fra de ovennævnte = 0,5014

Hvis vi ikke vinkler feltet: ”Konstant er nul” af, får vi R2 = 0,5182. Nøjagtig som vist i fig. 2

…………………………………..

De to statistikkyndige NN1 og NN2, der var grebet af diskussionen, sendte mig uafhængigt af hinanden deres beregninger af R2, der giver mig ret i, at den rette R2 værdi er 0,5014 = 0,50 = 50%.

NN1s bevis (Bilag 3):

Konklusion: ”Jeg kan kun se at R2 bliver 0.5014.”

                                                               ****

NN2s bevis (Bilag 4):

(Se desuden: Bilag 4A (NN2 forsøg beregnet) og Bilag 4B (NN2 forsøg grafisk).)

Konklusion:

Med skæring i 0

SAK Model               444,32

SAK Residual          221,54

SAK total               665,86

R^2                     0,5014        

”Jeg er fuldstændig overbevist om at DCE regner forkert i deres SAK (model)”

(Min fremhævelse)

NN2’s påpegning af fejlen I Sundes beregning. (Bilag 5)

Her hedder det bl.a.:

”DCE fjumrer så vidt jeg kan se i Den samlede kvadrerede sum af totale afstande til middelværdiDe måler ikke afstanden fra hvert datapunkt op/ned til middelværdien. De måler i stedet afstanden ned til 0”

****

Det står herefter fuldstændig klart, at Peter Sunde og Aksel Bo Madsen gentagne gange fastholder en helt forkert R2 værdi på 0.92, mens den rigtige værdi er 0,5014 = 0,50.

Efter at have skygget datasættet i Excel, kræver det blot 7 museklik, at få grafen og værdierne i fig. 1 frem!

****

Konklusion angående tandsnitsmetodens præcision (R2):

Der er således aldeles ikke tale om, at de enkelte dyrs alder kan estimeres ” med en høj grad af forklaret variation (R2 = 97%) (Rettet til 0,92), som hævdet af DCE.

Tværtimod kan de enkelte dyrs alder kun estimeres med en meget lav grad af forklaret variation (R2 = 0,50 = 50%)!

Som tandsnitsmetoden er udført og præsenteret af DCE, er den fuldstændig ubrugelig som videnskabelig analysemetode, og tandsnitsmetoden kan slet ikke anvendes til, med nogen acceptabel grad af præcision, at vurdere om 5 ud af 100 dyr (5%) er 8 år eller ældre! 

EKSEMPLER

A) Jeg vil nu give et eksempel på hvor mange af de 37 punkter, man er nødt til at fjerne for at opnå en R2 værdi på 92 %:

Figur 3

33

I det givne eksempel er beregningen foretaget på baggrund af de 30 punkter, der ligger i intervallet: Rigtig alder +/- 2 år. (Blå punkter). (Husk flere af punkterne har identiske datapar (Bilag 1)).

Det betyder altså, at for at få den høje R2 værdi på 0,92 er vi er nødt til at udelade de 7 punkter, (Røde), der ligger 3 år eller mere fra rigtig alder!

B.) Herefter et eksempel, der viser, hvad R2 værdien bliver, hvis vi kun accepterer en afvigelse på +/- 1 år:

Figur 4 fig-444

 

I dette eksempel er beregningen foretaget på baggrund af de 27 punkter, der ligger i intervallet: Rigtig alder +/- 1 år. (Blå punkter) (Husk flere af punkterne har identiske datapar (Bilag 1)).

Jeg har hele tiden hævdet, at: Rigtig alder +/- 1 år må anses for at være en acceptabel afvigelse.   Det ville med dette datasæt kræve, at R2 værdien skal være over 0,95 = 95 % og bevirke, at vi er nødt til at se bort fra de 10 punkter, der ligger længst væk fra de rigtige værdier.

2) Fejl i DCEs vurdering af tandsnitsmetoden (+/- 2 år)

I DCE-rapporten: Bæredygtig kronvildtforvaltning. Videnskabelig rapport nr. 106. 2014 Sunde og Haugaard (Kilde 1) hævdes det:

”I et referencemateriale på 37 individer med kendt alder (mærket som kalve eller 1-årige), kunne de enkelte dyrs alder uden systematiske fejlkilder og med en høj grad af forklaret variation (R2 = 97 %) estimeres vha. antallet af vækstlinjer i tandmateriale, om end med en usikkerhed på ± 2år for det enkelte individ.”  Min fremhævelse.

Der gøres altså i rapporten gældende, at tandsnitsmetoden kan fastlægge den faktiske alder med en usikkerhed på +/- 2 år.

Jeg har spurgt DCE om denne påstand er baseret på DCE-rapportens fig. 5?

DCE har nægtet at svare på mit spørgsmål.

DCEs påstand er imidlertid helt forkert. På figur 5 og bilag 1 ses nemt, at følgende 7 punkter (Røde punkter i figur 3) ikke lever op til påstanden:

X-værdiY-værdi
514
52
715
85
811
128
1411

 

Dette er en grov fejl, idet DCE derved får tandsnitsmetoden til at fremstå med en nøjagtighed, der ikke er belæg for.

3) Fejl i DCEs vurdering af tandsnitsmetoden (+/- 10 %)

I: Modeller for måling af udviklingen i andelen af ældre hjorte i danske krondyrbestande.                 Notat fra DCE – Nationalt Center for Miljø og Energi Dato: 13. maj 2016, Peter Sunde

hævdes det:

”Aldersbestemmelse vha. tandsnit må betragtes som den mest præcise og eksakte aldersbestemmelsesmetode (+/- 10 % af reel alder) (Sunde & Haugaard 2014))”   Min fremhævelse

Igen har jeg spurgt DCE om denne påstand er baseret på DCE-rapportens fig. 5?

DCE har også nægtet at svare på dette spørgsmål.

 

Sunde gør altså gældende, at tandsnitsmetoden kan fastlægge den faktiske alder med +/- 10%.

I henhold til de almindelige afrundingsregler indebærer det, at dyr der er i aldersintervallet 1 – 4 år (4 år +/- 10 % = 3,6 – 4,4 år) ikke må afvige fra kendt alder. I aldersintervallet 5 – 14 år må dyrene afvige med +/- 1 år fra kendt alder. (5 år +/- 10 % = 4,5 – 5,5 år og 14 år +/- 10 %= 12,6 – 15,4 år).

Af bilag 1 ses det nemt, at hele 14 af 37 punkter ikke lever op til påstanden.

Dette er en grov fejl, idet DCE derved får tandsnitsmetoden til at fremstå med en nøjagtighed, der slet ikke er belæg for.

 

Bilag

 

Bilag 1

 

IDpopulationsnit_estFACITsexID_NINA
2010A7Oksbøl22MA7
2012A16Jægersborg33MA16
2010A10Oksbøl34FA10
2010A12Oksbøl34FA12
2010A15Oksbøl.4MA15
2010A18Oksbøl54FA18
2010A5Oksbøl34MA5
2010A13Oksbøl145FA13
2010A16Oksbøl55FA16
2010A4Oksbøl45FA4
2010A9Oksbøl25FA9
2012A15Jægersborg56MA15
2010A14Oksbøl157FA14
2010A3Oksbøl67MA3
2011A2St. Frederikslund Dyrehave67MA2
2011A4St. Frederikslund Dyrehave77MA4
2010A1Oksbøl98FA1
2010A11Oksbøl108FA11
2010A17Oksbøl88FA17
2010A2Oksbøl58MA2
2010A6Oksbøl118FA6
2010A8Oksbøl88FA8
2011A3St. Frederikslund Dyrehave68MA3
2012A1Jægersborg98MA1
2012A10Jægersborg88MA10
2012A14Jægersborg88MA14
2011A1St. Frederikslund Dyrehave89MA1
2012A7Jægersborg1010MA7
2012A9Jægersborg810MA9
2012A11Jægersborg1111MA11
2012A13Jægersborg1111MA13
2012A6Jægersborg1011MA6
2012A12Jægersborg1212MA12
2012A2Jægersborg1212MA2
2012A3Jægersborg1312MA3
2012A8Jægersborg812MA8
2012A4Jægersborg1213MA4
2012A5Jægersborg1114MA5

 

Bilag 2

Linear Regression Results

The REG Procedure
Model: Linear_Regression_Model
Dependent Variable: snit_est

 

Number of Observations Read38
Number of Observations Used37
Number of Observations with Missing Values1

Note: No intercept in model. R-Square is redefined.

 

Analysis of Variance
SourceDFSum of
Squares
Mean
Square
F ValuePr > F
Model12511.459382511.45938408.11<.0001
Error36221.540626.15391
Uncorrected Total372733.00000

 

Root MSE2.48071R-Square0.9189
Dependent Mean7.86486Adj R-Sq0.9167
Coeff Var31.54163 

 

 

Parameter Estimates
VariableDFParameter
Estimate
Standard
Error
t ValuePr > |t|
FACIT10.976460.0483420.20<.0001

 

555

 

Bilag 3

Jeg har lavet et lille script i Matlab UDEN brug at funktioner, dvs. man kan regne alt ud på et stykke papir, hvis man har lyst J Nedenfor kan i se koden og resultaterne. Jeg kan kun se at R^2 bliver 0.5014.

Universitetet bør kunne lave en tilsvarende beregning UDEN brug at statistik-værktøjer…der er trods alt ikke mange data at arbejde med.

 

% colums: Known, Estimated

rawData=[2  2

3  3

4  3

4  3

4  5

4  3

5  14

5  5

5  4

5  2

6  5

7  15

7  6

7  6

7  7

8  9

8  10

8  8

8  5

8  11

8  8

8  6

8  9

8  8

8  8

9  8

10 10

10 8

11 11

11 11

11 10

12 12

12 12

12 13

12 8

13 12

14 11]

 

% Define variables

x = rawData(:,1); % Known Age

y = rawData(:,2); % Estimated Age

 

%========================================================================

% Least Square Fit to model: y = ax

%========================================================================

a = (x’*x)^-1*x’*y % Matrix form of Least Square (x’ = transpose)

 

% Calculate age based on fitted model y=ax

yCalc = a*x;

 

%========================================================================

%Calculate R^2 DIRECTLY:

%========================================================================

Rsq1 = 1 – sum((y – yCalc).^2)/sum((y – mean(y)).^2)

 

%========================================================================

%STEP-BY-STEP calculation of R^2:

%========================================================================

% Compute the residual values as a vector of signed numbers:

yresid = y – yCalc;

 

% Square the residuals and total them to obtain the residual sum of squares:

SSresid = sum(yresid.^2)

 

% Compute the total sum of squares of y by multiplying the variance of y by the number of observations minus 1:

SStotal = (length(y)-1) * var(y)

 

%Compute R2 using the formula given in the introduction of this topic:

Rsq2 = 1 – SSresid/SStotal

 

RESULTATER

a =

0.9765

Rsq1 =

0.5014

SSresid =

221.5406

SStotal =

444.3243

Rsq2 =

0.5014

 

Bilag 4:

Hvis du lige bruger eksemplet med cykler fra i går, så prøv at sætte den i relation til figuren herunder.

x-aksen er salg af cykler fra en cykelhandler

y-aksen er salg af cykelhjelme fra samme cykelhandler

(Vi forventer at der er en lineær sammenhæng. )

I 1995 sælges 1000 cykler og 300 cykelhjelme

I 1996 sælges der 2000 cykler og 700 hjelme. (altså 400 end året før mere. Antallet af cykler er fordoblet, men antallet af hjelme er MERE end fordoblet)

De første 300 ekstra hjelme som er solgt i 1996 kan umidelbart forklares ved at at antalet af solgte cykler er fordoblet.

De sidste 100 kan ikke umidelbart forklares modellen og må skyldes ”noget andet” (måske en trafiksikkerhedskampagne)

 

SAK står for Sum Af Kvadrater

Total= 400

Model = 300

Residual = 100

 

665

Når du har forstået grafen og er med på begreberne Model, Total og Residual, så kan vi gå videre til afsnittet herunder.

Excel Grafisk med skæring i 0

Hældning: 0,9765x

Skæring: 0

R^2: 0,5014

 

777

Excel grafisk med ”bedste rette linie” og dermed ikke skæring i 0

Hældning: 0,8358

Skæring: 1,2687

R^2: 0,5182     (altså en anelse højere R^2 end hvis man tvinger linien igennem 0 på y aksen)

 

888

Alt dette er er kendt viden. Det har vi hele tiden vidst.

Dataene nedenfor kommer fra vedhæftede ark (X forsøg beregnet)

Med skæring i 0

SAK Model               444,32

SAK Residual           221,54

SAK total               665,86

R^2                     0,5014

 

Uden skæring i 0

SAK Model              444,32

SAK Residual           214,09

SAK total               658,41

R^2                     0,5182

 

Bemærk at summen af både resudialer og SAK total falder når vi benytter den bedste rette linie overhovedet.

R^2 beregnes i øvrigt ovenfor vha følgende formel:

8888

Både DCE og jeg beregner summen af residualer til 221,54

Jeg beregner dog Sum Of Squares –MODEL til 444,32.  Den får DCE til 2511,45!!!!!!.

Formelen til SAK-model er ellers ret simpel, så tallet herunder kan hurtigt forkastes som noget værre volapyk

999

Tallet 2511,45 bruger DCE så videre i deres beregning til F-teststørrelsen, som er beregnet som vist nedenfor.

Jeg har indsat tal for at hjælpe dig lidt på vej

1011

Hvis vi bruger min beregning får vi en helt anden teststørrelse

12

Man kan tage gennemsnitshøjden af 30 mennesker på Borneo og gennemsnitshøjden for 30 danskere. Lad os sige at det er henholdsvis 1,68 og 1,78.

Det betyder jo ikke at vi med 100% sikkerhed kan sige at gennemsnitshøjden på ALLE mennesker på Borneo er forskellig fra gennemsnitshøjden på ALLE danskere.

Middelværdierne i stikprøverne er uomtvisteligt forskellige, men det kunne jo være at vi havde valgt 30 lave Borneanere og 30 høje danskere ved rent uheld.

Derfor laver man altid en F-test for at vurdere sandsynligheden af at man tager fejl i sin hypotesetest

Hypoteseteste i eksemplet her er: H0 = Gennemsnitshøjden for folk på Borneo og gennemsnitshøjden for Danskere er ens

Hvis man forkaster 0-hypotesen, er det samtidig god skik at skrive sandsynligheden for at man har begået en fejl. Den kunne f.eks. være 0,1%

 

Beregningen af sandsynligheden for at man tager fejl fremkommer når man laver en sandsynlighedsberegning på F-kritisk > F-test. ( Også kaldet Pr > F)

F-kritisk kan man slå op i nogle tabeller. Det er nogle standardværdier som afhænger af konfidensinterval (f.eks. 95% sikkerhed) og antallet af frihedsgrader i stikprøven.

 

Vi skal lige grave lidt mere i det her, men husk på at ANOVA anlysen er en analyse hvor vi sammenligner varianser to to grupper for at afgøre om man med rimelig sandsynlighed kan sige at middelværdierne er ens.

 

Jeg er fuldstændig overbevist om at DCE regner forkert i deres SAK (model)

Denne beregning fører de så videre til beregning af F-test.

Det medfører at deres Pr > F (PR står for Probability) er forkert.

 

De forkaster IKKE nulhypotesen og konkluderer at de to middelværdier i tandsnitsmetode og faktisk alder er identisk.

De siger også at sandsynligheden for at ovenstående sætning er løgn og latin er under 0,0001

Beregningen af 0,0001 er dog fremkommet på forkert grundlag, da deres F-model jo er beregnet forkert.

 

Det betyder ikke nødvendigvis at konklusionen i rapporten er forkert.

Den kan stadig godt være rigtig, men deres matematik er forkert.

F-model er forkert og PR > F er forkert. Basta!

 

Bilag 4A

 

Med skæring i 0Uden skæring i 0
snit_estFACITSAK modelUdregnet alderSAK ResidualSAK totalSAK modelUdregnet alderSAK ResidualSAK total
2234,396639881,9530,00220934,3988488834,39663992,94030,8841640935,280804
3323,666910152,92950,0049702523,671880423,66691023,77610,6023312124,2692414
3423,666910153,9060,82083624,4877461523,66691024,61192,5982216126,2651318
3423,666910153,9060,82083624,4877461523,66691024,61192,5982216126,2651318
548,2074506943,9061,1968369,4042866948,207450694,61190,150621618,3580723
3423,666910153,9060,82083624,4877461523,66691024,61192,5982216126,2651318
14537,639883134,882583,1288063120,768689437,63988315,447773,1418353110,781718
558,2074506944,88250,013806258,2212569448,207450695,44770,200435298,40788598
4514,937180424,88250,7788062515,7159866714,93718045,44772,0958352917,0330157
2534,396639884,88258,3088062542,7054461334,39663995,447711,886635346,2832752
568,2074506945,8590,7378818,9453316948,207450696,28351,647372259,85482294
15750,91015346,835566,6590603117,569213650,91015347,119362,1054325113,015586
673,4777209646,83550,698060254,1757812143,477720967,11931,252832494,73055345
673,4777209646,83550,698060254,1757812143,477720967,11931,252832494,73055345
770,7479912346,83550,027060250,7750514840,747991237,11930,014232490,76222372
981,2885317757,8121,4113442,6998757751,288531787,95511,091816012,38034779
1084,5588020457,8124,7873449,3461460454,558802057,95514,181616018,74041806
880,0182615057,8120,0353440,0536055050,01826157,95510,002016010,02027751
588,2074506947,8127,90734416,114794698,207450697,95518,7326160116,9400667
1189,8290723167,81210,16334419,992416329,829072327,95519,2714160119,1004883
880,0182615057,8120,0353440,0536055050,01826157,95510,002016010,02027751
683,4777209647,8123,2833446,7610649643,477720967,95513,822416017,30013697
981,2885317757,8121,4113442,6998757751,288531787,95511,091816012,38034779
880,0182615057,8120,0353440,0536055050,01826157,95510,002016010,02027751
880,0182615057,8120,0353440,0536055050,01826157,95510,002016010,02027751
890,0182615058,78850,621732250,6399937550,01826158,79090,625522810,64378431
10104,5588020459,7650,0552254,6140270454,558802059,62670,139352894,69815494
8100,0182615059,7653,1152253,1334865050,01826159,62672,646152892,66441439
11119,82907231610,74150,066822259,8958945669,8290723210,46250,2889062510,1179786
11119,82907231610,74150,066822259,8958945669,8290723210,46250,2889062510,1179786
10114,55880204510,74150,549822255,1086242954,5588020510,46250,213906254,7727083
121217,0993425911,7180,07952417,1788665917,099342611,29830,4923828917,5917255
121217,0993425911,7180,07952417,1788665917,099342611,29830,4923828917,5917255
131226,3696128611,7181,64352428,0131368626,369612911,29832,8957828929,2653957
8120,01826150511,71813,82352413,84178550,018261511,298310,878782910,8970444
121317,0993425912,69450,4823302517,5816728417,099342612,13410,0179828117,1173254
11149,82907231613,6717,13424116,963313329,8290723212,96993,8805060113,7095783
444,3243243221,540627665,8649508444,324324214,089553658,413877

 

0,5013988330,51816828
Skæring i 0Skæring IKKE i 0
Gennemsnit7,86486486Gennemsnit7,86486486
Hældning0,9765Hældning0,8358
b1,2687

 

Bilag 4B

snit_estFACIT     
221415
33
34
34
54
34
145
55
45
25
56
157
67
67
77
98
108
88
58
118
88
68
98
88
88
89
1010
810
1111
1111
1011
1212
1212
1312
812
1213
1114

 

Bilag 5

 

Herunder er et uhyre simpelt plot.
3 punkter
Formel fremgår af grafen

16

R^2 er defineret som: 1 – (SAKresidual / SAKtotal)

Residual for første datapunkt: (afstand fra punktet op til tendenslinien)        = 0,5           (0,5 x 0,5 = 0,25)
Residual for andet datapunkt                                            = – 1           (-1 x -1 = 1)
Residual for tredie datapunkt                                           = 0,5           (0,5 x 0,5 = 0,25)
Den samlede kvadrerede sum af residualer er derfor 0,25 + 1 + 0,25      = 1,5

 

Gennemsnittet af de 3 datapunkter er (1 + 3 + 2) / 3                     = 2
Afstand fra første datapunkt til middelværdi    (2 – 1)                 = 1             (1 x 1 = 1)
Afstand fra andet datapunkt til middelværdi     (2 – 3)                 = – 1           (-1 x -1 = 1)
Afstand fra tredie datapunkt til middelværdi    (2 – 2)                 = 0
Den samlede kvadrerede sum af totale afstande til middelværdi: 1 + 1    = 2

 

R^2 = 1 – (1,5 / 2) = 1 – 0,75 = 0,25 (som Excel også har fundet frem til)

DCE fjumrer så vidt jeg kan se i Den samlede kvadrerede sum af totale afstande til middelværdi.
De måler ikke afstanden fra hvert datapunkt op/ned til middelværdien. De måler i stedet afstanden ned til 0.
Når de måler afstanden ned til 0 uden hensyntagen til middelværdien i datasættet, vil deres samlede kvadrerede sum af totale afstande til middelværdi blive enorm høj.
Dermed bliver brøken (SAKresidual / SAKtotal) enormt lille (da nævneren i brøken er meget stor. )

Når så formelen giver at R^2 = 1 – SAKresidual / SAKtotal), vil R^2 naturligvis være skyhøj, da bidraget fra brøken (som skal trækkes fra 1) er forsvindende lille)