Om tilfældige tal...12-09-2012 10:43 | |
pifpafpuf★★★☆☆ (783) |
En solid antagelse må være at alle tal, 0...9, optræder med lige stor sandsynlighed i naturen. Måler man derfor temperaturer burde sidste ciffer, xx.y her y , optræde i et dataset normalfordelt. Serier af rene gennemsnitstal burde ikke påvirke denne forventede fordeling – men diverse datavask algoritmer kan sætte spor i form af en anormal fordeling af sidste betydende ciffer. I revisionsøjemed, til fraud detection, har man derfor i flere brancher indført kontroller af tal sammensætninger – og naturligvis også langt mere avancerede metoder – for at afsløre om dataserier er tilfældige eller manipulerede. En simpel statistisk test, chi i-anden test, excel =chitest(), kan afsløre med hvor stor en konfidens at en dataserie kan siges at have en naturlig sammensætning af tal. Kigger man f.eks. på lotto tal for de sidste 160 uger ligger de i en fordeling hvor det mest udtrukne tal er trukket 42 gange – det mindst 20 gange. Og laver man en chi test af denne tal serie ligger konfidensen så højt som 0,57. Da jeg for et år siden lavede testen for de sidste 12 års DMI månedsdata var konfidensen overraskende lav - 0,03. Heraf min kommentar i går - det har dog rettet sig lidt siden. Vi har haft et par x,3 siden da Laver man derfor nu, på baggrund af DMI's månedstal for gennemsnitstemperaturer i DK fra januar 1999 til april 2012 (160 måneder), får man en konfidens på 0,075 Altså en betragtelig lavere konfidens end ved udtrækningen af lottotal. Kigger man på fordelingen af lige og ulige tal var konfidensen ved DMI tal for et år siden også meget lav 0,05. Siden da er konfidensen i DMI's tal steget betragteligt til 0,15. Tilsvarende konfidens for lottotal er dog hele 0,51. Men alt i alt er det er da godt, at naturen er begyndt at arte sig mere forventeligt i takt med udbredelsen af statistiske valideringsmetoder stiger. Men det kan naturligvis også bare skyldes den længere dataserie..... Redigeret d. 12-09-2012 10:57 |
12-09-2012 10:58 | |
Kristoffer Haldrup★★★☆☆ (824) |
Forstår jeg ret, at du kigger på hyppigheden af tallene 0-9 i sidste ciffer af DMI's rapporterede månedstemperatur for DK? |
12-09-2012 11:02 | |
pifpafpuf★★★☆☆ (783) |
yeps. |
12-09-2012 11:49 | |
SRJ★★★☆☆ (462) |
Chi^2-testen forudsætter uafhængige data. Månedlige gennemsnitstemperaturer udviser høj grad af autokorrelation. Det skal man tage højde for når testen anvendes og eventuelt bør man vælge en anden test som er bedre egnet i det tilfælde. Jeg har ikke testet hvor stor autokorrelationen er i de månedlige middelværdier for DK fra DMI, fordi DMI's hjemmeside er håbløs at finde data på. Har du et link til data? Hvorfor har du valgt kun at benytte data siden 1999? |
12-09-2012 12:18 | |
pifpafpuf★★★☆☆ (783) |
SRJ, " Månedlige gennemsnitstemperaturer udviser høj grad af autokorrelation" Ja-men jeg har svært ved at se hvordan det kan påvirke frekvensen af sidste betydende ciffer? Hvorfor har du valgt kun at benytte data siden 1999? Primært af samme årsag som du nu brokker dig over - ulideligt data interface. Men datavask kan meget vel også være et nyt fænomen. |
12-09-2012 12:47 | |
SRJ★★★☆☆ (462) |
pifpafpuf skrev:Månedlige gennemsnitstemperaturer udviser høj grad af autokorrelation" Ja men det ændrer jo ikke på at disse data ikke overholder en af de forudsætninger chi^2-testen baseres på. Hvis ikke jeg husker helt galt fra anvendt statistik kan man her i stedet bruge Kolmogorov-Smirnov-testen. Såvidt jeg kan se er det du arbejder du fra en modificering af Benfords lov. Benfords lov siger at sidste ciffer er fordelt uens, idet lave tal (1,2 osv) forekommer oftere end høje tal, fordelingen er logaritmisk. Jeg læse Benfords lov gælder for data som spænder over adskillige størrelsesordener, hvilket man nok ikke kan sige at månedlige middeltemperaturer i DK gør. Det er måske derfor du har erstattet Benfords lov med normalfordelingen? I givet fald vil jeg gerne se en henvisning til en forklaring på hvorfor den fordeling er relevant her. |
12-09-2012 13:03 | |
pifpafpuf★★★☆☆ (783) |
SRJ, 16 0 20 1 24 2 6 3 15 4 14 5 22 6 13 7 12 8 18 9 Her er fordelingen af tal de sidste 160 måneder. Hvordan det skulle blive logaritmisk ved jeg ikke... Hvorfor at sidste betydende ciffer i en temperaturmåling ikke skulle være normaltfordelt er jeg villig til at acceptere. Bare med een god logisk grund. Men 1 og 3 har da været meget fremme - det seneste år - catching up.... |
12-09-2012 13:14 | |
pifpafpuf★★★☆☆ (783) |
Det pudsige er iøvrigt også at antallet af lige tal i DMI's data er markant større end de ulige - jfr. Benford burde det være omvendt. Det er det - omvendt - med lottotallene - men ikke på nogen måde markant. |
12-09-2012 14:06 | |
SRJ★★★☆☆ (462) |
pifpafpuf skrev: Hov jeg mente jo uniform fordelt istedet for normal. DU skrev også selv normalfordelt i dit første indlæg, men jeg antager at du også mener uniformt. Du skrev også: En solid antagelse må være at alle tal, 0...9, optræder med lige stor sandsynlighed i naturen Benfords lov viser at for mange fænomener er denne antagelse ikke sand. Det at fordelingen af sidste ciffer i mange talserier bliver logaritmisk er en empirisk observation, se wikipedia artiklen. Det er den egenskab som benyttes i "fraud detection". Jeg får ligesom du p=0.075 for chi^2-testen. Dvs. over de 5% som er det ofte brugte kriterie, og der er altså ikke statistisk evidens for at forkaste nulhypotesen (H0: data er uniformt fordelt). Hvis jeg tester mod Benfords lov får jeg (0 indgår ikke i Benfords lov så den udelades) p= 1.574e-10. iflg. denne test afvises nulhypotesen, H0:sidste ciffer følger Benfords lov for disse data. Hvis man var sikker på at sidste ciffer skulle følge Benfords lov for disse data, så kunne den observation være tegn på datafuskeri. Men jeg er ikke overbevist om at Benfords lov gælder for disse data. I denne artikel vises at sidste ciffer i den globale temperatur-anomali følger Benfords lov: http://rses.anu.edu.au/~malcolm/papers/pdf/Sambridge-etal-2010.pdf Det pudsige er iøvrigt også at antallet af lige tal i DMI's data er markant større end de ulige - jfr. Benford burde det være omvendt. Det er det - omvendt - med lottotallene - men ikke på nogen måde markant. Benfords lov medregner ikke 0. Iflg. Benford er sandsynligheden for lige ciffer: 39,1 % ulige ciffer: 60,9 % I de tal du har opgivet fra DMI er der 71 ulige og 73 lige, når man ikke medtager 0. Endnu et tegn på at Benfords lov ikke følges af dette datasæt. Hvis nogen har et link til DMI's månedlige anomalier så kunne det være sjovt at se hvad man får når man benytter hele dataserien i disse tests. Redigeret d. 12-09-2012 14:14 |
12-09-2012 15:12 | |
pifpafpuf★★★☆☆ (783) |
SJR - Det er logisk, forståeligt, i at 1. betydende har en væsentlig overvægt mod de lave (og at 0 ikke medregnes her naturligvis). Pointen er vel netop at tage sidste betydende for at udvidske sådanne effekter. Jeg kan derfor ikke antage at Benford gælder - og jeg kan, som nævnt, ikke logisk se nogen begrundelse for at tallene, sidste betydende, ikke skulle optræde lige ofte. Omkring normalfordeling - klart - jeg mente naturligvis at afvigelsen fra gennemsnittet måtte forventes normalfordelt.... Ja - konfidensen i datasettet har været stigende det sidste år mod et acceptabelt niveau ved en række x,1 og x,3 observationer. Så min 'overraskelse' var naturligvis større sidste år, da jeg lavede analysen. Men jeg mener fortsat - til Lasner - at dette er en indikator for tegn på datavask. Men naturligvis ikke en indikator for fraud. |
12-09-2012 15:20 | |
Frank Lansner★★★★★ (5727) |
Pifpafpuf, Jeg er egentligt heller ikke af den opfattelse at DMI har ændret data, er ikke rigtigt stødt på den slags heldigvis :-) Bedste hilsner, Frank |
12-09-2012 19:13 | |
kfl★★★★★ (2167) |
Man vil umiddelbart forvente, at sidste ciffer er uniform fordelt, men hvis der sker en afrunding ved omregning fra en skala til en anden, vil der i mange tilfæde sket det at sidste ciffer ikke er uniform fordelt. I det fleste måleinstrumenter sker der om flere omregning fra en skala til en anden. Derfor er forventning til meterologiske data, at sidste ciffer ikke er uniform fordelt. Dette emne har tidligere være oppe til debat og blevet afvist som værende et gyldig argument. Se Sidste ciffer Redigeret d. 12-09-2012 19:28 |
14-09-2012 14:07 | |
SRJ★★★☆☆ (462) |
pifpafpuf skrev: Ja jeg fik vist lige blandet tingene lidt sammen ifht. Benfords lov, som jo ikke er relevant her, idet diskussionen handler om sidste betydende ciffer. Der er en generalisering af Benfords lov som bl. a. viser at The distribution of the n-th digit, as n increases, rapidly approaches a uniform distribution with 10% for each of the ten digits Spørgsmål til kfl: Du er jo statistiker, hvad mener du om mit argument om at chi^2 testen ikke er korrekt at anvende her idet de månedlige middeltemperaturer er korrellerede, dvs. ikke independent som testen forudsætter. Er der en anden test man kan bruge? |
16-09-2012 21:00 | |
kfl★★★★★ (2167) |
Hej SRJ Jeg har set dit spørgsmål. Den bedste måde at undersøge dette er ved simulations eksperimenter. Kommer tilbage med et bedre svare på et tidspunkt. |
30-10-2012 09:42 | |
pifpafpuf★★★☆☆ (783) |
...Men bortset fra det så er DMI's middeltemperatur hen over måneden baseret på det "daglige vejr arkiv" spøjst. I går, med 3 dage tilbage af måneden, var den månedlige gennemsnitstemperatur ca. -0,1 under normalen, sådan groft fordelt over landsdelene. I dag med 2 dage tilbage , er gennemsnitstemperaturerne ca. 0,3 over normalen. Et meget kraftigt ryk i et gennemsnit, der svarer til at gårsdagen måtte være 0,4 c * 30 dage = 12 grader over gennemsnittet for dagen???? Weird - for det var koldt i går hvor jeg bo |
31-10-2012 08:49 | |
pifpafpuf★★★☆☆ (783) |
....så fik man tilsyneladende algoritmen i Norjylland rettet tilbage på sporet.... Men de øvrige har fortsat det lidt mystiske hop fra i går. Man må ikke håbe noget af den mere seriøse klimahistorik er bundet op på disse kørsler. Grunden til at man tjekker efter er jo følgende forudsigelse i fantasy genren. http://www.bt.dk/danmark/dmi-udsigt-til-varmeste-efteraar-i-dette-aartusind P.S. Hørt i banken forleden - "du skal ikke regne med hvad der står på din konto her midt på måneden - vi regner det kun korrekt ud til hver den 1. " |
31-10-2012 09:08 | |
pifpafpuf★★★☆☆ (783) |
...men så blev det da lige 0,5 c varmere igen i Nordjylland på ½ time. Gad vide om der også er gået penge ind på kontoen.... |
31-10-2012 09:22 | |
SRJ★★★☆☆ (462) |
Kan du linke til hvor du ser disse temperaturer og mærkelige hop? |
31-10-2012 09:48 | |
pifpafpuf★★★☆☆ (783) |
Ja, nu er der jo ikke historik på kørslerne, så hop kan kun bemærkes over dagen(e) http://www.dmi.dk/dmi/index/danmark/vejrarkiv.htm Jeg forstår såmen godt at forskellige algoritmer kører på forskellige tider af døgnet, men der findes der altså basale teknikker, der forhindrer at inkonsistente data ikke er synlige for brugerne. Men det forklarer slet ikke at Danmarks gennemsnitstemperatur for oktober, på en dag, steg ca. 0.4 grader så sent på måneden som tilfældet var i går. Men jeg håber da jeg får uret i at poste indlæget under "tilfældige tal" ... |
31-10-2012 11:10 | |
SRJ★★★☆☆ (462) |
jeg opdagede også lige noget mærkeligt For denne region: http://www.dmi.dk/dmi/vejrarkiv?region=7&year=2012&month=10 prøv at se den blå temperatur-graf. Den viser at laveste temperatur var ca. -5 C. Men i teksten står der at laveste temperatur var -10.6 C. Enten er figurens y-akse forkert eller også viser grafen middel over regionen, mens tallet i teksten er fra en lokal måling? I bunden af siden står flg. omfattende forbehold: Tallene opdateres hver dag. De præsenterede data kan i perioder være fejlbehæftede. Redigering: Jeg har sendt en forespørgsel vedr. dette til DMI og fået flg. svar: Tak for din mail. Redigeret d. 31-10-2012 11:28 |
31-10-2012 12:02 | |
pifpafpuf★★★☆☆ (783) |
Tak SRJ, Hvis de giver op på algoritmerne, så kan de bare sende koden :-) Vh. |
31-10-2012 15:20 | |
pifpafpuf★★★☆☆ (783) |
SRJ, Du fik sat tommelskruerne på programmøren. Han går sikkert hjem uden at have spist frokost i dag. Stakkels mand - men det ser mere rimeligt ud nu. |