Archief - De Wiskunde & Statistiek fanclub

Tweak37 · 26 aug 2015

Beetje laat, maar deze kwestie is ook gerelateerd aan de loterij paradox, ook wel interessante materie.

Lolplayer · 19 jan 2016

Iemand nog een interessant wiskundig/statistisch weetje

?

AreVee · 19 jan 2016

Verder dan dat ik uit de grond van mijn hart hoop dat ik na volgend semester nooit na statistiek moet meemaken in mijn leven kom ik niet vrees ik

.

Tom! · 19 jan 2016

Lolplayer zei:
Iemand nog een interessant wiskundig/statistisch weetje ?

De pipo die uit leedvermaak ooit begonnen is met mensen schrik aan te jagen voor vrijdag de 13e had ofwel toevallig goed gekozen, of was wiskundig minstens een beetje onderlegd. De 13e van een maand valt namelijk met een grotere kans op een vrijdag dan op eender welke andere weekdag :crazy:

. Een minder sadistisch ingestelde persoon had het op een donderdag of zaterdag laten vallen, de dagen met de kleinste kans om samen te vallen met de 13e van een maand :woohoo:

.

Lolplayer · 20 jan 2016

Bewijs ?

Tom! · 20 jan 2016

Lolplayer zei:
Bewijs ?

Onze kalender (met het systeem van schrikkeljaren: om de 4, behalve om de 100, maar wel weer om de 400) is periodiek met periode 400 jaar. In die periode van 400 jaar passen een geheel aantal weken en zijn er 12*400 = 4800 maanden. Dat is niet (geheel) deelbaar door 7 dus je kan al direct inzien dat de kans niet uniform kan zijn over de 7 weekdagen. Je kan dan het aantal maandagen, dinsdagen, ..., zondagen uitrekenen ('tellen') die op een 13e van een maand vallen en dat geeft resp. 685, 685, 687, 684, 688, 684, 687 keer. De kans dat de 13e van een maand op een vrijdag valt is dus 688/4800 = 14,333..% en dat is meer dan voor eender welke andere dag.

MrKend54l · 20 jan 2016

Lolplayer zei:
Iemand nog een interessant wiskundig/statistisch weetje ?

Kan je mij misschien eens uitleggen wat weibull is?

Lolplayer · 20 jan 2016

Een distributie van kansen dat eigenlijk een geschaalde (gepimpte) exponentiële distributie is en de populairste distributie voor "overlevingskansen" te modelleren (survival analysis)

Deze zijn dan de uberpopulaire parametrische weibull hazardmodellen. "weibull proportional hazard model"

Voor de rest werd ze niet vernoemd in de les.

Voor meer info is er altijd wikipedia

MrKend54l · 21 jan 2016

Lolplayer zei:
Een distributie van kansen dat eigenlijk een geschaalde (gepimpte) exponentiële distributie is en de populairste distributie voor "overlevingskansen" te modelleren (survival analysis)

Deze zijn dan de uberpopulaire parametrische weibull hazardmodellen. "weibull proportional hazard model"

Voor de rest werd ze niet vernoemd in de les.

Voor meer info is er altijd wikipedia

Dus jullie zijn niet verder ingegaan op survival analysis en hazard model?

Lolplayer · 21 jan 2016

MrKend54l zei:
Dus jullie zijn niet verder ingegaan op survival analysis en hazard model?

Met één model kan je geen cursus vullen he

Kort samengevat ging de cursus over

- Censoring
- Kaplan Meier
- Parametrische modellen +- 9 distributies waarvan Weibull 1
- Accelerated fail model als alternatief
- Cox regressie
- Modellen voor multiple failure and clustered failure data

Verder nog

- Berekenen van errors
- Hoe een model bouwen
- Vergelijkingscriteria van modellen (modellen evalueren)
- Fit onderzoeken
- Wiskunde blabla die het verschil aan toont met normale regressie
- Programmeren van de modellen

slvdndri · 20 mrt 2016

Hallo,

Ik ben momenteel bezig met het verwerken van wat data voor mijn thesis. Ik heb een aantal getallen die in theorie gelijk zouden moeten zijn (stikstofbalans), maar uiteraard zit daar wat variatie op. Het gaat bijvoorbeeld om deze getallen:

145,32
142,30
141,07
140,19
142,64
141,77
139,36
140,88

Nu zou ik dus statistisch willen kijken of die getallen al dan niet gelijk zijn aan elkaar. Het enige programma waar ik tijdens mijn opleiding wat heb leren mee werken (al was ook dit heel beperkt) was SPSS, maar intussen is dit ook alweer een dikke 2 jaar geleden en zit dit wat ver. Welke soort test gebruik ik hier het beste voor? Het eerste wat zelf in mij opkwam was ANOVA, maar dat is eigenlijk om populatiegemiddeldes te vergelijken, terwijl mijn getallen allemaal alleenstaand zijn. Kan er iemand mij iemand dus gewoon kort zeggen welke test ik het best dien te gebruiken hiervoor?

Alvast bedankt!

Anoniem13 · 20 mrt 2016

Wat is je foutenmarge en welk getal is het echte? Excel kan wel afronden in een interval neem ik aan

Riverdale27 · 20 mrt 2016

slvdndri zei:
Hallo,

Ik ben momenteel bezig met het verwerken van wat data voor mijn thesis. Ik heb een aantal getallen die in theorie gelijk zouden moeten zijn (stikstofbalans), maar uiteraard zit daar wat variatie op. Het gaat bijvoorbeeld om deze getallen:

145,32
142,30
141,07
140,19
142,64
141,77
139,36
140,88

Nu zou ik dus statistisch willen kijken of die getallen al dan niet gelijk zijn aan elkaar. Het enige programma waar ik tijdens mijn opleiding wat heb leren mee werken (al was ook dit heel beperkt) was SPSS, maar intussen is dit ook alweer een dikke 2 jaar geleden en zit dit wat ver. Welke soort test gebruik ik hier het beste voor? Het eerste wat zelf in mij opkwam was ANOVA, maar dat is eigenlijk om populatiegemiddeldes te vergelijken, terwijl mijn getallen allemaal alleenstaand zijn. Kan er iemand mij iemand dus gewoon kort zeggen welke test ik het best dien te gebruiken hiervoor?

Alvast bedankt!

Over de individuele getallen kan je geen uitspraak doen. Dat zijn immers allemaal steekproeven van n = 1 en dus bestaat de variantie niet.

Wat je wel kan doen is, gegeven al je getallen, een range van gemiddelden bekomen die statistisch gezien niet te verwerpen zijn. Als je bijvoorbeeld een betrouwbaarheidsinterval berekend van al die getallen, dan zullen alle waarden in dat interval mogelijke kanshebbers zijn om het populatiegemiddelde te zijn.

slvdndri · 21 mrt 2016

paradijsappel zei:
Wat is je foutenmarge en welk getal is het echte? Excel kan wel afronden in een interval neem ik aan

Euhm, het echte getal ken ik niet

Laten we zeggen dat ik gewoon moet kijken of deze getallen aan elkaar gelijk zouden kunnen zijn met pakweg 95 % zekerheid (De getallen zijn een stikstofbalans. D.w.z. dat het de som is van nitraat, nitriet en ammonium en dit zou steeds constant moeten blijven gedurende mijn testen. Maar door meetfouten - of onvoorziene omstandigheden - kunnen die afwijken van elkaar. Maar om dus zeker te zijn dat de stikstofbalans in orde is zou ik dit statistisch willen schaven.)

Riverdale27 zei:
Over de individuele getallen kan je geen uitspraak doen. Dat zijn immers allemaal steekproeven van n = 1 en dus bestaat de variantie niet.

Wat je wel kan doen is, gegeven al je getallen, een range van gemiddelden bekomen die statistisch gezien niet te verwerpen zijn. Als je bijvoorbeeld een betrouwbaarheidsinterval berekend van al die getallen, dan zullen alle waarden in dat interval mogelijke kanshebbers zijn om het populatiegemiddelde te zijn.

Dit behoort idd tot een mogelijkheid, maar is moeilijk uit te voeren denk ik omdat ik niet veel getallen heb en dus moeilijk een range van gemiddelden kan maken. Ik heb meestal 8 getallen ofzo die ik moet vergelijken met elkaar (zoals hierboven getoond). En zo heb ik een stuk of 30 reeksen, maar die 30 reeksen zijn niet gelijk aan elkaar! Dus het lijkt me wat moeilijk om een range van gemiddelden te bepalen uit 8 getallen, neen?

Ik kan natuurlijk ook gewoon zeggen dat de stikstofbalans er oke uitziet op het eerste zicht, maar de perfectionist in mij wil dit statistisch schaven

Riverdale27 · 22 mrt 2016

slvdndri zei:
Euhm, het echte getal ken ik niet Laten we zeggen dat ik gewoon moet kijken of deze getallen aan elkaar gelijk zouden kunnen zijn met pakweg 95 % zekerheid (De getallen zijn een stikstofbalans. D.w.z. dat het de som is van nitraat, nitriet en ammonium en dit zou steeds constant moeten blijven gedurende mijn testen. Maar door meetfouten - of onvoorziene omstandigheden - kunnen die afwijken van elkaar. Maar om dus zeker te zijn dat de stikstofbalans in orde is zou ik dit statistisch willen schaven.)

Dat is exact wat is voorstelde. Bereken een betrouwbaarheidsinterval van het gemiddelde van al die getallen. Vervolgens kan je stellen dat ieder getal dat in die interval ligt een kanshebber is om het populatiegemiddelde te zijn.

Stel je hebt een 95% BI van [ X ; Y ], dan kan je stellen dat alle waarden tussen X en Y niet te verwerpen zijn als populatie gemiddelde. Bijv bij [95 ; 105] kan je statistisch gezien niet verwerpen dat alle getallen uit een verdeling komen met gemiddelde 0.

Dit behoort idd tot een mogelijkheid, maar is moeilijk uit te voeren denk ik omdat ik niet veel getallen heb en dus moeilijk een range van gemiddelden kan maken. Ik heb meestal 8 getallen ofzo die ik moet vergelijken met elkaar (zoals hierboven getoond). En zo heb ik een stuk of 30 reeksen, maar die 30 reeksen zijn niet gelijk aan elkaar! Dus het lijkt me wat moeilijk om een range van gemiddelden te bepalen uit 8 getallen, neen?

Wel die betrouwbaarheidsinterval zal inderdaad vrij breed zijn, zodat ze wellicht zullen overlappen over die 30 reeksen heen.

Ik vrees dat je statistisch gezien weinig kan zeggen over die data hoor.
Ik kan natuurlijk ook gewoon zeggen dat de stikstofbalans er oke uitziet op het eerste zicht, maar de perfectionist in mij wil dit statistisch schaven

Pieterjan94 · 23 apr 2016

Ik ben mijn cursus data-analyse thuis vergeten:
Hoe moet je de F-waarde in een ANOVA test tussen van twee verschillende modellen met elkaar vergelijken? Hoe kleiner de F-waarde hoe statistisch waardevoller je model, of wat je omgekeerd?

Riverdale27 · 24 apr 2016

Pieterjan94 zei:
Ik ben mijn cursus data-analyse thuis vergeten:
Hoe moet je de F-waarde in een ANOVA test tussen van twee verschillende modellen met elkaar vergelijken? Hoe kleiner de F-waarde hoe statistisch waardevoller je model, of wat je omgekeerd?

De F-toets is gewoon om te kijken of je factor in een ANOVA model significant is... m.a.w. is model 2 beter dan model 1:

model 1: respons = a + error
model 2: respons = a + b*factor + error

Model 1 is m.a.w. het model waarbij je gewoon het gemiddelde als beste schatter neemt, en in model 2 voegt je factor extra informatie toe. Bij een F-test hoort een p-waarde en dus kan je de hypothese testen dat model 2 beter is dan model 1.

Je kan echter niet (voor zover ik weet) F-waarden vergelijken tussen modellen heen. Eigenlijk is een F-waarde in het bovenstaande voorbeeld gelijk aan de gekwadrateerde t-statistiek van parameter b (t-statistiek = schatting/standaardfout). Ik weet zeker dat je de waarde van twee modellen niet kan vergelijken op basis van de t-statistiek, dus op basis van F-waarde concludeer ik dat het ook niet gaat.

Als je modellen wil vergelijken kan je dat doen met een R-squared, bijvoorbeeld.

Pieterjan94 · 24 apr 2016

Riverdale27 zei:
De F-toets is gewoon om te kijken of je factor in een ANOVA model significant is... m.a.w. is model 2 beter dan model 1:

model 1: respons = a + error
model 2: respons = a + b*factor + error

Model 1 is m.a.w. het model waarbij je gewoon het gemiddelde als beste schatter neemt, en in model 2 voegt je factor extra informatie toe. Bij een F-test hoort een p-waarde en dus kan je de hypothese testen dat model 2 beter is dan model 1.

Je kan echter niet (voor zover ik weet) F-waarden vergelijken tussen modellen heen. Eigenlijk is een F-waarde in het bovenstaande voorbeeld gelijk aan de gekwadrateerde t-statistiek van parameter b (t-statistiek = schatting/standaardfout). Ik weet zeker dat je de waarde van twee modellen niet kan vergelijken op basis van de t-statistiek, dus op basis van F-waarde concludeer ik dat het ook niet gaat.

Als je modellen wil vergelijken kan je dat doen met een R-squared, bijvoorbeeld.

Ha oké bedankt! R squared is een pak logischer, even niet aan gedacht. Is er eigenlijk een vuistregel bij de R squared betreffende hoe groot die moet zijn vooraleer uw model als "goed" aanschouwd wordt?

Riverdale27 · 24 apr 2016

Pieterjan94 zei:
Ha oké bedankt! R squared is een pak logischer, even niet aan gedacht. Is er eigenlijk een vuistregel bij de R squared betreffende hoe groot die moet zijn vooraleer uw model als "goed" aanschouwd wordt?

Ik geloof dat 30% zo'n grens is maar eerlijkgezegd: dat is vrij arbitrair hoor en erg afhankelijk van het domein en de onderzoeksvraag. Soms is 90% slecht, soms is 20% bijzonder goed. Alles hangt af van het echte onderliggende populatiemodel en hoe groot de variantie is in het genereren van uitkomsten.

Lolplayer · 3 mei 2016

Je had hem best ook verteld dat R square adjusted mss beter was of de AIC, aangezien R² altijd blijft stijgen als je maar variabelen bijneemt ongeacht of ze belangrijk zijn of niet

Archief - De Wiskunde & Statistiek fanclub

Tweak37

Legacy Member

Lolplayer

Legacy Member

AreVee

Legacy Member

Tom!

Legacy Member

Lolplayer

Legacy Member

Tom!

Legacy Member

MrKend54l

Legacy Member

Lolplayer

Legacy Member

MrKend54l

Legacy Member

Lolplayer

Legacy Member

slvdndri

Legacy Member

Anoniem13

Legacy Member

Riverdale27

Legacy Member

slvdndri

Legacy Member

Riverdale27

Legacy Member

Pieterjan94

Legacy Member

Riverdale27

Legacy Member

Pieterjan94

Legacy Member

Riverdale27

Legacy Member

Lolplayer

Legacy Member