Archief - De Wiskunde & Statistiek fanclub

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

AreVee

Legacy Member
Verder dan dat ik uit de grond van mijn hart hoop dat ik na volgend semester nooit na statistiek moet meemaken in mijn leven kom ik niet vrees ik :p.

Tom!

Legacy Member
Lolplayer zei:
Iemand nog een interessant wiskundig/statistisch weetje :cool: ?
De pipo die uit leedvermaak ooit begonnen is met mensen schrik aan te jagen voor vrijdag de 13e had ofwel toevallig goed gekozen, of was wiskundig minstens een beetje onderlegd. De 13e van een maand valt namelijk met een grotere kans op een vrijdag dan op eender welke andere weekdag :crazy:. Een minder sadistisch ingestelde persoon had het op een donderdag of zaterdag laten vallen, de dagen met de kleinste kans om samen te vallen met de 13e van een maand :woohoo:.

Tom!

Legacy Member
Lolplayer zei:
Onze kalender (met het systeem van schrikkeljaren: om de 4, behalve om de 100, maar wel weer om de 400) is periodiek met periode 400 jaar. In die periode van 400 jaar passen een geheel aantal weken en zijn er 12*400 = 4800 maanden. Dat is niet (geheel) deelbaar door 7 dus je kan al direct inzien dat de kans niet uniform kan zijn over de 7 weekdagen. Je kan dan het aantal maandagen, dinsdagen, ..., zondagen uitrekenen ('tellen') die op een 13e van een maand vallen en dat geeft resp. 685, 685, 687, 684, 688, 684, 687 keer. De kans dat de 13e van een maand op een vrijdag valt is dus 688/4800 = 14,333..% en dat is meer dan voor eender welke andere dag.

Lolplayer

Legacy Member
Een distributie van kansen dat eigenlijk een geschaalde (gepimpte) exponentiële distributie is en de populairste distributie voor "overlevingskansen" te modelleren (survival analysis)

Deze zijn dan de uberpopulaire parametrische weibull hazardmodellen. "weibull proportional hazard model"

Voor de rest werd ze niet vernoemd in de les.

Voor meer info is er altijd wikipedia :D

MrKend54l

Legacy Member
Lolplayer zei:
Een distributie van kansen dat eigenlijk een geschaalde (gepimpte) exponentiële distributie is en de populairste distributie voor "overlevingskansen" te modelleren (survival analysis)

Deze zijn dan de uberpopulaire parametrische weibull hazardmodellen. "weibull proportional hazard model"

Voor de rest werd ze niet vernoemd in de les.

Voor meer info is er altijd wikipedia :D

Dus jullie zijn niet verder ingegaan op survival analysis en hazard model?

Lolplayer

Legacy Member
MrKend54l zei:
Dus jullie zijn niet verder ingegaan op survival analysis en hazard model?

Met één model kan je geen cursus vullen he :p

Kort samengevat ging de cursus over

- Censoring
- Kaplan Meier
- Parametrische modellen +- 9 distributies waarvan Weibull 1
- Accelerated fail model als alternatief
- Cox regressie
- Modellen voor multiple failure and clustered failure data

Verder nog

- Berekenen van errors
- Hoe een model bouwen
- Vergelijkingscriteria van modellen (modellen evalueren)
- Fit onderzoeken
- Wiskunde blabla die het verschil aan toont met normale regressie
- Programmeren van de modellen

slvdndri

Legacy Member
Hallo,

Ik ben momenteel bezig met het verwerken van wat data voor mijn thesis. Ik heb een aantal getallen die in theorie gelijk zouden moeten zijn (stikstofbalans), maar uiteraard zit daar wat variatie op. Het gaat bijvoorbeeld om deze getallen:

145,32
142,30
141,07
140,19
142,64
141,77
139,36
140,88


Nu zou ik dus statistisch willen kijken of die getallen al dan niet gelijk zijn aan elkaar. Het enige programma waar ik tijdens mijn opleiding wat heb leren mee werken (al was ook dit heel beperkt) was SPSS, maar intussen is dit ook alweer een dikke 2 jaar geleden en zit dit wat ver. Welke soort test gebruik ik hier het beste voor? Het eerste wat zelf in mij opkwam was ANOVA, maar dat is eigenlijk om populatiegemiddeldes te vergelijken, terwijl mijn getallen allemaal alleenstaand zijn. Kan er iemand mij iemand dus gewoon kort zeggen welke test ik het best dien te gebruiken hiervoor?

Alvast bedankt! :)

Anoniem13

Legacy Member
Wat is je foutenmarge en welk getal is het echte? Excel kan wel afronden in een interval neem ik aan

Riverdale27

Legacy Member
slvdndri zei:
Hallo,

Ik ben momenteel bezig met het verwerken van wat data voor mijn thesis. Ik heb een aantal getallen die in theorie gelijk zouden moeten zijn (stikstofbalans), maar uiteraard zit daar wat variatie op. Het gaat bijvoorbeeld om deze getallen:

145,32
142,30
141,07
140,19
142,64
141,77
139,36
140,88


Nu zou ik dus statistisch willen kijken of die getallen al dan niet gelijk zijn aan elkaar. Het enige programma waar ik tijdens mijn opleiding wat heb leren mee werken (al was ook dit heel beperkt) was SPSS, maar intussen is dit ook alweer een dikke 2 jaar geleden en zit dit wat ver. Welke soort test gebruik ik hier het beste voor? Het eerste wat zelf in mij opkwam was ANOVA, maar dat is eigenlijk om populatiegemiddeldes te vergelijken, terwijl mijn getallen allemaal alleenstaand zijn. Kan er iemand mij iemand dus gewoon kort zeggen welke test ik het best dien te gebruiken hiervoor?

Alvast bedankt! :)

Over de individuele getallen kan je geen uitspraak doen. Dat zijn immers allemaal steekproeven van n = 1 en dus bestaat de variantie niet.

Wat je wel kan doen is, gegeven al je getallen, een range van gemiddelden bekomen die statistisch gezien niet te verwerpen zijn. Als je bijvoorbeeld een betrouwbaarheidsinterval berekend van al die getallen, dan zullen alle waarden in dat interval mogelijke kanshebbers zijn om het populatiegemiddelde te zijn.

slvdndri

Legacy Member
paradijsappel zei:
Wat is je foutenmarge en welk getal is het echte? Excel kan wel afronden in een interval neem ik aan

Euhm, het echte getal ken ik niet :p Laten we zeggen dat ik gewoon moet kijken of deze getallen aan elkaar gelijk zouden kunnen zijn met pakweg 95 % zekerheid (De getallen zijn een stikstofbalans. D.w.z. dat het de som is van nitraat, nitriet en ammonium en dit zou steeds constant moeten blijven gedurende mijn testen. Maar door meetfouten - of onvoorziene omstandigheden - kunnen die afwijken van elkaar. Maar om dus zeker te zijn dat de stikstofbalans in orde is zou ik dit statistisch willen schaven.)

Riverdale27 zei:
Over de individuele getallen kan je geen uitspraak doen. Dat zijn immers allemaal steekproeven van n = 1 en dus bestaat de variantie niet.

Wat je wel kan doen is, gegeven al je getallen, een range van gemiddelden bekomen die statistisch gezien niet te verwerpen zijn. Als je bijvoorbeeld een betrouwbaarheidsinterval berekend van al die getallen, dan zullen alle waarden in dat interval mogelijke kanshebbers zijn om het populatiegemiddelde te zijn.

Dit behoort idd tot een mogelijkheid, maar is moeilijk uit te voeren denk ik omdat ik niet veel getallen heb en dus moeilijk een range van gemiddelden kan maken. Ik heb meestal 8 getallen ofzo die ik moet vergelijken met elkaar (zoals hierboven getoond). En zo heb ik een stuk of 30 reeksen, maar die 30 reeksen zijn niet gelijk aan elkaar! Dus het lijkt me wat moeilijk om een range van gemiddelden te bepalen uit 8 getallen, neen?


Ik kan natuurlijk ook gewoon zeggen dat de stikstofbalans er oke uitziet op het eerste zicht, maar de perfectionist in mij wil dit statistisch schaven :p

Riverdale27

Legacy Member
slvdndri zei:
Euhm, het echte getal ken ik niet :p Laten we zeggen dat ik gewoon moet kijken of deze getallen aan elkaar gelijk zouden kunnen zijn met pakweg 95 % zekerheid (De getallen zijn een stikstofbalans. D.w.z. dat het de som is van nitraat, nitriet en ammonium en dit zou steeds constant moeten blijven gedurende mijn testen. Maar door meetfouten - of onvoorziene omstandigheden - kunnen die afwijken van elkaar. Maar om dus zeker te zijn dat de stikstofbalans in orde is zou ik dit statistisch willen schaven.)

Dat is exact wat is voorstelde. Bereken een betrouwbaarheidsinterval van het gemiddelde van al die getallen. Vervolgens kan je stellen dat ieder getal dat in die interval ligt een kanshebber is om het populatiegemiddelde te zijn.

Stel je hebt een 95% BI van [ X ; Y ], dan kan je stellen dat alle waarden tussen X en Y niet te verwerpen zijn als populatie gemiddelde. Bijv bij [95 ; 105] kan je statistisch gezien niet verwerpen dat alle getallen uit een verdeling komen met gemiddelde 0.

Dit behoort idd tot een mogelijkheid, maar is moeilijk uit te voeren denk ik omdat ik niet veel getallen heb en dus moeilijk een range van gemiddelden kan maken. Ik heb meestal 8 getallen ofzo die ik moet vergelijken met elkaar (zoals hierboven getoond). En zo heb ik een stuk of 30 reeksen, maar die 30 reeksen zijn niet gelijk aan elkaar! Dus het lijkt me wat moeilijk om een range van gemiddelden te bepalen uit 8 getallen, neen?

Wel die betrouwbaarheidsinterval zal inderdaad vrij breed zijn, zodat ze wellicht zullen overlappen over die 30 reeksen heen.

Ik vrees dat je statistisch gezien weinig kan zeggen over die data hoor.
Ik kan natuurlijk ook gewoon zeggen dat de stikstofbalans er oke uitziet op het eerste zicht, maar de perfectionist in mij wil dit statistisch schaven :p

Pieterjan94

Legacy Member
Ik ben mijn cursus data-analyse thuis vergeten:
Hoe moet je de F-waarde in een ANOVA test tussen van twee verschillende modellen met elkaar vergelijken? Hoe kleiner de F-waarde hoe statistisch waardevoller je model, of wat je omgekeerd?

Riverdale27

Legacy Member
Pieterjan94 zei:
Ik ben mijn cursus data-analyse thuis vergeten:
Hoe moet je de F-waarde in een ANOVA test tussen van twee verschillende modellen met elkaar vergelijken? Hoe kleiner de F-waarde hoe statistisch waardevoller je model, of wat je omgekeerd?

De F-toets is gewoon om te kijken of je factor in een ANOVA model significant is... m.a.w. is model 2 beter dan model 1:

model 1: respons = a + error
model 2: respons = a + b*factor + error

Model 1 is m.a.w. het model waarbij je gewoon het gemiddelde als beste schatter neemt, en in model 2 voegt je factor extra informatie toe. Bij een F-test hoort een p-waarde en dus kan je de hypothese testen dat model 2 beter is dan model 1.

Je kan echter niet (voor zover ik weet) F-waarden vergelijken tussen modellen heen. Eigenlijk is een F-waarde in het bovenstaande voorbeeld gelijk aan de gekwadrateerde t-statistiek van parameter b (t-statistiek = schatting/standaardfout). Ik weet zeker dat je de waarde van twee modellen niet kan vergelijken op basis van de t-statistiek, dus op basis van F-waarde concludeer ik dat het ook niet gaat.

Als je modellen wil vergelijken kan je dat doen met een R-squared, bijvoorbeeld.

Pieterjan94

Legacy Member
Riverdale27 zei:
De F-toets is gewoon om te kijken of je factor in een ANOVA model significant is... m.a.w. is model 2 beter dan model 1:

model 1: respons = a + error
model 2: respons = a + b*factor + error

Model 1 is m.a.w. het model waarbij je gewoon het gemiddelde als beste schatter neemt, en in model 2 voegt je factor extra informatie toe. Bij een F-test hoort een p-waarde en dus kan je de hypothese testen dat model 2 beter is dan model 1.

Je kan echter niet (voor zover ik weet) F-waarden vergelijken tussen modellen heen. Eigenlijk is een F-waarde in het bovenstaande voorbeeld gelijk aan de gekwadrateerde t-statistiek van parameter b (t-statistiek = schatting/standaardfout). Ik weet zeker dat je de waarde van twee modellen niet kan vergelijken op basis van de t-statistiek, dus op basis van F-waarde concludeer ik dat het ook niet gaat.

Als je modellen wil vergelijken kan je dat doen met een R-squared, bijvoorbeeld.

Ha oké bedankt! R squared is een pak logischer, even niet aan gedacht. Is er eigenlijk een vuistregel bij de R squared betreffende hoe groot die moet zijn vooraleer uw model als "goed" aanschouwd wordt?

Riverdale27

Legacy Member
Pieterjan94 zei:
Ha oké bedankt! R squared is een pak logischer, even niet aan gedacht. Is er eigenlijk een vuistregel bij de R squared betreffende hoe groot die moet zijn vooraleer uw model als "goed" aanschouwd wordt?

Ik geloof dat 30% zo'n grens is maar eerlijkgezegd: dat is vrij arbitrair hoor en erg afhankelijk van het domein en de onderzoeksvraag. Soms is 90% slecht, soms is 20% bijzonder goed. Alles hangt af van het echte onderliggende populatiemodel en hoe groot de variantie is in het genereren van uitkomsten.

Lolplayer

Legacy Member
Je had hem best ook verteld dat R square adjusted mss beter was of de AIC, aangezien R² altijd blijft stijgen als je maar variabelen bijneemt ongeacht of ze belangrijk zijn of niet :p
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan