Archief - Regressie-analyse van mijn thesis (kuleuven)

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

clubje

Legacy Member
Hallo,

ik weet niet waarom ik dit hier post maar ik ben ten einde raad...
Ik ben laatstejaars TEW-er aan de KUL en ben volop bezig met mijn thesis. Ik heb maanden gezwoegd op theorie + dataverzameling en nu heb ik gisteren mijn eerste regressies 'gedraaid' (voor wie dit niet begrijpt kan nu best de thread verlaten :)).
Probleem: ik kwam volledig het tegenovergestelde uit van wat ik had verwacht + mijn variabelen zijn gezamenlijk NIET significant (dus F-statistiek onder de 1.96). De error-termen zijn ook niet normaal verdeeld.

Twee vragen:

- Is het erg om in een thesis resultaten uit te komen die niet stroken met je verwachtingen?
-Hoe krijg ik die gezamenlijke significantie omhoog? Door de error termen normaal verdeeld te laten zijn? Zoja, hoe?

damn 5 maand werk en dan dit :(

alvast merci

clubje

nite

Legacy Member
Niet dat echt een econometrie expert ben maar bon:
De theorie zegt dat die bepaalde variabelen wel in de regressie horen, maar je vindt ze niet gezamelijk significant. Je wil geen artikel gepubliceerd krijgen, maar je maakt een thesis dus zelfs als je niet iets interessants vind is da volgens mij ni zo een groot probleem. Zolang je assumpties, methode en vooronderzoek in orde zijn.

Probeer eens de variabelen apart te regresseren, zien of je dan niet iets beter uitkomt. Als je iets weglaat moet je dit natuurlijk wel kunnen verantwoorden.

Is je model wel juist gespecifieerd? Geen niet-lineaire schatting, of logs nodig? Mss helpt Weighted Least Squares voor die error termen. Anders moet je eens in de bib gaan opzoeken wat je aan die fouttermen kan doen.

nirwan

Legacy Member
clubje zei:
Hallo,
- Is het erg om in een thesis resultaten uit te komen die niet stroken met je verwachtingen?

clubje

Als je verwachtingen goed gefundeerd/doordacht zijn en je resultaten (die wel correct berekend moeten zijn) blijken totaal anders te zijn, is het toch juist interessant om uit te zoeken wat er juist aan de hand is!

Pas ook op dat je je resultaten niet begint te manipuleren zodat die meer en meer matchen met je verwachtingen.

zarathustra

Legacy Member
Als je een verklaring kan vinden voor het niet stroken met de verwachtingen (en niet 'omdat ik een fout gemaakt heb') dan is dat lijkt me zeer zeker een goed resultaat voor een thesis

boostah

Legacy Member
zarathustra zei:
Als je een verklaring kan vinden voor het niet stroken met de verwachtingen (en niet 'omdat ik een fout gemaakt heb') dan is dat lijkt me zeer zeker een goed resultaat voor een thesis

idd, dit is zelfs intressanter dan uit te komen wat je verwacht (empirisme beginsel, tis juist totdat ge iets fout vind, denk bv ook aan de 'ether' waarin men dacht dat licht zich verplaatste)

Martino86

Legacy Member
Het kan zijn dat er een inhoudelijke of formele specificatiefout zit in je model. Een test voor algemene misspecificatie is ramsey's reset test. Test eerst dit eens, dan weet je dat er ergens een fout zit. Anders zal je 'vrede' moeten nemen moet je resultaten.

Je zou ook eerst eens elke regressor beurtelings uit het model kunnen laten, hierdoor kan je mogelijk een irrelevante regressor vinden en deze eruit laten kan de significantie van de andere regressoren doen stijgen.

Check ook zeker of je de juiste formele specificatie hebt, misschien heb je een logfunctie ofzo nodig. Kijk ook adhv plots naar je geschat model om eventueel structuurbreuken of iets dergelijks te ontdekken, deze willen de boel wel eens vertekenen (dit kan je dan ook oplossen adhv dummy's).

succes

PS: heb je een joint significance f test gedaan (dus 1 keer met alle variabelen schatten en 1 keer zonder en zelf handmatig een f-statistiek berekenen)?

clubje

Legacy Member
Martino86 zei:
Het kan zijn dat er een inhoudelijke of formele specificatiefout zit in je model. Een test voor algemene misspecificatie is ramsey's reset test. Test eerst dit eens, dan weet je dat er ergens een fout zit. Anders zal je 'vrede' moeten nemen moet je resultaten.

Je zou ook eerst eens elke regressor beurtelings uit het model kunnen laten, hierdoor kan je mogelijk een irrelevante regressor vinden en deze eruit laten kan de significantie van de andere regressoren doen stijgen.

Check ook zeker of je de juiste formele specificatie hebt, misschien heb je een logfunctie ofzo nodig. Kijk ook adhv plots naar je geschat model om eventueel structuurbreuken of iets dergelijks te ontdekken, deze willen de boel wel eens vertekenen (dit kan je dan ook oplossen adhv dummy's).

succes

PS: heb je een joint significance f test gedaan (dus 1 keer met alle variabelen schatten en 1 keer zonder en zelf handmatig een f-statistiek berekenen)?

Ik zit eigenlijk niet met het feit dat mijn resultaten mijn theorie niet bevestigen, dat hoeft niet erg te zijn inderdaad. Ik zit meer met het feit dat ik bijna geen significante variabelen heb, mijn gezamenlijke significantie altijd op niks trekt en mijn error termen niet normal verdeeld zijn. Het model loopt gewoon mank :s


het probleem is - DENK ik - dat mijn error termen niet normaal verdeeld zijn. En wat ik ook doe, het blijft zo (hoe los je zoiets in godsnaam op? :s).
Wat ik ook vreemd vind: hoe meer variabelen ik inbreng hoe hoger mijn F-statistiek (en dus hoe insignificanter mijn gezamenlijke variabelen worden).
Wat betreft die log-transformatie: hoe zie je met welke variabelen je dat moet doen?

Feit is dat wij nooit een deftige cursus gekregen hebben hierover, maar wel een thesis moeten maken hé verdomme.

Dit begrijk ik niet:

"Kijk ook adhv plots naar je geschat model om eventueel structuurbreuken of iets dergelijks te ontdekken, deze willen de boel wel eens vertekenen (dit kan je dan ook oplossen adhv dummy's)."

en

"heb je een joint significance f test gedaan (dus 1 keer met alle variabelen schatten en 1 keer zonder en zelf handmatig een f-statistiek berekenen)?"

-> mijn geschat model doet automatisch een f-test

alvast merci voor de hulp 'k heb het nodig verdomme :(

clubje

Legacy Member
edit:
ik heb die Ramsey test gevonden, als ik die doe vraagt hij: "number of fitted terms"
Wat moet ik invullen?
Ik heb eens mijn aantal observaties ingevuld (97) en hij zegt: 'insufficient number of observations'

Mijn promoter zei: 100 observaties is genoeg...dus dat kan het probleem toch nie zijn?

Martino86

Legacy Member
clubje zei:
En wat ik ook doe, het blijft zo (hoe los je zoiets in godsnaam op? :s).
Wat ik ook vreemd vind: hoe meer variabelen ik inbreng hoe hoger mijn F-statistiek (en dus hoe insignificanter mijn gezamenlijke variabelen worden).
Wat betreft die log-transformatie: hoe zie je met welke variabelen je dat moet doen?

Meestal haal je dit uit andere papers, heb je geen referentiepapers die een zelfde soort model schatten?

clubje zei:
Dit begrijk ik niet:

"Kijk ook adhv plots naar je geschat model om eventueel structuurbreuken of iets dergelijks te ontdekken, deze willen de boel wel eens vertekenen (dit kan je dan ook oplossen adhv dummy's)."

je kan een grafiek (in spss toch) opvragen van de gestandaardiseerde residu's. Als je hier een systematisch patroon in herkent en bvb de residu's plots van een periode altijd negatief een periode altijd positief worden, dan kan je met een structuurbreuk te maken hebben

clubje zei:
en

"heb je een joint significance f test gedaan (dus 1 keer met alle variabelen schatten en 1 keer zonder en zelf handmatig een f-statistiek berekenen)?"

-> mijn geschat model doet automatisch een f-test

ik weet niet welk programma jij gebruikt, maar wij hebben zo'n significantietest "handmatig" leren doen, kan je wel zeggen hoe je dit doet indien nodig

clubje zei:
ik heb die Ramsey test gevonden, als ik die doe vraagt hij: "number of fitted terms"
Wat moet ik invullen?

Wederom hebben wij dit handmatig leren doen adhv een hulpequatie. Je schat je model en laat je geschatte waarden bijschrijven in je datasat. Vervolgens kwadrateer je deze. Dit wordt een nieuwe variabele. Vervolgens doe je het ook eens tot de 3e macht (noem het bvb fit2 en fit3). Dan schat je je model trg, maar neem je eveneens fit2 en fit3 op, indien fit2 en fit3 significant zijn heb je een specificatiefout

clubje

Legacy Member
Martino86 zei:
Meestal haal je dit uit andere papers, heb je geen referentiepapers die een zelfde soort model schatten?



je kan een grafiek (in spss toch) opvragen van de gestandaardiseerde residu's. Als je hier een systematisch patroon in herkent en bvb de residu's plots van een periode altijd negatief een periode altijd positief worden, dan kan je met een structuurbreuk te maken hebben



ik weet niet welk programma jij gebruikt, maar wij hebben zo'n significantietest "handmatig" leren doen, kan je wel zeggen hoe je dit doet indien nodig



Wederom hebben wij dit handmatig leren doen adhv een hulpequatie. Je schat je model en laat je geschatte waarden bijschrijven in je datasat. Vervolgens kwadrateer je deze. Dit wordt een nieuwe variabele. Vervolgens doe je het ook eens tot de 3e macht (noem het bvb fit2 en fit3). Dan schat je je model trg, maar neem je eveneens fit2 en fit3 op, indien fit2 en fit3 significant zijn heb je een specificatiefout

Ik gebruik eviews
Ik heb die ramsey test kunnen doen, de drie 'fit-' termen hebben p-waarde 0.48, 0.16 en 0.15 dus niet significant op 10 % - niveau
dat is alvast goed

ik vind gewoon het volgende vreemd: ik was ontevreden over mijn F-test (gezamenlijke significantie) maar toen zag ik dat, als ik variabelen wegdeed, dit steeds beter werd. Als ik dan een model had met 4 variabelen was die f-test ok, maarja 4 variabelen da kunt ge moeilijk een model noemen...

kzal es zien naar die log-waarden. Merde is wel dat ge van variabelen die negatieve waarden geen log kan nemen

grtz

Martino86

Legacy Member
clubje zei:
ik vind gewoon het volgende vreemd: ik was ontevreden over mijn F-test (gezamenlijke significantie) maar toen zag ik dat, als ik variabelen wegdeed, dit steeds beter werd. Als ik dan een model had met 4 variabelen was die f-test ok, maarja 4 variabelen da kunt ge moeilijk een model noemen...

als een variabele niets bijdraagt aan je model, dan steek je het er niet in, je variabelen dienen verklaringskracht te hebben, irrelevante variabelen toevoegen moet je vermijden. Een model met 4 variabelen is in sé niet slecht. Kijk ook of je fit (R²) toeneemt na verwijdering van variabelen.

Greetz

clubje

Legacy Member
Martino86 zei:
als een variabele niets bijdraagt aan je model, dan steek je het er niet in, je variabelen dienen verklaringskracht te hebben, irrelevante variabelen toevoegen moet je vermijden. Een model met 4 variabelen is in sé niet slecht. Kijk ook of je fit (R²) toeneemt na verwijdering van variabelen.

Greetz

R² kan nooit toenemen na verwijdering van variabelen, R² stijgt ALTIJD als je variabelen bijdoet (al is het soms weinig) ook al is die variabele niet nuttig. Nu...ik ben bezig met het experimenteren met logs en het lijkt beter te gaan

merci voor de hulp tot nog toe!

Martino86

Legacy Member
clubje zei:
R² kan nooit toenemen na verwijdering van variabelen, R² stijgt ALTIJD als je variabelen bijdoet (al is het soms weinig) ook al is die variabele niet nuttig.

nope, vorig jaar voorbeeld van gezien, waarbij er na verwijderen van hoop regressoren, fit toenam
edit: sry, heb et ff gecheckt, was in andere context, louter verwijderen zal nooit fit doen toenemen

uip

Legacy Member
clubje, kan je ergens een excel plaatsen met het cijfermateriaal? Je mag ook altijd een pm sturen, dan kijk ik er even naar.

clubje

Legacy Member
uip zei:
clubje, kan je ergens een excel plaatsen met het cijfermateriaal? Je mag ook altijd een pm sturen, dan kijk ik er even naar.

http://users.telenet.be/dries.heyte/excel/

Map1 is het 'opgekuiste' bestand, dat wil zeggen dat ik van bepaalde variabelen het 10 % percentiel en 90 % percentiel genomen heb en alle waarden die daaronder of boven kwamen aangepast naar het respectievelijke niveau, met andere woorden winsorizing.
Map2 is het ruwe bestand.

De afhankelijke variabele is "CAR1" en eventueel ook "CAR5" maar die laatste geeft geen goeie resultaten.
Belangrijk zijn de laatste 4 variabelen, de interactievariabele.
"privaat x intangibles" zou moeten positief zijn
"publiek x intangibles" zou moeten negatief zijn
"related x intangibles" zou moeten positief zijn
"stock x intangibles" zou moeten positief zijn.

het model:
car1 = constand + intangibles + privaat + privaat x intangibles
werkt vrij goed, maar als ik controlevariabelen toevoeg wordt het een stuk minder. Ook zijn er zoals hierboven besproken dus statistische problemen.
Het model met de interactievariabelen "related x intangibles" en "stock x intangibles" is sowieso moeilijk.

Hopelijk zie je er zaken in :)
alvast merci

Fighting Hobbit

Legacy Member
Ga je gewoon een lineaire regressie zoeken? Zo ja, check dan eens of je geen niet-lineaire fit kan vinden? Anders is het misschien wel handig om nog eens na te gaan of je alle uitschieters enzo eruit gegooid hebt en dergelijke, dat kan soms echt een vershcil maken.
Voor de rest denk ik dat je in een onderzoek zeker kan uitkomen dat iets tegenintuïtief is eigenlijk.

clubje

Legacy Member
Ja uitschieters eruit halen heb ik al gedaan.
Ik heb 97 observaties en ik heb van alle observaties de residuen bekeken en dan de 8 observaties met de grootste residuen eruit gedaan.
Gevolg: alle variabelen worden insignificanter en het model loopt nog manker

snap er niks van :s

clubje

Legacy Member
Weet iemand trouwens wat de white-correctie voor standaard-errors is? Dit zou zijn om variabelen minder vlug insignificant te laten worden?
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan