Archief - Hulp met SPSS (PASW)!

Dr. Muerte · 28 mei 2010

Hoi,

Ik zit op dit moment volledig aan de grond. Ben bezig me statistische analyse voor de resultaten voor m'n thesis. Meer specifiek gaat het om lineaire regressie in SPSS (nu PASW). Ik heb een vrij uitgebreid aantal variabelen, wat het des te meer complex maakt om te werken met zulke data. Het komt erop neer dat ik muurvast zit en gewoon niet meer weet wat ik moet doen... In de lessen statistiek zie je natuurlijk alles heel mooi in theorie, maar de praktijk is net iets ingewikkelder.

Ik vroeg mij dus af of er iemand van jullie overweg kan met SPSS en kennis heeft van lineaire regressie, en mij hierbij kan helpen. Want ik ben eigenlijk ten einde raad.

Grtz

ClayDavis · 28 mei 2010

Een voorbeeld van een probleem dat je hebt?

Dr. Muerte · 28 mei 2010

hitman47 zei:
Een voorbeeld van een probleem dat je hebt?

Hmm, where to start...

Bv. als ik mijn model schat kom ik op insignificante brol uit. Ik kan m'n model nog niets eens interpreteren aangezien de sig. in de ANOVA-tabel op niks trekt. Over verklaringskracht moet 'k dus niet eens beginnen. Het ligt volgens mij aan het feit dat ik veel te veel variabelen heb in m'n model, met als gevolg een shitload aan multicollineariteit die alles verneukt. Maar hoe kan ik het beste zien welke variabelen relevant zijn voor mijn afhankelijke variabele? Hoe beslis ik welke variabelen ik al dan niet behoud?

Trouwens, mag ik eigenlijk wel enige output interpreteren (bv. Pearson-correlatie ofzo) als mijn model insignificant is (ANOVA-tabel)?

NoblesseOblige · 28 mei 2010

Dr. Muerte zei:
Maar hoe kan ik het beste zien welke variabelen relevant zijn voor mijn afhankelijke variabele? Hoe beslis ik welke variabelen ik al dan niet behoud?

Begin met een basisregressie, met daarin enkel die variabelen waarvan je ex ante verwacht dat ze een significante invloed zullen hebben. Je kan dan telkens variabelen toevoegen en dan zie je direct welke impact dat heeft.

Wat is de (adj) R^2 van uw model?

Dr. Muerte · 28 mei 2010

God_Of_Death zei:
Begin met een basisregressie, met daarin enkel die variabelen waarvan je ex ante verwacht dat ze een significante invloed zullen hebben. Je kan dan telkens variabelen toevoegen en dan zie je direct welke impact dat heeft.

Wat is de (adj) R^2 van uw model?

Adj. R² is de verklaringskracht van uw model. Het percentage dat wordt verklaard door de variantie in de variabelen.

En wat bedoel je precies met "welke impact dat heeft"? Naar wat moet ik dan kijken? Als die variabele niet significant is, mag ik 'm der dan gewoon uit laten?

eXtreme · 28 mei 2010

YouTube - computer les in het west-vlaams

Oh no he didn't..!!

NoblesseOblige · 28 mei 2010

Dr. Muerte zei:
Adj. R² is de verklaringskracht van uw model. Het percentage dat wordt verklaard door de variantie in de variabelen.

En welke waarde heeft het? Een regressie is niet slecht omdat de R^2 bv. maar 0,2 is. Zolang je geen kwantitatieve voorspelling wil doen, maar eerder wil nagaan of de impact positief of negatief is, kan het niet veel kwaad.

Dr. Muerte zei:
En wat bedoel je precies met "welke impact dat heeft"? Naar wat moet ik dan kijken? Als die variabele niet significant is, mag ik 'm der dan gewoon uit laten?

Je probeert eerst een eenvoudige regressie waarin enkel de meest interessante variabelen zitten. Je kijkt naar de R^2, je maakt een plot van de residuen (homoscedatisch etc?), je kijkt naar de t-statistieken (of p-waarden ervan) welke variabelen significant zijn, je gaat multicollineariteit na,... . Variabelen met echt kleine t-statistieken (hoge p-waarden) laat je er uit.

Dan voeg je een variabele toe, en je kijkt wat de invloed is op voorgaande. Is er nu sprake van multicollineairiteit, heteroscedasticiteit,...?

Dr. Muerte · 28 mei 2010

God_Of_Death zei:
En welke waarde heeft het? Een regressie is niet slecht omdat de R^2 bv. maar 0,2 is. Zolang je geen kwantitatieve voorspelling wil doen, maar eerder wil nagaan of de impact positief of negatief is, kan het niet veel kwaad.

Je probeert eerst een eenvoudige regressie waarin enkel de meest interessante variabelen zitten. Je kijkt naar de R^2, je maakt een plot van de residuen (homoscedatisch etc?), je kijkt naar de t-statistieken (of p-waarden ervan) welke variabelen significant zijn, je gaat multicollineariteit na,... . Variabelen met echt kleine t-statistieken (hoge p-waarden) laat je er uit.

Dan voeg je een variabele toe, en je kijkt wat de invloed is op voorgaande. Is er nu sprake van multicollineairiteit, heteroscedasticiteit,...?

Oei sorry, ik dacht dat je niet wist wat adj. R² was. Mijn excuses

Maar over de adj. R² maak ik me idd niet te veel zorgen.

Variabele per variabele regresseren op je afh. var is bij mij onbegonnen werk, ik zit in totaal met 52 variabelen. :crazy:

Heteroskedasticiteit is afwezig volgens mij. Er is wel een soort 'patroon' (allemaal evenwijdige puntenlijnen), maar is dit niet te verklaren door het feit dat ik praktisch met allemaal likertschalen heb gewerkt (1 tot 7)? Maar er is geen typisch 'uitwaaierend' patroon, dat heteroskedasticiteit kenmerkt.

Het probleem blijft hetzelfde volgens mij: op wat moet ik me baseren om te beslissen welke variebelen ik weglaat en welke opneem in de regressie.

subsunday · 28 mei 2010

Dr. Muerte zei:
Oei sorry, ik dacht dat je niet wist wat adj. R² was. Mijn excuses Maar over de adj. R² maak ik me idd niet te veel zorgen.

Variabele per variabele regresseren op je afh. var is bij mij onbegonnen werk, ik zit in totaal met 52 variabelen.

Heteroskedasticiteit is afwezig volgens mij. Er is wel een soort 'patroon' (allemaal evenwijdige puntenlijnen), maar is dit niet te verklaren door het feit dat ik praktisch met allemaal likertschalen heb gewerkt (1 tot 7)? Maar er is geen typisch 'uitwaaierend' patroon, dat heteroskedasticiteit kenmerkt.

Het probleem blijft hetzelfde volgens mij: op wat moet ik me baseren om te beslissen welke variebelen ik weglaat en welke opneem in de regressie.

Misschien dat dit al te lang geleden is voor mij en ik de bal missla, maar kan je niet dmv van de stepwise methode te kiezen SPSS min of meer laten bepalen welke variabelen hij opneemt om de beste fit voor je model geven met enkel significante variabelen in het uiteindelijk model?

Soit, mss ben ik mis en verandert dit niets aan uw probleem of hebt ge zelfs al de stepwise methode gebruikt.

Dr. Muerte · 28 mei 2010

subsunday zei:
Misschien dat dit al te lang geleden is voor mij en ik de bal missla, maar kan je niet dmv van de stepwise methode te kiezen SPSS min of meer laten bepalen welke variabelen hij opneemt om de beste fit voor je model geven met enkel significante variabelen in het uiteindelijk model?

Soit, mss ben ik mis en verandert dit niets aan uw probleem of hebt ge zelfs al de stepwise methode gebruikt.

Ja, maar je moet wel van een theoretisch kader uitgaan waarin je verwacht dat bepaalde variabelen een positieve of negatieve invloed hebben op je afhankelijke var... En dan met de Enter-methode gebruikt worden.

Toch bedankt voor je reactie!

subsunday · 28 mei 2010

Dr. Muerte zei:
Ja, maar je moet wel van een theoretisch kader uitgaan waarin je verwacht dat bepaalde variabelen een positieve of negatieve invloed hebben op je afhankelijke var... En dan met de Enter-methode gebruikt worden.

Toch bedankt voor je reactie!

Hmm, en in jouw geval zijn dat meteen 52 variabelen volgens het theoretisch kader? Kan je jouw variabelen niet herleiden via een factoranalyse tot een kleiner aantal variabelen?

Btw: Het is toch geen absolute voorwaarde om eerst Enter-methode te gebruiken? Stepwise-methode etc. is toch gewoon een keuze die je maakt in je onderzoeksopzet. Ik herinner mij toch niet dat daar absolute voorwaarden aan gekoppeld waren.

Dat bepaalde variabelen dan uiteindelijk eruit gelaten worden omdat ze niet passen het model omwille van geen significantie in jouw onderzoek, lijkt mij niet in te gaan tegen het theoretisch kader waar je van bepaalde veronderstelling uitgaat. Het zegt enkel dat die variabelen in jouw geval niet significant genoeg zijn om op te nemen in het model of uitspraken over te doen. Maar zoals ik zei, het is voor mij ondertussen toch al 2-3 jaar geleden dat ik dit in detail heb gezien.

NoblesseOblige · 29 mei 2010

Dr. Muerte zei:
Het probleem blijft hetzelfde volgens mij: op wat moet ik me baseren om te beslissen welke variebelen ik weglaat en welke opneem in de regressie.

Je moet in je thesis niet schrijven "van de 52 variabelen kies de ik volgende...". Want dan volgt inderdaad de vraag, waarom die variabelen? Men hoeft ook niet te weten dat je er 52 hebt. Het 'probleem' is niet het regresseren, maar van welke variabelen je vertrekt (niet van de oorspronkelijke 52

).

Eerst bepaal je welke effecten je verwacht dat bepaalde aspecten op de te verklaren variabele hebben (op basis van voorgaande literatuur, gezond verstand), en dan kijken welke variabelen deze aspecten vatten.

Je kan bijvoorbeeld werken met hypothesen. Hypothese 1:"We verwachten dat eerdere, negatieve ervaringen een significant negatieve invloed hebben op online aankoop gedrag... ", Hypothese 2: "We verwachten een negatief verband tussen de leeftijd en...".

En dan zet je in de tekst "De variabele NEGERV neemt de waarde 1 aan wanneer men reeds een negatiever ervaring had, en 0 otherwise", "De variabele AGE is de leeftijd", "we controleren voor..." . Op die manier kies je uit de 52 variabelen (hoogstens) 5-10 interessante variabelen. Het schatten zal direct een stuk vlotter gaan.

Pas daarna begin je te regresseren. En op basis van die resultaten kan je de hypothesen bevestigen/verwerpen. "De variabele is negatief en significant op het 5% significantieniveau/maar niet significant...".

Is er geen paper die min of meer hetzelfde deed als wat jij nu doet? Want ik moet wel zeggen dat ik niet veel ervaring heb met steekproefdata.

Genious · 29 mei 2010

Dr. Muerte zei:
Heteroskedasticiteit is afwezig volgens mij. Er is wel een soort 'patroon' (allemaal evenwijdige puntenlijnen), maar is dit niet te verklaren door het feit dat ik praktisch met allemaal likertschalen heb gewerkt (1 tot 7)? Maar er is geen typisch 'uitwaaierend' patroon, dat heteroskedasticiteit kenmerkt.

Toch maar even vragen om zeker te wezen: je afhankelijke variabele is toch niet toevallig een nominale variabele? (bijvoorbeeld een dummy)

Dr. Muerte zei:
Het probleem blijft hetzelfde volgens mij: op wat moet ik me baseren om te beslissen welke variebelen ik weglaat en welke opneem in de regressie.

En welke variabelen je al dan niet opneemt, dat hangt wat af van uw onderzoeksvraag he. Als ge vertrekt vanuit een model, dan neemt ge alle variabelen van dat model er in op. En dan bespreekt ge waar uw resultaten het model bevestigen en waar ze tegenspreken.

Als ge poogt iets te ontdekken, dan neemt ge enkel de significante op lijkt me. (via een stepwise bvb)
En als dat er te veel zijn, neem dan enkel degene op waarvoor ge een uitleg klaar hebt. (zoals god of death zei, wat weten zei dat ge bevraagd hebt)

Naargelang wat uw variabelen eigenlijk zijn, kan een factor analyse u misschien een heel eind brengen, zoals subsunday suggereerde.

Troj · 29 mei 2010

Ik dacht ook onmiddellijk aan een factoranalyse toen ik u over uw variabelen hoorde beginnen.

Overigens: als je je hele model invoert, welke R² en welke significantie kom je dan uit voor het hele model?

Dr. Muerte · 29 mei 2010

@ Genious: Nee, afh. var is ook gemeten via een schaal, waarbij aan elke antwoordmogelijkheid een numerieke waarde wordt toegekend (in logische volgorde of course). Ik moet dus geen logistische regressie gebruiken.

En als ik alle variabelen opneem kan ik niks interpreteren. Ik krijg dan een een negatieve adj R² en de significantie in mijn ANOVA-tabel is groter dan 0.10 (ik hanteer een 10%-steekproeffout). Dus ik mag het model zelfs niet interpreteren...

Kan ik het niet zo doen: eerst eens schatten met Stepwise om te zien welke van de controlevariabelen significant zijn (want de variabelen voor mijn hypothesen zijn bijna allemaal sign). Dan alleen nog de demografische controlevariabelen toevoegen en zien dat ik nog altijd onder de 0.10 zit in ANOVA. Er is in veel gevallen slechts 1 van de andere controlevariabelen die significant is (van de 50!). Kan ik niet zeggen dat ik de rest weglaat omdat ze toch geen sign invloed hebben en het model en de andere parameters vertekenen omwille van multicoll.?

PS: ik gebruik reeds gevalideerde constructen uit andere onderzoeken. Dus een factoranalyse is niet nodig denk ik. Mijn promotor heeft hier ook niets over vermeld dus...

Genious · 29 mei 2010

Kunt ge anders eens een afbeeldingske maken en online zetten ivm die heteroscedasticiteit, want ik ben wel nieuwsgierig.

En begrijp ik u goed dat als ge telkens maar 1 variabele beschouwd, die significant is, maar als ge ze allemaal samen doet, er nog steeds maar 1 of hooguit enkele als significant worden bevonden?

Zoiets lijkt me te suggereren dat er sterke correlatie zit tussen uw variabelen wat hint naar een methodologisch probleem in de wijze waarop ge de data vergaard hebt. (common method bias, onduidelijke definities, vragen die bijna synoniemen zijn, maar niet in een construct zijn samen genomen etc...)

Probeer anders toch eens een factor analyse (kan u wel ppt bezorgen over wat en hoe) en smijt er al uw variabelen in.
Als uw eerste factor enorm veel variabelen omvat en/of enorm veel van de variantie verklaart, zit ge mogelijks met common method bias probleem. Dat zou ge wel met een truc deels kunnen wegwerken. (en ik denk dat ik nog ergens een paper heb liggen die de truc verantwoord

)

ps: misschien moet ge eens wat resultaten van uw testen posten. :unsure:

Archief - Hulp met SPSS (PASW)!

Dr. Muerte

Legacy Member

ClayDavis

Legacy Member

Dr. Muerte

Legacy Member

NoblesseOblige

Legacy Member

Dr. Muerte

Legacy Member

eXtreme

Legacy Member

NoblesseOblige

Legacy Member

Dr. Muerte

Legacy Member

subsunday

Legacy Member

Dr. Muerte

Legacy Member

subsunday

Legacy Member

NoblesseOblige

Legacy Member

Genious

Legacy Member

Troj

Legacy Member

Dr. Muerte

Legacy Member

Genious

Legacy Member