Klusteroitunut aineisto kahden ryhmän vertailussa
KAINULAINEN, HEIDI (2008)
KAINULAINEN, HEIDI
2008
Tilastotiede - Statistics
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2008-03-14
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-17808
https://urn.fi/urn:nbn:fi:uta-1-17808
Tiivistelmä
Havaintoaineisto voi koostua keskenään riippumattomista, homogeenisista osista, klustereista, joiden sisällä havainnot ovat keskenään riippuvia. Tässä tutkielmassa tarkastellaan klusteroitunutta aineistoa kahden ryhmän sijainnin vertailussa. Tunnetuimpia klassisia menetelmiä ovat kahden riippumattoman otoksen Studentin t-testi ja Wilcoxonin järjestyslukutesti. Klassinen tilastollinen päättely ei kuitenkaan huomioi klusterin sisäistä korrelaatiota ja antaa siten harhaanjohtavia tuloksia. Tutkielmassa esitellään uudet, klusteroidut versiot t-testistä sekä Wilcoxonin järjestyslukutestistä, joissa klusteroituneen, yksiulotteisen aineiston kahden ryhmän sijaintiongelmaa lähestytään uudella tavalla. Klusteroidut testit huomioivat klusterin sisäisen riippuvuuden estimaattorin varianssin estimoinnissa.
Klusteroituja ja klassisia menetelmiä vertaillaan simulointikokeissa testien voimakkuuksien avulla. Vertailu osoittaa, että klusteroituneen aineiston tilanteessa klusteroidut testit ovat valideja ja tehokkaampia kuin klassiset menetelmät. Tällöin perinteiset menetelmät osoittautuvat konservatiivisiksi tai ne antavat virheellisiä tuloksia eivätkä ole valideja testejä. Klusteroiduista testeistä Wilcoxonin testi on tehokkaampi kuin t-testi, jos jakauma on vino tai paksuhäntäinen. Lisäksi t-testi ei ole robusti vaan herkkä poikkeaville havainnoille.
Tutkimusaineisto koostuu Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskuksen järjestämän valtakunnallisen Kouluterveyskyselyn pääkaupunkiseudun koulujen kahdeksas- ja yhdeksäsluokkalaisten oppilaiden vastauksista vuodelta 2006. Havaintoyksikköjä on 17078. Empiirisen aineiston klustereina pidetään kouluja. Vastemuuttujana on nuorten masentuneisuusoireet, joiden mittaamisessa on käytetty Raimo Raitasalon Suomeen soveltamaa Mielialakyselyä, Beck Depression Inventory -indikaattoria. Havaitaan, että masentuneisuus riippuu sukupuolesta, liikuntaharrastuksista, vanhempien työttömyydestä, seksuaalikokemuksista, suhteesta vanhempiin ja suhteesta opettajiin.
Asiasanat: klusteri, klusterin sisäinen korrelaatio, Studentin t-testi, Wilcoxonin järjestyslukutesti
Klusteroituja ja klassisia menetelmiä vertaillaan simulointikokeissa testien voimakkuuksien avulla. Vertailu osoittaa, että klusteroituneen aineiston tilanteessa klusteroidut testit ovat valideja ja tehokkaampia kuin klassiset menetelmät. Tällöin perinteiset menetelmät osoittautuvat konservatiivisiksi tai ne antavat virheellisiä tuloksia eivätkä ole valideja testejä. Klusteroiduista testeistä Wilcoxonin testi on tehokkaampi kuin t-testi, jos jakauma on vino tai paksuhäntäinen. Lisäksi t-testi ei ole robusti vaan herkkä poikkeaville havainnoille.
Tutkimusaineisto koostuu Sosiaali- ja terveysalan tutkimus- ja kehittämiskeskuksen järjestämän valtakunnallisen Kouluterveyskyselyn pääkaupunkiseudun koulujen kahdeksas- ja yhdeksäsluokkalaisten oppilaiden vastauksista vuodelta 2006. Havaintoyksikköjä on 17078. Empiirisen aineiston klustereina pidetään kouluja. Vastemuuttujana on nuorten masentuneisuusoireet, joiden mittaamisessa on käytetty Raimo Raitasalon Suomeen soveltamaa Mielialakyselyä, Beck Depression Inventory -indikaattoria. Havaitaan, että masentuneisuus riippuu sukupuolesta, liikuntaharrastuksista, vanhempien työttömyydestä, seksuaalikokemuksista, suhteesta vanhempiin ja suhteesta opettajiin.
Asiasanat: klusteri, klusterin sisäinen korrelaatio, Studentin t-testi, Wilcoxonin järjestyslukutesti