Mann-Whitney U Sınaması

Kısaca: İstatistik bilim dalında Mann-Whitney U testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek için kullanılan bir parametrik olmayan istatistik testdır. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney testi) olarak da bilinmektedir. ...devamı ☟

İstatistik bilim dalında 'Mann-Whitney U'' testi niceliksel ölçekli gözlemleri verilen iki örneklemin aynı dağılımdan gelip gelmediğini incelemek için kullanılan bir parametrik olmayan istatistik testdır. Aynı zamanda Wilcoxon sıralama toplamı testi veya Wilcoxon-Mann-Whitney' testi) olarak da bilinmektedir. Bu testi ilk defa eşit hacimli iki örneklem verileri için Wilcoxon (1945) ortaya atmıştır. Wilcoxon,F. (1945) "Individual comparisons by ranking methods". Biometrics Bulletin, C.1, say.80-83. Sonradan, Mann and Whitney (1947) tarafından Mann,H.B. ve Whitney,D.R. (1947). "On a test of whether one of two random variables is stochastically larger than the other". Annals of Mathematical Statistics, C.18 Say.50-60 değişik büyüklükte iki örneklem problemleri analizleri için uygulanıp geliştirilmiştir. Değişik sıfır hipotezler Mann-Whitney U testi iki orneklem verilerini ele alip bu verilerin ayni anakutleden mi yoksa degisik iki anakutleden mi geldigi sorununu inceler. Ama bu test icin seklan biraz degisik problem sartlari ve on varsayimlar bulunmasi imkani vardir. Mann-Whitney testi icin en genis kullanisi icin sifir hipoteze veri olan iki orneklemin tek bir anakutleden geldigidir ve bu nedenle bu anakutle tek bir dgilim gosterir veya dagilimlar aynene esittir. Bu sinama icin iki orneklemin istatistiksel olarak birbirinden bagimsiz olmasi gerekir. Orneklem verileri icin olcme olcegi en zayif sekilde sirasal olcekli ya da niceliksel olarak aralikli olcekli veya orantili olcekli olmalidir. Bu varsayim yapilmasinin nedeni hic olmazsa iki gozelmin birbiriyle karsilastirinca hangisinin daha buyuk oldugunu bilmek mumkun olmasidir. Bu sekilde parametrik olmayan istatistik sinamanin parametrik istatistik sinama analogu iki ortalama arasindaki fark icin t-sinamasidir. Eger bu t-sinamasi icin iki orneklem de siralama sekilde sirasal olcekli veri kullaniliyorsa Mann-Whitney testi ile parametrik ortalamalar arasindaki fark icin t-sinamasi arasinde nerede ise hic fark olmayacaktir. Mann-Whitney sinamasi biraz degisik problem icin ve degisik sifir hipotez icin de uygulanabilir. Bu sekildeki sifir hipotez: bir anakutleden gelen orneklem veri ile ikinci anakutleden gelen bir baska veri arasindaki farkin 0,5 olmasidir. Bu degisik hipotez sinamasi icin iki anakutlenin dagilimlarin bir sabit kayma haricinde ayni oldugu varsailimaktadir. Yani eger f_1(x) birinci anakutleden f_2(x) anakutleden gelirse bu iki degisik orneklem degeri arasindaki iliski su oldugu f_1(x)=f_2(x+\delta) varsayilmaktadir. Ucuncu bir sekilde problem uygulamasi ve degisik anlamli bir sifir hipotez sinamanin Hodges-Lehman kestirimi olan iki anakutlenin merkezsel konum olculeri arasindaki farkin sifir olmasidir. Bu turlu iki-orneklemli problem icin Hodges-Lehman kestirimi birinci ve ikinci orbeklem arasindaki her bir veri gozlem farkinin medyanidir. Bu sekilde problem belirlenmesi halinde bircok kisi Mann-Whitney sinamasinin medyanlar arasindaki farki sinadigini onermektedirler; ancak bu kesin olarak dogru degildir. Her ne sekilde problem belirlenirse belirlensin genellikle Mann-Whitney sinamasi icin hipotezler soyle kurulur. Verileri elde bulunan iki orneklemin iki degisik anakutle A ve anakutle Bden geldigi dusunulsun. Bu sinama icin sifir hipotez (yani H0) A ve B anakutlerinin ayni dagilim gosterdigidir. Karsit hipotez H1 ise yonlu hipotez olan A anakutlesinin B anakutlesinden turel (en:stochastic) olarak daha buyuk oldugudur. H1 kabul edilirse A'dan elde edilen puanlar B'den elde edilen puanlardan 1/2 degerinde daha buyuktur. (Yani matematiksel bicimle eger a A'dan ve b B'den birer gozlem iseler p(a>b>)>(1/2)). Diger bir yonlu H1 hipotezi de (yani B'nin turel olarak A'dan daha buyuk olmasi da) sinanabilir. Cok kere hangi yonlu karsit hipotez secilecegi sorunda belirlenmemistir. Bu halde hacmi daha buyuk olan ya da orneklem hacimleri ayni ise ortalamasi daha buyuk olan orneklemin diger orneklemden daha buyuk oldugu H1 olarak kabul edilir. Hesaplama yöntemleri Bu sınama U adı verilen bir sınama istatistiğinin hesaplanmasını önerir. Sıfır hipotez altında U istatistiği için dağılım bilinmektedir. Küçük hacimli (yani 20den küçük verili) örneklemler için U dağılımı için bir tablo hazırlanmıştır. Fakat örneklem hacmi 20nin üzerinde ise normal dağılım kullanan çok iyi bir yaklaşım bulunmaktadır. Bazı istatistik kitapları U istatistiğinin analogu olan (bir orneklemdeki sıralama numaraları toplamlarını gösteren) tablolar da vermektedirler. Mann-Whitney U sinamasi modern komputer istatistik paketlerinin cogunda uygulandigi icin , eger bu paketlerden birisi el altinda ise, hesaplamalara hic hacet kalmadan sonuclar alini tefsir edilebilir. Ancak bu sinamanin nasil ve ne seklide yapildigi anlanmak istenirse, ornegin veri toplanip elle hesaplarin yapilmasi en iyi ogretici alettir. Ozellikle veri hacmi kucuk ise, Mann-Whitney U degeri el hesaplari ile kolayca bulunabilmektedir. Bu el hesabi ile Mann-Whitney U istatistigini bulmak icin iki biraz degisik yaklasim gerektiren yontem vardir: Eger orneklem hacmi kucukse (yani gozlem sayisi 20nin altinda ise) bir direkt yontem kullanilmasi cok hizli sonuc verdigi ve hesaplar yapilirken U istatistigin altinda yatan prensiplerin hemen anlasildigi icin, tavsiye edilir. *Eldeki iki orneklemi acele olarak gozden gecirdikten sonra siralamada genellikle daha kucuk gorunen orneklem baz orneklem olarak secilir ve buna Orneklem 1 adi verilir ve diger orneklem ise Orneklem 2 olarak adlandirilir. Bu secimi yapmanin tek nedeni hesaplarin biraz daha kolaystirilmasini saglamak icindir. *Orneklem 2'deki her bir veri tek basina alinir. Orneklem 1'de bulunan veriler bu veri degeri ile karsilastirilir. Her daha buyuk degere 1 puan ve her ayni degere 1/2 puan vererek, toplam puan sayisi kaydedilir. Bu islem butun Orneklem 2 elemanlari icin yapilir ve her eleman icin toplam puan bulunur. *Bu her eleman icin puanlarin tum elamanlar icin toplami U istatistigi degeri olur. Eger orneklem hacmi buyuk ise bir siralama duzeni kurulmasi ve bir formul kullanimi gereklidir. *Tum gozlemleri bir araya alarak (iki degisik orneklem oldugunu bu hesap icin unutarak) bir siralama duzeni elde edilir. Eger beraberlik varsa her bereaber degere ortalam siralama numarasi verme (yani (1 2,5 2,5 4)) stretejisi uygulanir. *Orneklemlerden biri keyfi olarak Orneklem 1 olarak secilir. Orneklem 1deki siralama numaralarinin toplami (R_1 olarak) bulunur. Beraberlik icin ozel (1 2.5 2.5 4) stratejisi uygulandigi icin her iki orneklem icin siralama numaralarinin toplaminin N (iki orneklemdeki toplam gozlem sayisi) oldugu bilinmektedir. N eksi Orneklem 1 siralama numaralari toplami Orneklem 2 siralama numaralari toplamini (yani R_2 = n - R_1) verir. *Iki tane formul kullanilarak iki U-istatistik adayi hesaplanir. Bunlardan U_1 Orneklem 1 icin gozlem sayisini ve toplam siralama numarasi sayisini; U_2 ise Orneklem 2 icin gozlem sayisini ve toplam siralama numarasi sayisini kulanir. Formuller sudur: ::U_1=R_1 - \,\! ::U_2=R_2 - . \,\! Burada n1 Orneklem 1 icin orneklem hacmi; R1 Orneklem 1 icin siralama numaralari toplami; n2 Orneklem 2 icin orneklem hacmi; R2 Orneklem 2 icin siralam numaralari toplami olur. Kontrol icin U1 ile U2 icin toplam alinir. Bu deger iki orneklem hacim sayilarinin carpimina esit olmalidir; yani ::U_1 + U_2 = n_1 n_2. \,\! *Bulunan U1 ve U2 degerlerinden kucugu hazirlanmis olan U-istatistigi anlamlilik tablosunda kullanilir. Normal yaklaşım Eğer örneklem hacimleri büyükse, anlamlılık düzeyini bulmak için şu standart normal dağılım yaklaşımı kullanılır: :z=(U-m_U)/\sigma_\,\! Burada z standart normal dağılım tablolarında kullanılan z-puanı; m_U ve \sigma_U ise, eğer sıfır hipotez doğruysa U için ortalama ve standart sapma olup şu formüllerle bulunurlar: :m_U=n_1 \cdot n_2 /2.\,\! :\sigma_U=\sqrt.\,\! Ancak örneklem verileri için sıralamada beraberlikler varsa bu değerlerin beraberlikler için düzeltilmesi gerekir. Fakat el hesaplanmalarında bu düzeltmeler çok defa kullanılmamaktadır; kompüter istatistik paket programları ise bu düzeltmeleri hemen rutin olarak yapmaktadırlar. Diğer sınamalara ilişki U test iki bağımsız örneklem için ortalamalar farkı için Student'in t-testi ile çok benzer şartlar bulunduğu zaman kullanılır. Bunlardan hangi sınamanın ne zaman kullanılması gerektiği sorusu hemen ortaya çıkmaktadır. Eğer veriler sırasal ölçekli ise U' testi, eğer örneklem verileri aralıksal veya oransal ölçekli ise genel olarak t-testi tercih edilmelidir. Ancak aralıksal veya oransal ölçekli veriler halinde, eğer örneklem verileri içinde bir veya ikiden çok 'dışlak değer varsa veya eğer anakütle dağılımlarının normal olmaktan çok uzak ve örneklem hacimlerinin yeter derecede büyük olduğu biliniyor ise yine parametrik olmayan U testi tercih edilir. Diğer taraftan bazı istatistikçiler, eğer iki örneklem birbirinden çok degişikse, U-testinin tercih edilmesi gerektiğini bildirirler. Ancak U-sınaması sıfır hipotez doğru ise iki örneklemin aynı dağılımdan geldiğini varsaymaktadır. Eğer iki örneklem değişik iki anakütle dağılımından gelmekte ise bu varsayıma göre hazırlanmış özel yaklaşımlı serbestlik dereceli t-testinın daha uygun sonuçlar vereceği isbat edilmiştir. Bu halde bazı istatistikçiler (örneğin Conover (1999)Conover,W.J. (1999), Practical Nonparametric Statistics (3ncu Ed.), New York: Wiley. ) verilerin sıralama düzenine koyulup sıralama numaraları için t-testi uygulanmasını tavsiye etmektedirler. U-testi diğer bazı parametrik olmayan istatistik analiz yöntemleri ile ilişkili bulunmaktadır. Eğer veriler iki değer (0-1)-alan isimsel ölçekli iseler, U istatistiği ve Kendall sıralamalı korelasyon katsayısı teorik olarak aynıdır. ρ adı verilen bir istatistik U istatistiği ile doğrusal olarak bağımlıdır. ρ iki dağılım için birbirine ne kısımda çakışdıklarını ölçen bir parametrik olmayan istatistik olup 0 ile 1 arasında değişmektedir. Eğer ρ=0,5 ise iki dağılım tam olarak birbirleri ile çakışmaktadır. Uç değerlerde, yani ρ=0 veya ρ=1 olursa, iki dağılım birbirine hiç dokunmamaktadır. ρ değeri Unun n1 × n2 ile bölünmesi sonucu elde edilmektedir. Örneğin ve sonuçlar İçsel kaynaklar *Wilcoxon işaretli-sıralama sınaması Referanslar } Dışsal kaynaklar * [2] ALGLIB C++, C#, Delphi, Visual Basic, vb. yazılımlı Mann-Whitney U sınaması uygulamasını kapsayan programlar kitaplığı. * Hollander,M. ve Wolfe,D.A. (1999), Nonparametric Statistical Methods (2nci Ed.), New York: Wiley. * Lehmann,E.L. (2006). Nonparametrics: Statistical Methods Based On Ranks, New York, Springer. * [3] Mann-Whitney U dağılımı için kritik değerler tablosu (pdf) * R istatistiksel program paketi Wilcoxon iki-örneklem sınaması adı altında wilcox.test bu sınamanın uygulamasıni kapsar. * Siegel,S. ve Castellan,N.J. (1988) Nonparametric Statistics for Behavioural Science (2nci rev.ed.), Nre York: McGraw Hill

Kaynaklar

Vikipedi

Bu konuda henüz görüş yok.
Görüş/mesaj gerekli.
Markdown kullanılabilir.