Gipotezalarni sinash

Python-dan foydalanib, farazlarni tekshirish bo'yicha oddiy va qisqacha darslik

Rasm: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Ushbu blogda Pythonda Statistik usullardan foydalangan holda Gipotezalarni sinash bo'yicha qisqacha darslikni beraman. Gipotezani sinash biz barchaga tanish bo'lgan ilmiy usulning bir qismidir, ehtimol biz erta o'quv yillarida o'rgangan edik. Biroq, statistikada ko'plab eksperimentlar populyatsiya tanlovi asosida amalga oshiriladi.

¬ęKuzatuvlarning namunaviy to'plami taklif qilinayotgan tushuntirish haqida nimani anglatishini aniqlash, umuman olganda, biz aniqlanmagan xulosani talab qiladi yoki biz buni statistika mutaxassislari aytganidek, noaniqlik sababiga ko'ra. Noaniqlik bilan mulohaza qilish statistik ma'lumotlarning asosini tashkil etadi va odatda Null Gipoteza ahamiyatini sinash deb nomlangan usul yordamida amalga oshiriladi. " -Ovenlar.

Ushbu blogga misol sifatida men Kaggle-dan topilgan Evropa futbol ma'lumotlari to'plamidan foydalanaman va gipoteza testini o'tkazaman. Ma'lumotlar bazasini bu erda topish mumkin.

1-qadam

Kuzatuv qiling

Birinchi qadam - hodisalarni kuzatish. Bunday holda, shunday bo'ladi: mudofaa tajovuzining o'rtacha ruxsat etilgan maqsadlarga ta'siri bormi?

2-qadam

Tadqiqotni ko'rib chiqing

Yaxshi fikrlash bu oson ish emas. Buning yaxshi tomoni shundaki, sizning kuzatuvingizga tegishli tadqiqotlar mavjudmi yoki yo'qmi. Agar shunday bo'lsa, bu bizning savolimizga javob berishda yordam berishi mumkin. Mavjud tadqiqotlar yoki tajribalar haqida xabardor bo'lish, tajribamizni yaxshiroq tuzishga yordam beradi yoki, ehtimol, bizning savolimizga javob beradi va birinchi navbatda tajribani o'tkazish shart emas.

3-qadam

Null gipotezasini va muqobil farazni shakllantirish

Muqobil gipoteza - bu bizning ma'lumotli taxminimiz va nol gipoteza aksincha. Agar muqobil gipoteza ikkita o'zgaruvchi o'rtasida muhim bog'liqlik mavjud bo'lsa, nol gipoteza muhim munosabatlar mavjud emasligini aytadi.

Bizning Null Gipotezamiz quyidagicha bo'ladi: 65 dan past bo'lgan jamoalarga nisbatan 65 dan yuqori yoki unga teng bo'lgan tajovuzkor mudofaa reytingi bo'lgan jamoalarda kiritilgan gollarda statistik tafovut yo'q.

Muqobil gipoteza: 65 dan past yoki teng bo'lgan mudofaa tajovuzkor reytingiga ega bo'lgan jamoalar tomonidan kiritilgan gollar bo'yicha statistik tafovut mavjud.

4-qadam

Bizning farazimiz bir tomonlama yoki ikki qanotli sinov ekanligini aniqlang.

Bir qanotli sinov

"Agar siz 0,05 ahamiyatlilik darajasidan foydalansangiz, bir tomonli test sizning barcha alfavitlaringizga statistik ahamiyatni qiziqish yo'nalishi bo'yicha sinashga imkon beradi." Bir martalik testning misoli sifatida "65 dan past bo'lgan tajovuzkorlik reytingiga ega bo'lgan futbol jamoalari, reytingi 65dan past bo'lgan jamoalarga qaraganda statistik jihatdan sezilarli darajada ko'proq gol urishlari mumkin."

Ikki qanotli sinov

"Agar siz 0,05 ahamiyatlilik darajasidan foydalansangiz, ikki qanotli test alfangizning yarmini statistik ahamiyatni bir yo'nalishda sinashga va alfaning yarmini boshqa yo'nalishda statistik ahamiyatini sinashga imkon beradi. Bu sizning test statistikangizni tarqatishning har bir qismida 0.025 degan ma'noni anglatadi. "

Ikki qanotli test bilan siz ikkala yo'nalishda ham statistik ahamiyatga ega bo'lishni sinab ko'rmoqdasiz. Bizning holatlarimizda ikkala yo'nalishda ham statistik ahamiyatni sinab ko'rmoqdamiz.

5-qadam

Maksimal chegara darajasini belgilash (alfa)

(alfa qiymati): nol gipotezani rad etgan holda biz yaxshi bo'lgan chegara chegarasi. Alfa qiymati 0 dan 1 gacha bo'lgan har qanday qiymat bo'lishi mumkin. Ammo alfa qiymatining eng keng tarqalgan qiymati bu 0,05. 0,05 ga teng bo'lgan alfa natijalar tasodifiy bo'lishi sababli 5% yoki undan kam imkoniyat mavjud bo'lsa ham, nol gipotezani rad etganimiz ma'qul.

P-qiymati: Ushbu ma'lumotlarga tasodifiy ravishda kelish ehtimolligi.

Agar p-qiymatni hisoblasak va u 0.03 ga teng bo'lsa, biz buni "men ko'rgan natijalarning tasodifiylik yoki sof omad tufayli yuzaga kelgan 3% imkoniyat bor" deb izohlashimiz mumkin.

Learn.co saytidan olingan rasm

Bizning maqsadimiz p-qiymatini hisoblash va uni bizning alfavitimiz bilan taqqoslash. Alfa qancha past bo'lsa, test shunchalik qattiqroq bo'ladi.

6-qadam

Namuna olishni amalga oshiring

Bu erda bizning ma'lumotlarimiz "futbol" deb nomlangan. Sinov uchun biz ma'lumotlar to'plamida faqat ikkita ustunga muhtojmiz: team_def_aggr_rating va gollar_allow. Biz ushbu ikki ustunga filtrlab qo'yamiz, so'ngra tajovuzkor himoyalanish reytingi 65 dan yuqori yoki unga teng bo'lgan guruhlar va 65 dan past bo'lgan mudofaa hujumlari reytingi bo'lgan jamoalar uchun ikkita kichik to'plam yaratamiz.

Bizning gipotezamiz sinovini o'tkazish uchun kifoya:

Mudofaa tajovuzining o'rtacha ruxsat etilgan maqsadlarga ta'siri. Null gipotezasi: 65 dan past bo'lgan guruhlarga nisbatan mudofaa tajovuzi reytingi 65 dan yuqori yoki teng bo'lgan jamoalar tomonidan kiritilgan gollar bo'yicha statistik tafovut yo'q. Alternativ gipoteza: Himoyachilarning tajovuzkor reytingi yuqori bo'lgan jamoalarda ruxsat etilgan statistik tafovut mavjud. 65 dan past bo'lgan jamoalarga nisbatan 65 ga teng. Ikki qanotli Alpha: 0.05

Endi bizda statistik testlarni o'tkazish uchun ikkita namunaviy ro'yxat mavjud. Ushbu qadamdan oldin, men vizual olish uchun ikkita tarqatishni rejalashtiraman.

7-qadam

Ikki namunali T-testni o'tkazing

Ikki namunali t-test ikkita populyatsion vositalarning tengligini aniqlash uchun ishlatiladi. Buning uchun biz statsmodel deb nomlangan Python modulidan foydalanamiz. Men statsmodellar haqida juda ko'p tafsilotlarni bilmayman, ammo bu erda hujjatlarni ko'rishingiz mumkin.

8-qadam

Baholang va xulosa qiling

Eslatib o'tamiz, biz belgilagan alfa a = 0.05. Sinov natijalarimizdan ko'rinib turibdiki, p-qiymati alfavitimizdan past. Biz nol farazimizni rad eta olamiz va 95% ishonch bilan muqobil farazimizni qabul qilamiz.

O'qiganingiz uchun tashakkur! Gipotezalarni tekshirish bo'yicha chuqurroq ma'lumot olish uchun siz ushbu guruhning loyihasini GitHubda sinab ko'rishingiz mumkin.

Resurslar:

Pechlar, Metyu. "Statistika va" ilmiy usul "YourStatsGuru-dan olingan. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

SASga kirish. UCLA: Statistik konsalting guruhi. https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differents-between-one-tailed-and-two-tailed-tests/ (may oyida olingan 16, 2019).

Muhandislik statistikasi bo'yicha qo'llanma. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm