Testování hypotézy

Test statistických hypotéz je metoda statistického rozhodování o experimentálních datech a o nich. Testování nulových hypotéz jen odpovídá na otázku „jak dobře nálezy odpovídají možnosti, že by za to mohly být zodpovědné pouze náhodné faktory“. To se provádí položením a zodpovězením hypotetické otázky. Jedním z použití je rozhodnutí, zda experimentální výsledky obsahují dostatek informací, které by zpochybnily konvenční moudrost.

Jako příklad uveďme zjištění, zda kufr obsahuje nějaký radioaktivní materiál. Umístěn pod Geigerův počitadlo, produkuje 10 číslic za minutu. Nulová hypotéza je, že v kufru není žádný radioaktivní materiál a že všechny naměřené hodnoty jsou způsobeny okolní radioaktivitou typickou pro okolní vzduch a neškodné objekty v kufru. Pak můžeme spočítat, jak je pravděpodobné, že nulová hypotéza produkuje 10 číslic za minutu. Pokud je to pravděpodobné, například pokud nulová hypotéza předpovídá v průměru 9 číslic za minutu a směrodatnou odchylku 1 číslice za minutu, říkáme, že kufr je kompatibilní s nulovou hypotézou (což neznamená, že tam není žádný radioaktivní materiál, prostě to nemůžeme určit!); na druhou stranu, pokud nulová hypotéza předpovídá například 1 číslice za minutu a směrodatnou odchylku 1 číslice za minutu, pak kufr není kompatibilní s nulovou hypotézou a existují pravděpodobné další faktory zodpovědné za vznik měření.

Zde popsaný test je přesněji test statistické
významnosti nulové hypotézy. Nulová hypotéza je domněnka, která
existuje pouze proto, aby ji vzorek zfalšoval.
Statistická významnost je možné zjištění testu –
že vzorek pravděpodobně nevznikl náhodou vzhledem k
pravdivosti nulové hypotézy. Název testu popisuje jeho
formulaci a jeho možný výsledek. Jednou z charakteristik testu
je jeho rázné rozhodnutí: odmítnout nebo neodmítnout (což není totéž jako přijmout).
Vypočtená hodnota se porovná s prahovou hodnotou.

Lze se setkat s problémem definitivního rozhodnutí s ohledem na nejistou hypotézu, která je známá pouze díky svým pozorovatelným důsledkům.
Test statistických hypotéz, nebo stručněji test hypotéz, je algoritmus pro výběr mezi alternativami (pro nebo proti hypotéze), který minimalizuje určitá rizika.

Tento článek popisuje běžně používané frekvenční zacházení s testováním hypotéz.
Z bayesovského hlediska
je vhodné považovat testování hypotéz za zvláštní případ teorie normativního rozhodnutí (konkrétně problém výběru modelu) a je možné hromadit důkazy ve prospěch (nebo proti) hypotézy pomocí pojmů, jako jsou poměry pravděpodobnosti známé jako Bayesovy faktory.

Existuje několik příprav, které provádíme před pozorováním dat.

Poté, co jsou data k dispozici, je vypočtena testovací statistika a zjistíme, zda se nachází uvnitř kritické oblasti.

Pokud je statistika testu uvnitř kritické oblasti, pak náš závěr je jeden z následujících:

Výzkumník si musí vybrat mezi těmito logickými alternativami.
V příkladu bychom řekli: pozorovaná odpověď na léčbu je statisticky významná.

Pokud je testovací statistika mimo kritickou oblast, jediným závěrem je, že není dostatek důkazů k odmítnutí nulové hypotézy. To není totéž jako důkaz ve prospěch nulové hypotézy. To nemůžeme získat použitím těchto argumentů, protože nedostatek důkazů proti hypotéze pro ni není důkazem. Na tomto základě statistický výzkum postupuje tak, že odstraňuje chyby, nikoli hledáním pravdy.

Po expozici v Lehmann a Romano, budeme dělat některé definice:

Viz legenda definující symboly v dolní části tabulky. Statistiky některých dalších testů mají vlastní stránku na Wikipedii, včetně testu Wald a testu míry pravděpodobnosti.

(z je vzdálenost od průměru ve směrodatných odchylkách. Je možné vypočítat minimální podíl populace, která spadá do n směrodatných odchylek (viz: Čebyševova nerovnost).

Testování hypotéz je z velké části produktem Ronalda Fishera,
Jerzyho Neymana, Karla Pearsona a (syna) Egona Pearsona. Fisher
byl zemědělský statistik, který kladl důraz na důsledný
experimentální návrh a metody k získání výsledku z několika vzorků
za předpokladu Gaussova rozdělení. Neyman (který se spojil s
mladším Pearsonem) kladl důraz na matematickou přesnost a metody k získání
více výsledků z mnoha vzorků a širší škálu rozdělení.
Moderní testování hypotéz je
(rozšířený) hybrid formulace Fisher vs Neyman/Pearson, metod a
terminologie vyvinuté na počátku 20. století.

Následující příklad je shrnut z Fisher
Fisher důkladně vysvětlil svou metodu v navrhovaném experimentu k testování
Lady je tvrdil schopnost určit prostředky přípravy čaje podle
chuti. Článek je méně než
10 stran na délku a je pozoruhodný pro svou jednoduchost a úplnost
pokud jde o terminologii, výpočty a design experimentu.
Příklad je volně založen na události v Fisher život.
Lady mu ukázal, že se mýlil.

Pokud a pouze v případě, že 8 pokusů přineslo 8 úspěchů, byla Fisherová ochotná
nulovou hypotézu odmítnout – v podstatě uznala schopnosti Lady s
98% spolehlivostí (ale bez kvantifikace jejích schopností).
Fisherová později diskutovala o výhodách dalších pokusů a opakovaných
testů.

Malá kritika techniky se objevuje v úvodních
statistických textech. Kritika se týká spíše aplikace nebo
interpretace než metody.

Kritika testování významnosti null-hypothesis je dostupná
v jiných článcích (null-hypothesis a
statistická významnost) a jejich odkazech.
Útoky a obhajoby testu významnosti null-hypothesis jsou
shromážděny v Harlow et al.

Původním účelem Fisherovy formulace, jako nástroje pro
experimentátora, bylo naplánovat experiment a snadno vyhodnotit
informační obsah malého vzorku. Existuje jen málo kritiky,
bayesovské povahy, formulace v jejím původním kontextu.

V jiných souvislostech se stížnosti zaměřují na chybné interpretace
výsledků a přílišnou závislost/důraz na jeden test.

Četné útoky na formulaci ji nedokázaly nahradit jako
kritérium pro publikaci v odborných časopisech. Nejvíce
trvalých útoků pocházelo z oblasti psychologie.
Po přezkoumání Americká psychologická asociace výslovně neodsuzovala
používání testování významnosti nulových hypotéz, ale přijala
rozšířené publikační pokyny, které implicitně snižovaly relativní
význam takového testování.
Mezinárodní výbor editorů lékařských časopisů uznává
povinnost publikovat za určitých okolností negativní (statisticky nevýznamné)
studie.
Použitelnost testování nulových hypotéz na publikaci
observačních (na rozdíl od experimentálních) studií je pochybná.

Pro splnění pokynů Psychology Wiki’sstyle a v souladu s našimi zásadami ohledně NPOV a ověřitelnosti, prosím poskytněte příslušné citace a/nebo poznámky pod čarou.

Někteří statistici se vyjádřili, že čistě „testování významnosti“ má ve skutečnosti poněkud podivný cíl odhalit existenci „reálného“ rozdílu mezi dvěma populacemi. V praxi lze téměř vždy najít rozdíl při dostatečně velkém vzorku, co je typicky relevantnějším cílem vědy, je určení velikosti kauzálního efektu. Množství a povaha rozdílu, jinými slovy, je to, co by se mělo studovat. Mnoho výzkumníků má také pocit, že testování hypotéz je něco jako chybné pojmenování. V praxi jediný statistický test v jedné studii nikdy nic „nedokazuje“. [Jak odkazovat a odkazovat na shrnutí nebo text]

„Testování hypotéz: obecně řečeno, je to chybné pojmenování, protože
velká část toho, co je popisováno jako testování hypotéz, je ve skutečnosti
testování nulových hypotéz.“

„Statistiky nic nedokazují.“ „Miliardy podpůrných příkladů
pro absolutní pravdu jsou převáženy jedinou výjimkou.“ „…ve
statistikách se můžeme jen snažit vyvrátit nebo zfalšovat.“

I když odmítáte nulovou hypotézu, velikost efektu by měla být brána v úvahu. Pokud je efekt statisticky významný, ale velikost efektu je velmi malá, pak je na pováženou považovat efekt za teoreticky důležitý.[Jak na odkaz a odkaz na shrnutí nebo text]

Filosofická kritika testování hypotéz zahrnuje úvahu
o hraničních případech.

Jakýkoli proces, který produkuje ostré rozhodnutí z nejistoty, podléhá
tvrzením o nespravedlnosti v blízkosti rozhodovací hranice.
(Vezměme v úvahu těsné volební výsledky.) Předčasná smrt
laboratorní krysy během testování může mít dopad na doktorské práce
a rozhodnutí o akademické definitivě.
Clotho, Lachesis a Atropos ještě spřádají, spřádají a stříhají
nitky života pod rouškou Pravděpodobnosti.[Jak odkazovat a odkazovat na shrnutí nebo text]

„… jistě, Bůh miluje .06 skoro stejně jako .05“

Statistická významnost požadovaná pro publikaci nemá
matematický základ, ale je založena na dlouhé tradici.

„Je obvyklé a vhodné, aby experimentátoři brali 5% jako standardní
úroveň významnosti v tom smyslu, že jsou připraveni ignorovat
všechny výsledky, které nedosáhnou této úrovně, a tímto způsobem
vyloučit z další diskuse větší část výkyvů,
které náhodné příčiny vnesly do jejich experimentálních výsledků.“

Fisher v citovaném článku navrhl experiment k dosažení
statisticky významného výsledku na základě odběru 8 šálků čaje.

Rozpolcenost útočí na všechny formy rozhodování. Matematický
rozhodovací proces je atraktivní, protože je objektivní
a transparentní. Je odpudivý, protože autoritě umožňuje
vyhnout se osobní odpovědnosti za rozhodnutí.

Pedagogická kritika testování nulové hypotézy zahrnuje
kontraintuitivní formulaci, terminologii a zmatek
ohledně interpretace výsledků.

„Navzdory škrtivému sevření, které testování hypotéz v experimentální
psychologii má, je pro mě obtížné představit si méně bystrý způsob
přechodu od dat k závěrům.“

Pro studenty je obtížné porozumět formulaci
statistického testování nulových hypotéz. V rétorice příklady často podporují
argument, ale matematický důkaz „je logický argument, ne
empirický“. Jediný protipříklad vede k
odmítnutí domněnky. Karl Popper definoval vědu svou
zranitelností k dis-proof daty. Testování nulových hypotéz sdílí
matematickou a vědeckou perspektivu spíše známou
rétorickou. Studenti očekávají, že testování hypotéz bude statistickým nástrojem pro
osvětlení výzkumné hypotézy výběrem; Není.
Test se nepřímo ptá, zda vzorek může osvětlit
výzkumnou hypotézu.

Studenti také považují terminologii za matoucí. I když Fisher nesouhlasil s Neymanem a Pearsonem ohledně teorie testování, jejich terminologie byly smíchány. Směs není bezproblémová ani standardizovaná. I když tento článek učí čistě Fisherovu formulaci, i v něm je zmíněna Neymanova a Pearsonova terminologie (chyba typu II a alternativní hypotéza). Typický úvodní statistický text je méně konzistentní. Sage Dictionary of Statistics by nesouhlasil s názvem tohoto článku, který by nazval testováním nulové hypotézy.

„…neexistuje žádná alternativní hypotéza
ve Fisherově schématu: Vskutku, násilně se postavil proti jejímu zařazení
Neymanem a Pearsonem.“
V diskusi o výsledcích testů má
„význam“ často dva odlišné významy v jedné větě;
Jedním je pravděpodobnost, druhým je měření předmětu hmoty
(jako je měna). Význam (význam) (statistické) významnosti je
významný (důležitý).

V interpretaci
výsledků testů panuje široká a zásadní neshoda.

„Malé zamyšlení odhalí fakt, který je mezi statistiky široce pochopen: Nulová hypotéza, bráno doslova (a to je jediný způsob, jak ji můžete brát ve formálním testování hypotéz), je v reálném světě téměř vždy nepravdivá… Pokud je nepravdivá, byť jen v nepatrné míře, musí být pravda, že dostatečně velký vzorek přinese významný výsledek a povede k jeho odmítnutí. Pokud je tedy nulová hypotéza vždy nepravdivá, co je na jejím odmítnutí tak hrozného?“ (Výše uvedená kritika se vztahuje pouze na testy bodových hypotéz. Pokud by se testovalo například to, zda je nějaký parametr větší než nula, neplatilo by to.)

„Jak to, že prakticky neplodná technika testování hypotéz nabyla takového významu v procesu, kterým dospíváme k závěrům z našich dat?“

Testování nulových hypotéz jen odpovídá na otázku, „jak dobře nálezy
odpovídají možnosti, že by za to mohly
být zodpovědné pouze náhodné faktory“.

Testování významnosti nulové hypotézy neurčuje pravdivost nebo
nepravdivost tvrzení. Určuje, zda důvěra v tvrzení
založená pouze na odhadu založeném na vzorku překračuje prahovou hodnotu. Jedná se o
test kvality výzkumu, široce používaný jako jeden z požadavků pro
publikaci experimentálního výzkumu se statistickými výsledky.
Panuje jednotná shoda, že statistická významnost není jediným
hlediskem při posuzování důležitosti výsledků výzkumu.
Odmítnutí nulové hypotézy není dostatečnou podmínkou pro
publikaci.

„Statistická významnost nutně neznamená praktickou
významnost!“

Praktická kritika testování hypotéz zahrnuje vystřízlivění
pozorování, že publikované výsledky testů jsou často v rozporu.
Matematické modely podporují domněnku, že většina publikovaných
výsledků testů lékařského výzkumu je chybná. Testování nulových hypotéz nedosáhlo
cíle nízké pravděpodobnosti chyb v lékařských časopisech.

„Rozpor a zpočátku silnější efekty nejsou ve
vysoce citovaném výzkumu klinických intervencí a jejich výsledků neobvyklé.“

„Většina výzkumných nálezů je nepravdivá pro většinu výzkumných návrhů a pro
většinu oborů“

Jones a Tukey navrhli mírné vylepšení původní
null-hypothesis formulace formalizovat manipulaci s jednoocasými testy.
Fisher ignoroval případ 8-selhání (stejně nepravděpodobné jako případ 8-úspěch
případ) v příkladu čajový test, který změnil proklamovanou významnost
o faktor 2.

Killeen navrhl alternativní statistiku, která odhaduje
pravděpodobnost duplikace experimentálního výsledku. Poskytuje všechny
informace, které se nyní používají při hodnocení výzkumu, a zároveň se vyhýbá
mnoha nástrahám tradiční statistické dedukce.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese