Valg af nulhypotese ved hypotesetest af andel (PNVA?)

07-03-2015 18:57 #1| 0

birdshake

Tilmeldt: 2008

Indlæg: 4169

Hey PN,

Jeg ved at der sidder en masse matematisk begavede folk herinde så jeg håber i kan hjælpe. Der er tale om simpel statistik, men alligevel sidder jeg og second-guesser mig selv, og google gør mig ikke mindre fortvivlet.

Jeg skal lave Hypotesetest af populationsandele ud fra en stikprøve, det er dog ikke ifm. en normal statistik opgave, men derimod en tværfaglig opgave hvori jeg selv har opstillet hypoteser som jeg så skal be- eller afkræfte på baggrund af stikprøvedata jeg selv har indsamlet. Mine hypoteser er opsat inden dataindsamlingen og baseret på helt arbitrære "guesstimates". Lad mig give et eksempel:

Hypotese 1:

Størstedelen af PNs brugere er mænd.

Jeg har så spurgt 111 tilfældige PN'ere om hvilket køn de er, og finder ud af at 47 er mænd mens 64 er kvinder. (urealistisk resultat samt lille sample size, i know)

47 / 111 = 42,3%

Normalt ville jeg så bare sætte hypoteserne sådan op:

H0 (nulhypotesen): p ≥ 0,501 ("Størstedelen" altså mere end 50%.)

H1 (alternativhypotesen): p < 0,501

Testes dette på 5% testniveau vil p-værdien (også kaldet signifikanssandsynligheden) være 0,051 - altså en smule højere end vores testniveau og lige akkurat ikke nok til at forkaste nulhypotesen. En konklusion ville lyde noget ala:

Såfremt stikprøven er repræsentativ for populationen, accepteres nulhypotesen og vi kan dermed (på 5% testniveau) bekræfte/ikke afvise at størstedelen af PNs brugere er mænd.

Jeg tænker så bare om det ikke giver mere mening at bytte om på den "normale" opsætning af nul- og alternativhypotesen efter man ser at stikprøven peger i retning af alternativhypotesen eller at "hypotese 1" er ikke er sand. Altså stille det op sådan her:

H0: p ≤ 0,5

H1: p > 0,5 (her er bruger jeg 0,5 i stedet for 0,501 da lighedstegnet nu er på den hypotese der peger på at andelen er mindre end 0,5)

Med præcis samme data også testet på 5% testniveau, giver dette en p-værdi på 0,946689 (meget større sikkerhed end før) - altså bekræftes nulhypotesen ligesom før, dog betyder det denne gang at vi med accepterer at størstedelen af PN's brugere IKKE er mænd.

Det virker for mig direkte misvisende at bekræfte "hypotese 1" når stikprøven peger i mod denne som værende forkert. Jeg vil derfor høre om det giver mening at skrive noget i stil med:?

Da vores stikprøve peger i retning af at hypotese 1 ikke er sand, sættes nulhypotesen som det modsatte end postulatet i hypotese 1. ?

Beklager den lange smøre. Jeg håber mit spørgsmål er forståeligt (ellers sig endelig til) og jeg håber gode gamle PN stadig ved alt ;)

08-03-2015 00:34 #2| 0

Asger_b

Tilmeldt: 2005

Indlæg: 9518

Det vigtigste er at vide, hvad man spørger om (og dermed - hvad man konkluderer).
Dine hypoteser er fine, men dine konklusioner på baggrund af dem, stemmer ikke. Specielt: "såfremt stikprøven er repræsentativ for populationen, accepteres nulhypotesen og vi kan dermed (på 5% testniveau) bekræfte/ikke afvise at størstedelen af PNs brugere er mænd." er altså ikke lige, hvad man tester det. Det man tester for er, at hvis populationen er som antaget, hvor sandsynligt (p) er det så, at trække en sample, der har de karakteristika, du lige har målt. Ergo, kan du ikke konkludere noget om populationen. Kun om sandsynligheden for udfaldet af din sample.

08-03-2015 00:54 #3| 0

blunder

Tilmeldt: 2005

Indlæg: 8292

H0 er det modsatte af hvad du prøver at bevise, så du bør vælge H_0: p<=0.5 og H_alternativ: p>0.5. Derudover er det problematisk at stille hypoteser op på data, hvor du allerede kender p.

08-03-2015 11:27 #4| 0

birdshake OP

Tilmeldt: 2008

Indlæg: 4169

Asger_b skrev:Det vigtigste er at vide, hvad man spørger om (og dermed - hvad man konkluderer).
Dine hypoteser er fine, men dine konklusioner på baggrund af dem, stemmer ikke. Specielt: "såfremt stikprøven er repræsentativ for populationen, accepteres nulhypotesen og vi kan dermed (på 5% testniveau) bekræfte/ikke afvise at størstedelen af PNs brugere er mænd." er altså ikke lige, hvad man tester det. Det man tester for er, at hvis populationen er som antaget, hvor sandsynligt (p) er det så, at trække en sample, der har de karakteristika, du lige har målt. Ergo, kan du ikke konkludere noget om populationen. Kun om sandsynligheden for udfaldet af din sample.

Ja, jeg kan jeg godt se det er helt forkert formuleret.

Hvis p-værdien fx. var 0,99 ville det da være korrekt at sige "såfremt stikprøven er repræsentativ, accepteres nulhypotesen, da den på 5 % testniveau er tilfredsstillende sandsynlig" ? - Da p-værdi'en er 0,99, kan altså bekræfte med 99% sikkerhed at hypotesen er korrekt for populationen. (Man kan vel godt sige netop det om populationen, dog kan man naturligvis ikke sige noget gælder for populationen med 100% sikkerhed - korrekt?

blunder skrev:H0 er det modsatte af hvad du prøver at bevise, så du bør vælge H_0: p<=0.5 og H_alternativ: p>0.5. Derudover er det problematisk at stille hypoteser op på data, hvor du allerede kender p.

Yes, det var lige præcis dét der har forvirret mig. Mange tak!

Redigeret af birdshake d. 08-03-2015 14:26

08-03-2015 15:31 #5| 0

blunder

Tilmeldt: 2005

Indlæg: 8292

Synes din formulering er upræcis og noget man ikke ville skrive i statistik. Du kan i hvert fald ikke sige det med 99% sikkerhed. Ville nøjes med at skrive:

Da p-værdien er større end 0.05 kan vi ikke afvise H_0 hypotesen på et 5%-niveau, dermed kan vi ikke sige at der er en større andel mænd end kvinder på PN.