Stikprøve i statistik — definition, typer og repræsentativitet

Lær alt om stikprøver i statistik: definition, typer, repræsentativitet, bias og korrekt udtagning for pålidelige analyser og sikre konklusioner.

Forfatter: Leandro Alegsa

I statistik er en stikprøve en del af en population. Prøven er omhyggeligt udvalgt. Den skal repræsentere hele populationen retfærdigt og uden skævheder.

Når en stikprøve behandles som et datasæt, repræsenteres den ofte med store bogstaver som {\displaystyle X} og {\displaystyle Y} , mens dens elementer repræsenteres med små bogstaver (f.eks. {\displaystyle x_{3}}stikprøvens størrelse repræsenteres med bogstavet n .

Grunden til, at der er behov for stikprøver, er, at populationerne kan være så store, at det ikke er muligt eller praktisk muligt at tælle alle individer. Derfor starter løsningen af et problem i statistikken normalt med stikprøver. Stikprøveudtagning handler om at vælge, hvilke data der skal udtages med henblik på senere analyse. Lad os som eksempel antage, at forureningen af en sø skal analyseres med henblik på en undersøgelse. Afhængigt af, hvor vandprøverne er taget, kan undersøgelserne give forskellige resultater.

Som en generel regel skal stikprøverne være tilfældige. Det betyder, at chancen eller sandsynligheden for at udvælge et individ er den samme som chancen for at udvælge ethvert andet individ.

I praksis udtages stikprøver altid efter en veldefineret procedure. En procedure er et sæt regler, en række trin, der er nedskrevet og nøjagtigt fulgt. Alligevel kan der være en vis skævhed i stikprøven. Tag f.eks. problemet med at udforme en stikprøve med henblik på at forudsige resultatet af en valgundersøgelse. Alle kendte metoder har deres problemer, og valgresultaterne er ofte forskellige fra de forudsigelser, der er baseret på en stikprøve. Hvis man indsamler meninger ved hjælp af telefoner eller ved at møde folk på gaden, vil man ikke spørge folk, der ikke besvarer telefonopkald, eller som ikke går på gaden. Derfor er det i tilfælde som dette aldrig muligt at få en fuldstændig neutral stikprøve. I sådanne tilfælde vil en statistiker overveje, hvordan man kan måle omfanget af bias, og der er måder at estimere dette på.

En lignende situation opstår, når forskere måler en fysisk egenskab, f.eks. vægten af et stykke metal eller lysets hastighed. Hvis vi vejer en genstand med følsomt udstyr, vil vi få meget forskellige resultater. Intet målesystem er nogensinde perfekt. Vi får en række skøn, og hvert skøn er en måling. Det er stikprøver med en vis grad af fejl. Statistik er beregnet til at beskrive fejl og foretage analyser af denne type data.

Der findes forskellige former for prøver:

  • En komplet prøve omfatter alle de elementer, der har en given egenskab.
  • En uvildig eller repræsentativ prøve fremstilles ved at tage en komplet prøve og udvælge elementer fra den i en proces, der ikke afhænger af elementernes egenskaber.

Den måde, hvorpå stikprøven er udtaget, og stikprøvens størrelse har betydning for, hvordan dataene opfattes.




 

Typer af stikprøver (oversigt)

Ud over de to grundlæggende ideer om en komplet prøve (census) og en repræsentativ prøve findes flere konkrete metoder til stikprøveudtagning. Valget afhænger af formålet, populationens struktur og praktiske hensyn.

  • Tilfældig (simpel tilfældig) stikprøve: Hvert individ i populationen har samme chance for at blive udvalgt. Velegnet, når man har en komplet liste over populationen.
  • Stratificeret stikprøve: Populationen opdeles i undergrupper (strata) med fælles karakteristika (fx alder, køn, region). Fra hvert strata trækkes en tilfældig stikprøve. Øger præcisionen ved heterogene populationer.
  • Klyngeudtagning (cluster sampling): Populationen opdeles i klynger (fx skoler, bydele). Nogle klynger udvælges tilfældigt, og alle eller et udvalg af elementer i de valgte klynger måles. Praktisk, når det er dyrt at trække enkle tilfældige stikprøver.
  • Systematisk stikprøve: Et startpunkt vælges tilfældigt, herefter med faste intervaller (fx hver 10.). Simpelt at gennemføre, men kan give skævhed hvis der er periodiske mønstre i listen.
  • Bekvemmelighedsstikprøve (convenience sampling): Udvalg baseret på nem adgang (fx online-respondenter). Hurtigt og billigt, men ofte ikke repræsentativt.
  • Sneboldstikprøve: Bruges for svære-at-nå populationer: de første deltagere henviser nye. Kan være nyttig, men kan give stærk selektionsskævhed.

Repræsentativitet og bias

Repræsentativitet betyder, at stikprøven afspejler populationens vigtigste karakteristika, så konklusioner kan generaliseres. Flere typer fejl kan true repræsentativiteten:

  • Udvalgsbias (selection bias): Opstår når chancen for at blive udvalgt varierer mellem individer (fx telefonundersøgelse uden mobilnumre).
  • Ikke-svar (non-response bias): Når mange udvalgte ikke svarer, og ikke-svarerne adskiller sig systematisk fra svarerne.
  • Målefejl (measurement error): Fejl i selve målingen eller i spørgeskemaet, som kan fordreje resultaterne.
  • Observatørfejl: Forskellig registrering mellem målere/instrumenter.

Statistikere forsøger at minimere bias gennem omhyggelig design, vægtning (post-stratifikation), opfølgende indsats for at reducere ikke-svar og ved at måle størrelsen af eventuel bias, så resultater kan justeres eller fortolkes korrekt.

Stikprøvestørrelse og usikkerhed

Et centralt spørgsmål er, hvor stort et n (stikprøvestørrelsen) skal være. Generelt gælder:

  • Større stikprøver giver mindre statistisk usikkerhed (mindre standardfejl). For mange estimater skalerer usikkerheden med 1/√n: for at halvere usikkerheden skal stikprøven være fire gange større.
  • For andele og middelværdier kan man beregne en forventet usikkerhed (fx margin of error) ud fra variabiliteten i populationen og ønsket konfidensniveau.
  • Praktiske faktorer (tid, penge, adgang) påvirker ofte det realistiske valg af n.

Desuden er det vigtigt at skelne mellem tilfældig fejl (sampling error), som kan kvantificeres og mindskes ved større n, og systematisk fejl (bias), som ikke nødvendigvis bliver mindre med større n.

Statistiske principper der hjælper

  • Konfidensintervaller: Angiver et interval, hvor vi med en given sikkerhed forventer at finde populationsparameteren baseret på stikprøven.
  • Centralgrænseværdien (Central Limit Theorem): For store nok stikprøver vil fordelingen af stikprøvegennemsnittet nærme sig en normalfordeling, hvilket gør inferens (fx tests og konfidensintervaller) lettere.
  • Standardfejl: Et mål for, hvor meget et estimat forventes at variere mellem forskellige tilfældige stikprøver.

Praktiske råd til god stikprøvepraksis

  • Definér populationen klart fra starten: hvem og hvad skal undersøges?
  • Vælg en udtagningsmetode, der passer til populationens opbygning og undersøgelsens mål (fx stratificeret hvis undergrupper er vigtige).
  • Dokumentér proceduren: hvordan blev stikprøven trukket, hvilke kriterier, hvilke afvisninger/ikke-svar?
  • Planlæg tiltag mod ikke-svar: påmindelser, incitamenter, alternative kontaktformer.
  • Overvej vægtning efter udtagning, hvis stikprøven afviger fra kendte populationsegenskaber.
  • Brug pilotundersøgelser til at estimere varians og beregne nødvendig stikprøvestørrelse.

Eksempel — måling af forurening i en sø

I eksemplet med forurening af en sø er sted, dybde og tidspunkt for prøvetagning vigtige beslutninger. En repræsentativ strategi kan være:

  • Stratificering efter dybdezoner og afstand fra kilder til forurening.
  • Tilfældig udtagning af målepunkter inden for hvert strata.
  • Gentagne prøver over tid for at fange sæsonvariation og reducere målefejl.

Hvis man i stedet kun tager prøver tæt på den nemmeste adgangsvej, risikerer man et systematisk skævt estimat af forureningsniveauet.

Afsluttende bemærkninger

Stikprøver er fundamentet i empirisk statistik. God stikprøveudtagning kræver både teoretisk forståelse (hvordan man kvantificerer usikkerhed og bias) og praktisk planlægning (hvordan data indsamles i felten). Når metoderne dokumenteres og potentielle skævheder adresseres, bliver resultaterne mere pålidelige og anvendelige i beslutningsprocesser.

Grænsepolitiet leder efter ulovlige stoffer med en specialtrænet hund: Hvis de kontrollerer hver tiende bil, tager de en uvildig stikprøve.  Zoom
Grænsepolitiet leder efter ulovlige stoffer med en specialtrænet hund: Hvis de kontrollerer hver tiende bil, tager de en uvildig stikprøve.  

Stratificeret stikprøveudtagning

Hvis en population har åbenlyse delpopulationer, skal hver enkelt delpopulation udtages som prøve. Dette kaldes stratificeret stikprøveudtagning. Stratificeret stikprøveudtagning er også kendt som stratificeret tilfældig stikprøve. Stratificeret stikprøveudtagning repræsenteres ofte som en andel, f.eks. som procent (%).

Lad os antage, at et eksperiment har til formål at undersøge voksnes indkomster. Det er klart, at indkomsterne for universitetsuddannede kan være forskellige fra indkomsterne for ikke-uddannede. Lad os nu antage, at antallet af mandlige akademikere udgjorde 30 % af alle mandlige voksne (tænkt tal). Så ville man sørge for, at 30 % af den samlede stikprøve var mandlige akademikere, der blev udvalgt tilfældigt, og at 70 % af den samlede stikprøve var mandlige ikke-uddannede akademikere. Gentag processen for kvinder, fordi procentdelen af kvindelige kandidater er forskellig fra mandlige kandidater. Det giver en stikprøve af den voksne befolkning stratificeret efter køn og universitetsuddannelse. Det næste skridt er at opdele hver af dine delpopulationer efter aldersgrupper, fordi (f.eks.) akademikere kan opnå større indkomst i forhold til ikke-uddannede i den midaldrende alder.

En anden type stratificeret stikprøve omhandler variation. Her udtages større stikprøver fra de mere varierende delpopulationer, således at de sammenfattende statistikker, såsom gennemsnit og standardafvigelser, er mere pålidelige.


 

Relaterede sider



 

Spørgsmål og svar

Q: Hvad er en stikprøve i statistik?


A: I statistik er en stikprøve en del af en population, som er blevet omhyggeligt udvalgt for at repræsentere hele populationen retfærdigt og uden skævheder.

Q: Hvorfor er der brug for stikprøver?


A: Der er brug for stikprøver, fordi populationer kan være så store, at det ikke er muligt eller praktisk muligt at tælle alle individer. Derfor starter løsningen af et problem inden for statistik normalt med stikprøver.

Spørgsmål: Hvordan er en stikprøve repræsenteret?


Svar: Når en stikprøve behandles som et datasæt, repræsenteres den ofte med store bogstaver som X og Y, mens dens elementer repræsenteres med små bogstaver (f.eks. x3), og stikprøvens størrelse repræsenteres med bogstavet n.

Spørgsmål: Hvad skal stikprøver være?


A: Som en generel regel skal stikprøverne være tilfældige, hvilket betyder, at chancen eller sandsynligheden for at udvælge et individ er den samme som chancen for at udvælge ethvert andet individ. I praksis udtages tilfældige stikprøver altid ved hjælp af en veldefineret procedure.

Spørgsmål: Kan der fortsat være skævheder i stikprøver?


Svar: Selv når der anvendes veldefinerede procedurer for stikprøveudtagning, kan der være en vis skævhed i stikprøven på grund af faktorer som f.eks. hvem der besvarer telefonopkald, eller hvem der går i bestemte gader, når der indsamles holdninger til en valgprognose. I sådanne tilfælde kan det være vanskeligt at få helt neutrale stikprøver, men statistikere kan måle, hvor meget skævhed der stadig er til stede.

Spørgsmål: Er der forskellige former for stikprøver?


A: Ja, der findes forskellige former for stikprøver, herunder fuldstændige stikprøver, som omfatter alle elementer, der har bestemte egenskaber, og upartiske/repræsentative stikprøver, som indebærer udvælgelse af elementer fra fuldstændige stikprøver uden at tage hensyn til deres egenskaber. Den måde, hvorpå stikprøverne udtages, og deres størrelse har betydning for, hvordan dataene betragtes.


Søge
AlegsaOnline.com - 2020 / 2025 - License CC3