Stickprov

Stickprov (engelska: sample) är ett begrepp inom statistik och avser ett mindre urval ur en större grupp. Avsikten är att man skall kunna dra slutsatser om hela gruppen utgående från de exemplar man analyserar. Stickprovet kan dras på olika sätt för att minimera urvalsfel och maximera noggrannheten av de slutsatser som kan dras på basis av ett stickprov av begränsad storlek (eller omvänt, minimera nödvändig stickprovsstorlek). Urval kan också göras i två eller flera steg vilket då kallas tvåstegsurval (flerstegsurval), eller klusterurval.

Ett stickprov är ett antal utfall för en stokastisk variabel definierad på ett visst utfallsrum.

Stickprov kallas också urval i statistisk terminologi för urvalsundersökningar (surveyer).^[1]

För att dra ett stickprov behövs ett dragningsschema, en algoritm eller en uppsättning inklusionssannolikheter. Inklussionssannolikheterna definierar sannolikheten att ett visst objekt ingår i stickprovet. Vad som är det bästa sättet att dra ett stickprov på beror i hög grad på sammanhanget och syftet.

Urvalsdesign

Avgränsning

För att man skall kunna dra slutsatser på basis av ett stickprov måste man först avgöra vilken population man vill undersöka. Frågor man kan ställa sig är:

Skall resultaten gälla "besökare på denna webbplats" och i så fall, skall den som besöker webbplatsen en gång i misstag tilldelas samma vikt som en stamkund? Eller gäller undersökningen "Sveriges befolkning"? Även spädbarn? Utlandssvenskar? I Sverige tillfälligt boende?

Population

Termen population förtydligas ofta i målpopulation och undersökningspopulation. Den senare är ofta en delmängd av den förra. Målpopulationen kan till exempel vara alla som är folkbokförda i Sverige medan undersökningspopulationen exkluderar vissa grupper som inte är lämpliga att försöka nå för intervju, till exempel svårt sjuka. Dessa utgör då undertäckning.

Ram

Man behöver också ha en ram för urvalsdragningen. Ramen är ofta ett register som urvalet dras ur. Ramen kanske också vara till exempel en abstrakt mängd som definierar vilka objekt som är möjliga att dra med vald metod. Med rampopulation avses den mängd av objekt som är möjliga att nå utifrån ramen. Ramen kan till exempel vara en lista över hushåll. Då är det i princip möjligt att nå alla individer inom de hushåll som finns med i listan.

Slumpmässigt urval

Urvalets design är de sannolikheter med vilka de olika objekten dras. Vanligen, men inte alltid, strävar man efter ett slumpmässigt urval. Ett grundläggande krav ett urval ska kallas slumpmässigt är att alla objekt i ramen har positiv och känd sannolik att komma med. En mer strikt definition av slumpmässigt urval finns i Särndal et al. (2003). ^[2]

Beroende på vad man undersöker kan små "marginalgrupper" väsentligt skilja sig från medelsvensson och antingen vara de man bör intressera sig för eller vara noga med att inte ge för hög vikt: Hur ofta flyger svenskarna? De som flyger till sitt hem utomlands över veckosluten torde flyga betydligt mer än andra.

Representativt

Man talar ofta om att urvalet bör vara representativt. Det är dock en term med många betydelser. Ibland avses att urvalet är en miniatyrpopulation som i alla relevanta avseenden är lik mål- eller undersökningspopulationen.

Det i allmänhet omöjligt att i praktiken åstadkomma ett helt perfekt urval på grund av olika tillkortakommanden i ramen som gör att resultaten snedvrids systematiskt, beroende på att del av populationen är över- respektive underrepresenterad, eller helt saknas i ramen. Ofta brister urvalet helt enkelt genom bortfall. Man måste då, utgående från kunskap om det problem man vill undersöka, uppskatta i vilken mån urvalsfelet påverkar undersökningens tillförlitlighet.

En bra och väl dokumenterad urvalsdesign är avgörande för en urvalsundersöknings kvalitet. Statistiska centralbyrån har gett ut en bok om urvalsdesign.^[3]

Stratifierat urval

Man kan ofta klara sig med mindre stickprov om man på lämpligt sätt delar in populationen i grupper (strata) med mindre inre variation. Variationen mellan grupperna minskar inte resultatens tillförlitlighet. Man kan också välja att ha mindre stickprov för grupper med liten inre variation, där redan ett fåtal observationer ger en pålitlig bild av gruppen.

Exempel

18,3 12,4 och 20,7 är ett stickprov på middagstemperaturen tre dagar i maj. Det rör sig här om en kontinuerlig stokastisk variabel.

3 5 2 6 1 är ett stickprov omfattande 5 av 100 tärningskast. Det rör sig här om en diskret stokastisk variabel.

Stickprovsteori

Stickprovsteori handlar om sätt att pröva en hypotes, i det här fallet att beskriva och/eller dra slutsatser om en population av objekt utifrån ett urval av objekt från populationen. För att kunna använda information i stickprovet i det syfte stickprovsteorin åsyftar måste stickprovet på något vis "länkas samman" med resten av objekten i populationen.

En väsentlig del av stickprovsteorin avhandlar hur ett specifikt stickprov skall relateras till populationen samt hur resultatet skulle förändras om ett annat stickprov drogs istället för det stickprov som verkligen realiserats.

Olika stickprovsteorier

Det finns ett flertal teorier inom stickprovsteorin som förordar olika metoder för att länka samman urvalet med hela gruppen. De vanligaste teorierna är designbaserad stickprovsteori, modellbaserad stickprovsteori och bayesiansk stickprovsteori. Dessa teorier kan ofta kombineras för att uppnå önskade resultat och ett exempel på en sådan teori är modellassisterad designbaserad stickprovsteori.

Ett flertal olika ansatser för att urvalet ska vara representativt har presenterats och de vanligast förekommande är stickprovsrandomisering, stickprovsstorleksbaserade teorier, täthetsbaserad stickprovsteori och subjektiv stickprovsteori.

Av de nämnda ansatserna är det bara stickprovsrandomisering som kan göra korrekta sannolikhetsbaserade uttalanden om en kvantitet hos en population utan att vara beroende av en modell eller den undersökta kvantiteten. Hypotesprövning anses inte vara en betydande del av någon teoretisk ansats för att dra slutsatser om en population utifrån ett stickprov.

Noter

^ Statistiska centralbyrån. (2001). ”Kvalitetsbegrepp och riktlinjer för kvalitetsdeklaration av officiell statistik.”. Meddelande i samordningsfrågor 2001:1. Arkiverad från originalet den 24 november 2013. https://web.archive.org/web/20131124152717/http://www.scb.se/Grupp/Hitta_statistik/Forsta_Statistik/Metod/_Dokument/MIS2001_1.pdf. Läst 28 november 2013. Arkiverad 24 november 2013 hämtat från the Wayback Machine.
^ Särndal, Carl-Erik.; Swensson Bengt., Wretman Jan Håkan. (2003) (på engelska). Model assisted survey sampling. Springer series in statistics. New York: Springer. Libris 9329035. ISBN 0-387-40620-4
^ Statistiska centralbyrån. (2008). ”Urval: från teori till praktik”. Handbok 2008:1. http://www.scb.se/statistik/_publikationer/OV9999_2007A01_BR_X99BR0801.pdf.

Se även

[1] Statistiska centralbyrån. (2001). ”Kvalitetsbegrepp och riktlinjer för kvalitetsdeklaration av officiell statistik.”. Meddelande i samordningsfrågor 2001:1. Arkiverad från originalet den 24 november 2013. https://web.archive.org/web/20131124152717/http://www.scb.se/Grupp/Hitta_statistik/Forsta_Statistik/Metod/_Dokument/MIS2001_1.pdf. Läst 28 november 2013. Arkiverad 24 november 2013 hämtat från the Wayback Machine.

[2] Särndal, Carl-Erik.; Swensson Bengt., Wretman Jan Håkan. (2003) (på engelska). Model assisted survey sampling. Springer series in statistics. New York: Springer. Libris 9329035. ISBN 0-387-40620-4

[3] Statistiska centralbyrån. (2008). ”Urval: från teori till praktik”. Handbok 2008:1. http://www.scb.se/statistik/_publikationer/OV9999_2007A01_BR_X99BR0801.pdf.

[1]

[2]

[3]