03 februari 2009

Dubblera SCB/PSU

Statistiska centralbyråns stora partisympatiundersökning (SCB/PSU) genomförs två gånger per år, i maj och i november. SCBs mätningar spelar i en egen division jämfört med opinionsinstituten. SCB har en ordentlig urvalsram och använder sig av stora och statistiskt renläriga befolkningsurval. Några viktningar eller poststratifieringar för att i efterhand rädda urvalet behövs inte.

Att göra rätt kostar pengar. SCB-mätningarna är avsevärt mer kostsamma än opinionsinstitutens. Men det är demokratin värd. SCB/PSU finansieras av Riksdagen via anslagen till valstatistiken. Med andra ord är det svenska folkets mätningar av de egna partisympatierna!

På gott och ont har opinionsmätningarna en central roll i den inrikespolitiska debatten. Ständigt refererade har de effekter på partiernas reella maktpositioner, partifolkets humör och partiernas ideologiska utveckling. (Är det någon som tror att kd hade gett upp regeringsstriden om ny äktenskapslagstiftning om partiet haft 13 procent i opinionen istället för tre?). Det är viktigt med god kvalitet i mätningarna. Vill man kunna följa opinionsutvecklingen i mindre grupper (exempelvis förstagångsväljarna) så krävs det stora urval.

Olof Pettersson och Sören Holmberg har i en SNS-rapport visat att vi än så länge inte har sämre mätningar än någon annan stans. Statsvetarna följer noggrant utvecklingen. Under tiden finns ändå saker att göra.

Mitt enkla förslag är att ge SCB möjlighet att mäta oftare än två gånger om året. Inför kvartalsmätningar! En SCB/PSU-mätning i kvartalet kompletterat med medel för vidareutveckling och kvalitetssäkring av urvalsmetoder och mätinstrument. Är det månne någon riksdagsledamot som vill motionera om saken?

/Henrik Oscarsson

9 kommentarer:

Nicklas sa...

Jag inte varför du så oftar hävdar att SCB inte väger (post-stratifierar)PSU.

Genom den stratifiering av urvalet som SCB använder så har man tagit hänsyn till såväl parti i föregående val som region.

I SCB:s beskrivning av PSU skriver man själva att man väger PSU.

"”Val idag”-fördelningarna, d.v.s. resultaten i ett hypotetiskt val vid undersök-ningstillfället, skattas med en efterstratifierings-estimator. Som stratifierings-variabler används beteende vid föregående riksdagsval (åtta partistrata, valskolkare och ”för unga”) samt valkretstillhörighet (10 strata). Sammanlagt är det alltså 10x10 strata. Uppgifterna om beteende i förra valet hämtas från första intervju-tillfället vid vilket intervjupersonen deltagit i PSU.
Varje person i urvalet har tilldelats en ”röstningssannolikhet” som medför att den kommer att ingå i beräkningarna med en vikt som bestäms av svaret på en fråga om intentionerna att delta i ett hypotetiskt val."

Läs gärna mer på http://www.scb.se/statistik/ME/ME0201/_dokument/ME0201_BS_2008.doc

Henrik Oscarsson sa...

Hej Nicklas! Jag får göra en hel pudel på det här området. Jag hade fel.

Jag får återkomma längre fram med ett klargörande. Det verkar som termen poststratifiering används för en mängd olika typer av efterbearbetningar. Det finns dock fortfarande stora skillnader vilken slags information man tar till hjälp och hur för att göra skattningarna.

Exempel: Att använda extern information om storleken på vissa grupper i befolkningen (t ex unga personer) för att korrigera kända urvalsfel är en typ av efterstratifiering. Att hämta information om individers röstning från tidigare panelsteg för att komplettera med när det saknas uppgifter kallas också för efterstratifiering i SCBs text. Jag är lite förvirrad över terminologin. Det här kan ju rimligen inte vara samma sak...

/Henrik

Nicklas sa...

Det är ingen avgörande skillnad. SCB väger på parti i föregående val.

När du ändå är igång kanske du skulle ta och titta på hur bra SCB har klarat sig gentemot instituten i samband med valen. Faktum är att SCB "metodutvärdering" båe från 2002 och 2006 visar att de tillhör de sämsta i klassen. För om det vore så att deras metoder är klart överlägsna de privata instututens så borde det rimligen visa sig i samband med valen. Eller menar du kanske att SCB bara har haft otur i samband med de senaste valen?

Sen kan man inte reducera väljarbaromtrar enbart till en fråga om urval och vägning (vilket både den här och dina tidigare texter på bloggen indikerar att du gör). Två andra avgörande faktorer är vilka frågor man ställer och hur de ställs (läser man upp partierna eller inte).

Ska man utvärdera en väljarbarometer så bör man titta på hela modellen. Gör man det finns det inga belägg (åtminstone i meningen vetenskapliga utvärderingar) som visar att SCB:s modell är bättre än t ex Sifos eller Synovates.

Varken du eller andra statsvetare som framhåller SCB:s förtjänster har såvitt jag kan bedöma några vetenskapliga bevis för deras överlägsenhet. Vad ni tycks luta er mot är teorier, förhoppningar och (ibland mycket) haltande kunskaper/föreställningar (här duger det inte att hänvisa till Holmberg & Pettersson - deras sammanställningar döljer mer än vad de berättar)om hur institutens metodik. Har jag fel så skulle det vara mycket intressant att få ta del av de vetenskapliga bevisen för SCB:s överlägsenhet.

Henrik Oscarsson sa...

Hej Nicklas, och tack för ett långt inlägg. Det var mycket på en gång och jag får svara i omgångar.

Du tillhör de som arbetar med de här frågorna varje dag och därför är det särskilt kul att du är med och kommenterar här.

Underlaget för att uttala sig vetenskapligt om vilket institut som varit träffsäkrast är på tok för skralt. I Holmberg & Petersson beräknas ett genomsnitt ut för de fyra senaste valen. Det skiljer i snitt fem tiondelar i träffsäkerhet mellan de fem stora instituten. Alla klarar sig med andra ord mycket bra. Men att på basis av två-tre-fyra (!) observationer (valtillfällen) kora någon som sämre eller bättre skulle verkligen inte ha passerat någon peer review granskning för en vetenskaplig tidskrift. SCBs träffsäkerhet ligger gott och väl inom förväntade ramar.

Återstår då att försöka bedöma hur mätningarna kommit till. Eftersom det finns ett stort informationsunderskott när det gäller detaljerna är det svårt. Vi får förlita oss på teori. Teorin kallas statistisk inferensteori. Allt annat lika och i det långa loppet är sannolikhetsurval och befolkningsurval bättre än icke sannolikhetsurval med poststratifiering. Allt annat lika och i det långa loppet är stora urval bättre än små.

Att systematiskt utvärdera alla de modeller som används och dessutom validera resultaten mot verkligheten skulle kräva en forskningsinsats och forskningsresurser modell större.

Du skriver att du inte är nöjd med Holmberg & Petterssons sammanställning. Den bygger ju på information som instituten själva har lämnat i enkät. Du får gärna utveckla varför.

Jag vidhåller att det är väsentligt att hålla isär olika typer av viktningsförfaranden; varför man gör dem och vilken typ av information man använder sig av(externa eller interna data). En del görs för att kompensera a) "brister i urvalet" som det heter i statistikböckerna, b) systematiskt bortfall, c) icke-svar och d) systematiska felkällor av typen minnesfel. SCB behöver inte göra annat än mycket små justeringar för a).

Till bloggläsarna: Läs Holmberg & Petersson på http://www.sns.se/document/partibarometrar_2008.pdf

/Henrik Oscarsson

Johan sa...

Att demokratin är värd fler/bättre opinionsmätningar -- det får du gärna utveckla!

Jag kan tänka mig flera anledningar till att opinionsmätningar -- även bättre sådana -- inte direkt har ett positivt värde för demokratin, utan kanske snarare ett negativt (t ex förbjuder ju somliga demokratiska stater på goda grunder opinionsmätningar under valrörelser; jfr ditt inlägg härom dagen).

Och att klä sitt egenintresse (som opinionsforskare) i allmänintressetermer (jag gör det bara för demokratins skull!) övertygar inte mig. Ja, finns det inte något rentav ett antidemokratiskt drag i viss opinionsforskning? Ni lyckas väl i o f s inget vidare med att förklara och predicera väljarbeteende -- tack och lov, för man skulle ju kunna se själva ambitionen som antidemokratisk och paternalistisk.

Henrik Oscarsson sa...

Hej Johan!

Eftersom jag tror på såväl näringsfrihet som fri åsiktsbildning så är förbud för opinionsundersökningar helt befängt i en liberal demokrati.

I ett flerpartisystem är det ofta helt nödvändigt för väljarna att också ta hänsyn till den strategiska kontexten för valhandlingen: partiernas styrkeförhållanden är viktigt att känna till för att kunna rösta i regeringsfrågan, för att kunna stödrösta eller taktikrösta.

Min huvudlinje har alltid varit att ju fler mätningar desto bättre. I Sverige finns en lång tradition av ansvarstagande, seriösa och ambitiösa opinionsinstitut. Denna tradition är viktig att värna. Det är med den utgångspunkten jag tar del av diskussionerna om opinionsmätningarnas roll i demokratin.

För opinionsforskningen har opinionsmätningar av partisympatier (som vi här talar om) ett begränsat värde. Mitt egenintresse skiner i så fall bättre igenom när jag argumenterar för större satsningar på demokratiforskning, opinionslaboratorium och större studier. Här har jag knappast någon anledning att be om ursäkt: Vilken forskare vill inte se ökande medel till sitt eget forskningsfält?

/Henrik Oscarsson

Nicklas sa...

Att reducera frågan om olika väljarbarometrars tillförlitlighet till att bara handla om urvalet och dess storlek är att göra det på tok för lätt för sig. Och det är det du gör när du skriver att SCB spelar i en egen division.

Min bestämda åsikt (och ärligt talat har jag svårt att se hur vi skulle kunna ha olika åsikter om detta) är att om man ska bedöma en väljarbarometer så måste man också (utöver själva urvalet, dess storlek och design) ta hänsyn till vilka frågor man ställer, hur de ställs och vilka typer av efterbearbetningar som görs.

Även om slumpfelet (felmarginalen) är av stort intresse så är det totala mätfelet (slumpfel + systematiska fel) det som är mest intressant. Och det kan väl varken du eller jag avgöra hur stort det är (med nuvarande resurser) vare sig för SCB:s, Synovates, Sifos mätningar eller de valundersökningar som du och Sören genomför.

Tittar vi på de svenska väljarbarometrarna som publiceras i dag (Synovate, Sifo, SCB, Skop, Demoskop och Novus (jag utelämnar Sentio eftersom jag saknar information om deras modell) så skiljer sig modellerna åt på samtliga av de punkter jag räknat upp ovan.

Detta är också skälet till att jag opponerar mig mot påståenden om att SCB är ”bäst”. Kan man inte skatta det totala mätfelet så kan man heller inte påstå att den ena mätningen är bättre eller sämre än den andra. Däremot kan man självfallet hävda att slumpfelet är mindre i SCB:s mätningar med anledning av deras urvalsstorlek.

När det gäller min kritik mot Sören och Olof så handlar det i huvudsak om att det är väldigt lite ”forskning” i rapporterna och att jag saknar en helhetssyn på institutens olika modeller. Deras rapporter tillför inte (åtminstone inte för mig) någon ny kunskap .

Till sist, vi är fullständigt överens om att sannolikhetsurval är bättre än icke sannolikhetsurval och stora urval bättre än små. Men vilket eller vilka av de svenska instituten använder sig av något annat än sannolikhetsurval enligt din mening?

Henrik Oscarsson sa...

Svar till Nicklas: är bloggläsarna redo för en hel uppsats?

Jag vill bara poängtera att jag har stort förtroende för opinionsinstitutens mätningar av partisympatier. Min kritik på den här bloggen har udden riktad mot opinionsjournalister och medieaktörer som beställer opinionsundersökningar. Väljarbarometrarna kan betraktas som opinionsinstitutens flaggskepp eftersom de får så stor medial uppmärksamhet. Man har alltså inte råd att misslyckas. Mångfald och konkurrens på det här området leder till någonting bra, nämligen korrekt information till väljarna om partiernas opinionsstöd.

SCB/PSU
Kvaliteten i alla surveyundersökningar kan bedömas utifrån hur väl man lyckas minimera (åtminstone) fyra olika typer av fel: 1. täckningsfel (coverage error), 2. samplingsfel (sampling error), 3. bortfallsfel (nonresponse error) och 4. mätfel (measurement error). SCB hanterar de två första utmärkt eftersom man har tillgång till en närmast komplett urvalsram och drar sannolikhetsurval i storleksordningen 9 000. När det gäller hur bortfallsfel och mätfel skall hanteras är SCB i samma sits som alla andra. Bortfallet är betydande även här. Och datainsamlingsmetoder, frågeinstrument och bearbetningar av materialet måste självklart gå igenom samma skärseld som för alla andra.

Min huvudpoäng här är väl att jag håller SCB/PSU högt eftersom jag betraktar framför allt små täckningsfel som ett nödvändigt men ej tillräckligt villkor för att en undersökningsdesign skall kunna hålla god kvalitet. Ju mer man behöver ägna kraft åt att poststratifiera för att kompensera för täckningsfel desto mer utlämnad blir man åt ofta mycket svåra bedömningar och antaganden. Underliggande villkor för undersökningsverksamheten befinner sig i ständig förändring. Och det är här som en stor del av konkurrensen mellan instituten utspelar sig.

Precis som du kommenterat har jag i mina inlägg uppehållit mig vid de båda första kriterierna och prisat befolkningsurval (små täckningsfel) och stora urval (små samplingsfel). De två andra fallgroparna är, precis som du argumenterar, minst lika viktiga att diskutera om man vill försöka bedöma kvaliteten i opinionsinstitutens mätningar. Jag köper helt ditt resonemang att man måste utvärdera hela den modell som används för att uttala sig heltäckande om vad som är best practice. Problemet, som alltid, är att vad som är best practice hela tiden förändras. Drivkrafterna och strukturerna i väljaropinionen är ett rörligt mål.

Vårt meningsutbyte är klassiskt eftersom det är typiskt för de diskussioner som förts under lång tid mellan råbarkade statistiker och erfarna undersökningsledare, mellan teoretisk lärobokskunskap och den hårda praktiska verkligheten. Det råder viss språkförbistring också, som bloggläsarna säkert noterat.

Själv medger jag att jag har en lyxig tillvaro eftersom jag nästan alltid har förmånen att genomföra analyser av studier som genomförts med stora befolkningsurval (valundersökningar och SOM-undersökningar) och som inte behöver viktas för att kompensera för täckningsfel. För att minimera samplingsfel ytterligare önskar vi oss alltid ännu större urval. För det mesta kan vi dock helt koncentrera oss på att analysera om och hur bortfallsfelen får några konsekvenser för våra slutsatser, och på att försöka minimera mätfel genom att konstruera så bra frågeinstrument vi kan.

Slutligen den klassiska debatten om huruvida opinionsinstitutens urval lever upp till kraven på sannolikhetsurval, det vill säga att varje enhet i populationen skall ha en känd sannolikhet större än noll att komma med i urvalet. Så här ser jag på det här från min horisont: Enligt skolboken genererar den mest populära och enormt framgångsrika undersökningsdesignen med slumpvis telefonuppringning (RDD random digit dialing) fullt fungerande sannolikhetsurval, under förutsättning att man gör på rätt sätt.

Samtidigt slåss instituten ständigt mot täckningsfel eftersom alla enheter i populationen i praktiken inte har en känd sannolikhet större än noll att komma med i urvalet. I Sverige är täckningsfelen fortfarande inte alarmerande, men i t ex USA är den senaste uppskattningen att omkring 18 procent av den vuxna befolkningen inte kan nås ens av de mer sofistikerade RDD-metoderna (Dillman m fl 2009. Internet, Mail and Mixed Mode Surveys, s. 44). Konsekvenserna av täckningsfelen kan diskuteras. I praktiken spelar de sannolikt inte någon stor roll. Just nu. För mätning av partisympatier.

I Holmberg & Peterssons dokumentation (nej, det är ingen forskningsrapport) över institutens metoder förekommer både bekännelser om användande av inslag av kvoturval och substitution (telefonnummer som inte ger några svar) – något som definitivt faller utanför skolboksdefinitionerna av sannolikhetsurval. I listan över poststratifieringsvariabler förekommer märkligt nog inte hushållsstorlek för många av instituten, vilket reser en del frågetecken om hur RDD används för att skapa miniatyrkopior av populationen.

Vi som ägnar oss åt teoretiskt torrsim på det här området kommer förmodligen – och med dårars envishet – att fortsätta ställa instituten mot väggen på det här området. Det ingår på något sätt i de roller vi spelar. Omsorgen om mätningarnas tillförlitlighet och om medborgarnas rätt till korrekt information om partiernas opinionsläge delar vi emellertid.

/Henrik Oscarsson

Nicklas sa...

Jag tror inte att vi kommer så mycket längre i den här diskussionen, så det här blir mitt sista inlägg.

Jag vet inget institut i Sverige som tillämpar RDD som inte väger på hushållsstorlek (inklusions-sannolikhet). Att det inte framgår av Olof och Sörens rapport må så vara men det säger ju ingenting om hur det förhåller sig i verkligheten.