Maj 2009: Poll of polls

Mitt i valrörelsen inför Europaparlamentet har jag gjort en uppdatering av opinionsmätningarna som gäller hur väljarna skulle rösta om det var riksdagsval idag. Opinionsutvecklingen under första halvåret 2009 börjar klarna. Alliansregeringen (blå linje) har under vintern hämtat in oppositionens (röd linje) historiska försprång. En analys som tar hänsyn till alla opinionsmätningar (poll of polls) visar att Alliansens upphämtning har kommit av sig. Under april och maj månad får väljaropinionen betecknas som stabil. Att Alliansen skulle vara ikapp oppositionen i mätningarna är en förhastad slutsats oavsett vilken utjämningsteknik som används. Oppositionen (v s mp) håller en ledning i storleksordningen 1-2 procentenheter.

Kommentar: Figuren är en analys av samtliga opinionsmätningar som genomförts sedan det senaste riksdagsvalet i september 2006 (SCB, Sifo, Demoskop, Synovate, Novus, Sentio, Skop). Jag har använt Statakommandot lpoly som beräknar en kernel-viktad lokal polynomial regression (epanechnikov, bwidth=15, degree=0) som är tänkt att jämna ut slumpmässiga fluktuationer i opinionsmätningarna. Dessutom har jag låtit vikta de olika opinionsmätningarna efter antalet svarspersoner: Ju fler respondenter i undersökningarna desto tyngre väger resultaten in i beräkningarna.

Den här gången har jag introducerat en viktning för antalet svarspersoner i mätningarna (en Sifo på 3000 respondenter väger tre gånger så mycket som en Demoskop med 1000 svarande) och använt mig av en ny typ av kernelutjämning. Jag är tacksam för alla tips och råd om hur analysen kan förbättras ytterligare.

Kommentarer

Nicklas sa…
Vad utgår du ifrån när du bestämmer var i tiden mätningarna ska placeras? Fältperioden (periodiserad om månadsövergripande?) eller publiceringstidpunkten?
Anonym sa…
Jag använder publiceringsdatum än så länge. Har inte 100% täckning för data om fältperiod. Nästa steg skulle väl vara att a) justera tidpunkten för mätningarna så de ligger i mitten av fältperioden och b) vikta för mätperiodernas längd. /Henrik
Anonym sa…
Have you weighted "poll of the polls" by the polling agency’s accuracy in the previous election polls or is it just a simple added “polls of the polls”?
/Kasper
Anonym sa…
Dear Kasper! Systematic accounts of the accuracy of polling institutes (deviations from actual election results) show that there are almost no discrepancies between the polling agencies. There are no clear "winners" since most institutes make reasonably accurate predictions of the election results. Since methods are constantly changing I see no good reason to use past performance of the institutes as a shortcut for accuracy. Weighting for the number of respondents is much more important in my opinion. /Henrik
Anonym sa…
You should do both - even small deviations in accuracy would matter
/Kasper
Anonym sa…
Coolt!

Den här sidan gör en liknande grej

www.svenskopinion.nu
Anonym sa…
För övrigt: Varför vikta för antal respondenter? Poängen med poll of polls är väl att utjämna skillnader i mätmetoder som inte har med det slumpmässiga felet att göra? (det slumpmässiga felets storlek beror ju främst på urvalsstorleken)

Finns det ett statistiskt resonemang bakom detta?

Bra blogg förresten!
Hej! Bra synpunkter och tips, tack så mycket.

Att vikta för antalet respondenter är egentligen ett indirekt sätt att vikta för fältperiodens längd. Större undersökningar har som regel samlats in under en längre tid, vilket i praktiken innebär att resultaten blir mindre känsliga för "chocker" i opinionen eller tillfällig politisk agenda, alltså ett slags "naturlig utjämning".
bergh sa…
Intressant. Den stora frågan är väl hur man korrigerar för frågans forumulering: Vilket parti tycker du bäst om vs "skulle du rösta på om det vore val idag...
Hej Bergh: partisympati (bästa parti) och röstningsintention i ett tänkt val (om det vore riksdagsval idag) bör under inga omständigheter vara med i samma poll of polls. Det är elementa inom valforskningen att människor inte alltid (bör) rösta(r) på det parti som de tycker bäst om, nämligen. Såvitt jag vet är det bara SKOP som kör partisympati (och SCBs PSU-mätning är också i första hand just en partisympatimätning även om SCB också mäter "val idag". Alla andra stora institut har mycket näraliggande varianter på "om det vore riksdagsval idag" [eller någon av de närmaste dagarna]. Nära riksdagsvalen (när frågan inte är så hypotetiskt längre) byter de flesta till "rösta på i riksdagsvalet den 17 september".

"Om det vore val idag"-frågeformuleringar bryter egentligen mot en av grundreglerna när man formulerar surveyfrågor, nämligen att man aldrig skall ställa hypotetiska frågor till människor eftersom det riskerar att bli mycket svårt att tolka resultaten. Skulle man göra "rätt" enligt metodboken bör man alltid ange en specifik tidsram. Problemet är att det faktiskt blir absurt att fråga människor hur de tänker rösta "i riksdagsvalet i september 2010" när det är tre och ett halvt år kvar dit (andelen vet ej/ännu ej bestämt skulle sannolikt bli enorm)

I e-panelen 2007 gjorde vi ett metodexperiment med massa olika formuleringar på frågan om röstningsintention men kunde faktiskt inte upptäcka några signifikanta skillnader. Tyvärr har vi inte haft tid att publicera analysen i något sammanhang (ännu).
Anonym sa…
Du bör vikta mot kvadratroten ur antalet respondenter. En poll med 3000 svarande är inte tre gånger med noggrann än en med 1000.

Konfidensintervall beräknas t.ex med roten ur antalet datapunkter.

Jag tycker inte du kan lägga datapunkterna vid publiceringsdatum. Det är rimligt att anta att opinionsinstituten intervjuat ungefär lika många varje dag undet ett par veckor. Du bör lägga datumet i mitten av intervallet där det anges. Om inga datum anges, lägg datumet 7-10 dagar tidigare.
Anonym sa…
Hej!

Om syftet med att vikta efter antal respondenter är att komma åt fältperiodens längd, varför då vikta med kvadratroten ur respondentantalet?

Anonym som föreslog detta måste väl ha haft respondentantalets inverkan på slumpfelet i åtanke? Vill man uppvärdera en undersökning i en poll of poll som har lägre slumpfel (vilket jag är tveksam till) förstår jag varför, men är det fältperioden man vill åt finns det väl inte direkt några genvägar förutom att just vikta efter antalet dagar insamlingsperioden pågår.

Vad jag förstår vill du med viktningen baserad på fältperiodens längd förhindra att tillfälliga "nycker" i opinonen får (för stort)genomslag på genomsnittet. Frågan är om inte viktningen med det syftet kan göra mer harm than good?

Man bör kanske fråga sig hur lång en "chock" eller "nyck" kan vara innan den faktiskt bör få ha en viss inverkan på ett månadsgenomsnitt. Kortast möjliga insamlingsperiod för dessa mätningar är väl knappt en vecka, och då speglar det ändå ca en femtedel av den tidsperiod vi avser fånga med månadsgenomsnittet...
Anonym sa…
Mest troligt en kriseffekt - när vi nu går mot ljusare tider är folk mindre rädda för att rösta på vänsterblocket igen.

Tydligt om man tar din graf och jämför med kursutvecklingen på Stockholmsbörsen under samma tid.
Jag tycker att verkar högst vettigt att vikta efter kvadratroten ur antalet respondenter. Tack för det tipset. Det är ju dessutom väldigt lätt gjort ;)

När det gäller hur mycket fältperiodernas längd skall viktas in och om man bör använda t ex "mitten av fältperioden" som tidpunkt för pollen beror lite grann på vad man vill ha sin poll of polls till: spåra trender på lång och medellång sikt eller studera opinionsförändringar dag-för-dag i samband med till exempel skandaler.

Är det "opinionsnyckerna" man vill åt eller har man andra syften. Som vanligt beror de metodologiska vägvalen på vilka frågeställningar man har. Flera olika modeller behövs.

Det är lite mer jobb att få ordning på data för fältperiodernas längd och bakåtskrivning av publiceringsdatum men jag skall plocka lite med det framöver så får vi se om ni gillar nästa poll of poll. Vi behöver ha några bra modeller inför 2010 års riksdagsval.
Anonym sa…
Att vikta efter kvadratroten är som sagt mycket rimligt för att delvis korrigera för olika storlek på undersökningarna. Angående fältperiodernas längd borde detta inte räcka med att jämna ut observationerna över tid för att minska inflytandet av kortvariga fluktationer?
Anonym sa…
Henrik och/eller Anonym,

Skulle man kunna få en motivering till det vettiga med att vikta efter antalet respondenter? Jag begriper inte riktigt resonemanget bakom den givna fördelen. Tack!
Allt annat lika är stora undersökningar mer tillförlitliga än små. Det beror på att konfidensintervallen kring partiernas urvalsskattningar blir mindre. Slumpen har (i det långa loppet) mindre svängrum i ett urval om 9 000 (SCB/PSU) än i ett urval om 1 000. Därför bör stora undersökningar väga in tyngre i en poll of polls. Ungefär så.
Anonym sa…
Tack för det,

Det är mycket möjligt att kvadratroten ur respondentantalet är rätt väg att gå och ni verkar ju onekligen kunnna era saker.

Samtidigt - i det ögonblick man viktar upp en mätning pga lägre slumpfel riskerar man att vikta ned en mätning som presterar bättre med avseende på andra felkällor. Dessa felkällor kan även mycket väl ha större inverkan på det totala felet.

Är det inte så att vi inte riktigt vet vilka mätningar som presterar bäst med avseende på det totala felet (slumpfel + fel beroende på urvalsdesing, insamlingsförfarande, frågeformulering, eftersratifiering etc.)?

Om så är fallet att vi inte vet om vår viktning därmed har avsedd effekt, är då verkligen det klokaste i det här läget att vikta?
Anonym sa…
Jag tror det bästa vore att vikta mot kvadratroten - i analogi med konfidensintervallen.

Och publiceringsdatum kan inte vara rätt, om du inte har exakta data för vilka datum undersökningen är gjord så försök gissa ett datum i mitten av undersökningstiden.

Som du gör nu får du ett systematiskt fel. Opionsmätningen avser ju opinionen under undersökningstiden, inte vid publiceringsdatum.

Bra jobbat annars!

/Jonas