Thursday, 23 February 2012

2012 台灣總統大選開票過程的統計分析



 

(Ajin開口)

搞一輩子的計量,看到底下這篇分析,禁不住地彎腰好幾次,為啥?太精采了。

分析任何統計資料,有幾千種不同的取向,而取向就決定方法論。當要分析2012大選的資料,也同樣會碰到這問題。切入點看是要:簡單地人工加總票數核對電腦結果;或採time-series的方式審視此次投票的異常與否,再進一步追究異常之原因;或其他統計分析。關鍵是:面對一顆西瓜,刀是要橫剖,或直剖,或斜剖,都可以。

雖然這樣,但解剖一個統計資料可不是如剖西瓜,效果都一樣。統計資料的解剖,判斷其切入點本身就是一大藝術,是依分析師的功夫而定。

底下這篇分析,妙不在於統計學問的高深,而是在於作者的敏銳,採取很漂亮的切入點,以非常客觀,科學的過程,讓數據呈現隱藏在背後的故事,是很精采的福爾摩斯。最後結論出:
2012的開票資料與往常的投票行為有相當大的異常,頗有很大疑點之處。

作者所採用的取向是從開票時間的長短,建立大、中、小投票所需要的開票時間,與藍綠在各種尺寸的投票所的優劣性。從這統計得到:小與大型投票所,藍佔優勢,中型投票所,綠佔優勢。作者繼續將這觀察應用到2004, 2008的大選,驗證後也得同樣結論。

接著作者以這樣的觀察建立一個線性迴歸模型,試圖模擬歷年的大選,結果是20042008都呈現非常吻合的投票現象。從這模擬還得到一個非常寶貴的結論:

開票到了100萬票之後,雙方的差距就會呈現穩定地拉開。這個現象在20042008都得到驗證,唯獨2012出現異常。

另外一個很有趣的觀察就是:藍票居多的投票所,不管大小,其開票時間都比往常更久。

好了,光這兩個觀察就夠綠票選民跳腳了。尤其看到這篇多麼客觀的計量分析,再看民進黨的檢討文,若沒有吐血吐4年直到2016,那已經是被上帝祝福了!

在此深深向作者彎腰10次,每次三秒鐘。

 

 

 

http://floatingbridges.wordpress.com/2012/02/10/2012-%e5%8f%b0%e7%81%a3%e7%b8%bd%e7%b5%b1%e5%a4%a7%e9%81%b8%e9%96%8b%e7%a5%a8%e9%81%8e%e7%a8%8b%e7%9a%84%e7%b5%b1%e8%a8%88%e5%88%86%e6%9e%90-1-%e5%bc%95%e8%a8%80/

2012 台灣總統大選開票過程的統計分析: (1) 
引言


2012
台灣總統大選,中選會網路開票過程出現了如下的走勢圖 (資料來源, Kang 網友的截圖 )


            

蔡英文從一開始領先 7%, 開出五百多萬票時出現交叉,到最後反而落後6%,前後落差達 13%之多。這奇異的現象在網路上引起很多討論。在接下來的一系列文章我會嘗試對此做一些分析。由於統計並非我的專業,這些分析必然是粗淺的。其用意只是在於參與討論以及拋磚引玉。希望未來能有更專業的人士關心這個問題。

 

2012 台灣總統大選開票過程的統計分析: (2) 
投票所票數與藍綠得票率的關係


在正常的情形下,較小的投票所會較早開出。因此要分析
2012 的走勢圖是否合理,我們首先要看看綠營的得票率是否在小投票所較佔優勢。以下我們將投票所依有效票數排序以後,等分成  100 個區間。計算每個區間的平均投票所有效票數與藍綠的得票率, 畫成下圖:


             

由此可看出,平均而言藍營在極小的投票所與大投票所有優勢,而綠營的優勢區則是在中型的投票所。

這樣的分布是否異常?我們可以用 2004 2008 的資料作為對照。2004 年陳水扁對連戰:


          

2008年謝長廷對馬英九:


                   

由此可見,雖說藍綠的得票率有上下的移動,但總的來說趨勢是一致的。

由這些分析,我們大致上可推論出,合理的開票過程應該是:最早期藍營是壓倒性的優勢,然後綠營追趕或超前,接下來藍營追趕/反超/或擴大優勢。

 

2012 台灣總統大選開票過程的統計分析: (3) 
模擬開票


首先我們假定各投票所是完美的以由小到大的順序開出。則得票率走勢應如下圖:


           
 

蔡的得票率在開出約172萬票時達到極大值 48.91%,領先馬的 48.36%. 相較於最後的得票率蔡45.63%51.6%,前後落差約為6.52%. 也就是說,即便在如此理想化的開票順序之下,前後落差仍遠低於實際上的13%. 在實際的開票過程,開票所需時間與票箱大小會呈正相關,但絕不會如此完美。因此在正常情況下,實際上的前後落差應該要比 6.52% 更小才符合常理。

依照中選會的資料,所需時間與有效票的關係如下圖:


            

T 為所需時間, V 為票數,線性迴歸分析給出

T=a*V+b

其中 a=0.001325, b=1.482

a 可視為每張票所需時間 (實際上是三張, 含立委和政黨),約為 4.8 秒。b 可視為選務工作所需時間,與票數無關。

實際上 T V 的關係相對於線性迴歸的偏離大致呈常態分布,標准差約為 s=0.5558,如下圖:


             

假設相對於線性迴歸的偏離是隨機的,我們可以用以下的模型來模擬開票。對於一個票數為 V 的投票所,假定所需時間為

T=a*V+b+normrnd(s),

其中 normrnd(s) 是呈常態分布的亂數,標準差為 s. 以此設定每一個投票所的所需時間後依序開出,所得的走勢圖即為模擬開票的結果。下圖是三次模擬的結果:


             

由此我們可以看出在開到  100 萬票以後,各個模擬之間的差異已經很小。馬的得票率呈一路攀升之勢。然而,從開出 100 萬票到最後的落差最多是 3% 4% 而已。

作為參考,我們也可以用同樣的模型來模擬 2004 2008 年的大選。這是 2004 年:


             

2004 年的開票詳細過程迄今尚未尋獲。但由這裡的描述,陳水扁是一路領先最後差點被追上。這和模擬的結果是一致的。

至於 2008, 模擬結果如下:


            

這和真實的開票過程(資料來源相較也不離譜:


            

綜合以上的討論,我們可以推論出在開票過程中綠營會有開高走低的現象, 主要是因為藍營在大型投票所有優勢. 但從開出100萬票到最後,合理的落差應該是在 3- 4% 以下。那為何 2012 會出現 13% 的落差呢?這是因為偏藍投票所系統性的較慢開出的緣故。這點我們下次再談。

 

台灣總統大選開票過程的統計分析: (4) 
對模擬開票的補充說明


在先前的文章中
, 我們首先確立了綠營在大型投票所中居劣勢, 而這基本上是從 2004 年以來一慣的趨勢。由於開票的順序大體上是由小到大, 因此一般來說綠營會有開高走低的現象。問題是, 從開票的初期 (比方說到已經開出一百萬票)到最後的得票率落差的合理範圍是在哪裡?這就是模擬開票試圖回答的問題。

前文發表之後, Hyde 網友有如下的建議 (原文 在此):

影響開票所需時間的因素, 票數多寡固然是很重要的因素, 但所需時間卻不見得和票數成正比.

例如, 越大的投票所配置的人員也可能較多, 如果多到足夠分兩組同時開票, 那麼一個大型投票所有可能贏過一組開票的中型投票所.

又例如有些極小型的投票所實際開票的時間可能很短, 但因其位於偏遠地帶, 要把選舉結果報告單送到鄉公所的路途遙遠, 從中選會的登錄資料看來就可能像是開得很慢.

另外, 當許多票數相去不遠的投票所差不多同時完成開票時, 可能會發生排隊等登錄的情形.

基於這種種的原因, 我覺得用線性迴歸分析得到的直線去模擬開票, 恐怕會相當失真.

如果您有興趣, 我建議您參考KM大的圖, 把投票所分成500以下、500~10001000~15001500以上四個組分別做線性迴歸分析, 然後再合起來模擬開票.

關於這些問題, 我簡單回覆如下:
(1)
我一開始也覺得只用一個線性迴歸到所有投票所過於簡化。因此我最初的計畫是依投票所大小分成數個區段, 在每個區段取平均值與標準差, 然後再以此為基礎做開票模擬。但有趣的是, 各區段的平均時間與票數呈現良好的線性關係, 連標準差的變化也很小。如下圖:


             

因此我就偷懶了一下, 直接算出全體資料的線性迴歸, 以及相對於線性迴歸的偏離的標準差, 以此為基礎做開票模擬。我相信兩種做法的差別應該很小。

(2) 的確, 較小的投票所不一定較早開出。這也是為什麼在模擬時假定開票所需時間是由線性迴歸所得的值再加上一個常態分布的亂數的原因。如果不加上亂數, 則開票的過程會和由小到大依序開出一樣, 也就是我在上文一開頭考慮的極端情形。

(3) 必須注意的是, 由於較小的投票所不一定較早開出, 在正常情形下開票的過程應該比由小到大依序開出的過程較為和緩。這也是我透過模擬開票想顯示的。但即便在由小到大依序開出的極端情形下, 得票率的前後落差也遠比實際的開票過程低。這點就很奇怪。

(4) 我們可以試著了解實際的開票過程有多極端。實際的開票過程, 開到 100 萬票時蔡 51.61% 45.8%, 最後蔡 45.63% 51.6%。落差 (51.61-45.8-45.63+51.6)%=11.78%。我以前述的簡單模型進行十萬次模擬。從開到 100 萬票時到最後的落差呈如下的常態分布:


            

平均值為 3.17%, 標準差 0.67%。也就是說有 68.2% 的機率前後落差會在 2.5% 3.84% 之間。實際上的落差 11.78% 偏離平均值 8.61%, 是標準差的 12.85 倍。要產生如此極端的偏差的機率是 8.6e-38! 也就是說, 基本上是幾乎不可能。

(5) 我的模擬開票模型有一個很重要的假設, 即開票所需的時間相對於線性迴歸的偏差是隨機的。在這樣的假設下我們得到了 2012 年實際開票過程是幾乎不可能發生的結論。那麼 2012 年的開票過程到底是怎麼發生的?原因就在於實際開票所需的時間相對於線性迴歸的偏差不是隨機的, 相反的, 卻和投票所的藍綠支持度有關。 簡單的說, 同樣大小的投票所, 偏藍的會比偏綠的系統性的晚開出(這點以後再詳細討論)。你說奇不奇怪?

(6) 我們當然可以設想一些可能的原因來解釋為什麼偏藍的投票所會較晚開出。但任何可能的解釋必須同時能夠回答為什麼同樣的現象沒有在 2004, 2008 年發生。這有一定的難度。

(7) 最後, 即便有這些難以解釋的現象, 我們還是不能輕易做出 KMT 做票的結論。但更細緻的分析是有其必要。

 



from 椰子樹下打盹的哲學家 http://tw.blog.yahoo.com/mesg/mesg.php?type=error&key=article_not_found