区間推定の理論
この区間推定の理論を使うと、図の公式が成り立つ。これは「データ全体(=母集団)からn個をランダムに取り出し、そのn個のデータのうち性質Aを有するデータの比率をrとするとき、データ全体における性質Aを有するデータの比率X」を求める式だ。
式の「1.96」が、先ほど説明した正規分布の「1.96倍」のことで、この式は「信頼度95%」に基づいているという意味である。
たとえば、全投票者のうち1000人分を開票した段階で、600人がA候補者に投票したことがわかったとしよう。すると「n=1000」、「r=600÷1000=0.6」となり、式に当てはめて計算すると、答えは「0.56≦X≦0.63」になる。わかりやすく言い換えると、「95%の確かさで、A候補者の支持率が56%以上63%以下だと推定できる」ということだ。
つまり、当確を出すために信頼度95%が必要だとすれば、開票した1000人分のうち600人がA候補者に投票していることが判明した時点で、A候補者の支持率は56~63%と半数を占めているので、当確が打てるというわけだ。仮にこの選挙の投票者の総数が10万人だったとすれば、その1%である1000人分を開票しただけで、A候補者の当確を打てるということになる。
ただし、ここで注意が必要なのは、あくまでも「信頼度95%で当選と推定できる」ということだ。すべての票を開票したら落選だったということもありうる。つまり誤報だ。実際、当確が出た候補者が落選する例は近年の選挙でもあった。
また、この式を使って推測するときには、開票された票がランダムに選ばれたものでなければならない点も重要だ。開票された1%がA候補者の支持基盤の地区に偏っていた場合、式は成り立たなくなる。先述したように当選確実と報じられて候補者の陣営では大喜びしていたのに、最終結果で落選してしまったケースがあったとしたら、原因としてそのようなことが考えられるのだ。