NHK世論調査で、政権支持率を算出するためのサンプル数が妥当かどうか、調査してみた【統計学】

NHKのニュースで、月に一度世論調査の結果を公表しています。
例えば、７月と８月の結果は下みたいな感じ。

f:id:nukano0522:20160920231751p:plain

出典：NHK世論調査
http://www.nhk.or.jp/bunken/research/yoron/political/2016.html

支持率の変化と、有効回答人数は、

安倍政権を支持する　：７月の48％→8月の53％　で5％アップ
安倍政権を支持しない：７月の36％→8月の32％　で4％ダウン
ただし、
7月の有効回答人数：1003人
8月の有効回答人数：980人

です。
この結果から、
「7月から8月で、安倍政権の支持率がアップしたのか」が統計学的に言えるのか、疑問に思ったので調べてみた。
言い換えると、「微妙に支持率はアップしているものの、この差は偶然生まれたものではないのか？？」ってことを確認します。

改めて、7月と8月の結果を整理すると下表のようになる。

f:id:nukano0522:20160920231956p:plain

これに対して、
「7月から8月で、安倍政権の支持率がアップした」＝「7月と8月の結果は独立でない」
ことを確かめるために独立性の検定を実施します。

独立性の検定というのは、２つの事象が独立かどうかを確かめるための手法です。
・・・
説明そのまんまですな。

今回の例で言うと、
事象A「安倍政権を支持するか否か」
事象B「７月と８月の結果」
というのがあって、事象AとBに関係があるのかないのか、ということを確認するための手法です。

今回みたいなクロス集計で利用することが多いもよう。
（細かい理論に興味のある人向けだけど、以下サイトが参考になりました。
http://www.math.s.chiba-u.ac.jp/~yasuda/statEN2/137to144.pdf）

帰無仮設：７月と８月の結果は独立（＝７月と８月で差はない）
p値＝0.05

として、進める。
（仮説検定や、ｐ値については、別途自分なりにわかりやすく説明したいと思っている）

まず、各理論値（＝各月の支持結果から、本来期待される値）を求めます。

f:id:nukano0522:20160920233148p:plain

理論値の計算方法ですが、例えば、「7月の支持する」の理論値は、

$\frac{(支持する)}{(合計)}\times\frac{(7月)}{(合計)}\times(合計)=\frac{1000}{1983}\times\frac{1003}{1983}\times1983=505.80$
となる。その他の理論値も同様に求められる。

実値と理論値を用いて検定統計量Uを計算する。

$U=\frac{(505.80-481)^2}{505.80}+・・・+\frac{(152.21-147)^2}{152.21}=5.09$

自由度は、
$(2-1)\times(3-1)=2$
なので、p値=0.05　で検定すると、

$\chi_{0.05}^2(2)=5.99>5.09=U$

従って、「７月と８月の結果は独立」という帰無仮設は棄却されないと言える。

ん？？
つまり、一見７月から８月で安倍政権の支持率はアップしたように見えるけど、統計学的には必ずしもアップしたとは言い切れないようだね。

要するに、７月の有効回答人数＝1003人、８月の有効回答人数＝980人　というサンプルの少なさでは、これぐらいの差は生じ得る、ということ。

実際、ニュースで「安倍政権の支持率は先月より上がりました」と言っていたかどうかは覚えてないんですが、さすがに検証しているだろうし断言はしていないのかな？

ちなみに、

安倍政権を支持する　：７月の48％→8月の53％　で5％アップ
安倍政権を支持しない：７月の36％→8月の32％　で4％ダウン

という結果はそのままにして、「7月から8月で、安倍政権の支持率がアップした」と統計学的に言えるようにするためには、
少なくとも、７月＝1183人、８月＝1155人　合計＝2338人　くらいのサンプルが必要だった。

f:id:nukano0522:20160920233528p:plain

このとき、統計検定量は、
$U=5.99=\chi_{0.05}^2(2)$
となる。

以上、NHK世論調査での疑問について調査してみました。

※もし、考え方など間違っている箇所あれば教えていただけるとありがたいです。

参考にした図書↓↓

シュンカの日記