NHKのニュースで、月に一度世論調査の結果を公表しています。
例えば、7月と8月の結果は下みたいな感じ。
出典:NHK世論調査
http://www.nhk.or.jp/bunken/research/yoron/political/2016.html
支持率の変化と、有効回答人数は、
安倍政権を支持する :7月の48%→8月の53% で5%アップ
安倍政権を支持しない:7月の36%→8月の32% で4%ダウンただし、
7月の有効回答人数:1003人
8月の有効回答人数:980人
です。
この結果から、
「7月から8月で、安倍政権の支持率がアップしたのか」が統計学的に言えるのか、疑問に思ったので調べてみた。
言い換えると、「微妙に支持率はアップしているものの、この差は偶然生まれたものではないのか??」ってことを確認します。
カイ2乗検定を利用
改めて、7月と8月の結果を整理すると下表のようになる。
これに対して、
「7月から8月で、安倍政権の支持率がアップした」=「7月と8月の結果は独立でない」
ことを確かめるために独立性の検定を実施します。
独立性の検定というのは、2つの事象が独立かどうかを確かめるための手法です。
・・・
説明そのまんまですな。
今回の例で言うと、
事象A「安倍政権を支持するか否か」
事象B「7月と8月の結果」
というのがあって、事象AとBに関係があるのかないのか、ということを確認するための手法です。
今回みたいなクロス集計で利用することが多いもよう。
(細かい理論に興味のある人向けだけど、以下サイトが参考になりました。
http://www.math.s.chiba-u.ac.jp/~yasuda/statEN2/137to144.pdf)
帰無仮設:7月と8月の結果は独立(=7月と8月で差はない)
p値=0.05
として、進める。
(仮説検定や、p値については、別途自分なりにわかりやすく説明したいと思っている)
まず、各理論値(=各月の支持結果から、本来期待される値)を求めます。
理論値の計算方法ですが、例えば、「7月の支持する」の理論値は、
となる。その他の理論値も同様に求められる。
実値と理論値を用いて検定統計量Uを計算する。
自由度は、
なので、p値=0.05 で検定すると、
従って、「7月と8月の結果は独立」という帰無仮設は棄却されないと言える。
ん??
つまり、一見7月から8月で安倍政権の支持率はアップしたように見えるけど、統計学的には必ずしもアップしたとは言い切れないようだね。
要するに、7月の有効回答人数=1003人、8月の有効回答人数=980人 というサンプルの少なさでは、これぐらいの差は生じ得る、ということ。
実際、ニュースで「安倍政権の支持率は先月より上がりました」と言っていたかどうかは覚えてないんですが、さすがに検証しているだろうし断言はしていないのかな?
必要なサンプル数はいくつだったのか
ちなみに、
安倍政権を支持する :7月の48%→8月の53% で5%アップ
安倍政権を支持しない:7月の36%→8月の32% で4%ダウン
という結果はそのままにして、「7月から8月で、安倍政権の支持率がアップした」と統計学的に言えるようにするためには、
少なくとも、7月=1183人、8月=1155人 合計=2338人 くらいのサンプルが必要だった。
このとき、統計検定量は、
となる。
以上、NHK世論調査での疑問について調査してみました。
※もし、考え方など間違っている箇所あれば教えていただけるとありがたいです。
参考にした図書↓↓
- 作者: 倉田博史,星野崇宏
- 出版社/メーカー: 新世社
- 発売日: 2009/12
- メディア: 単行本
- クリック: 1回
- この商品を含むブログを見る
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る