別記事で、「NHK世論調査の政権支持率」を題材にして、統計手法である「カイ二乗検定」を手計算で行いました。
www.wanna-continue.com
今回は、統計解析ツールのRを利用してまったく同じことをやってみようと思います。
Rのインストール
LinuxへのRのインストールについては、別の記事に書きました。
http://shunukano.com/it_memos/ubuntu_r_install/www.wanna-continue.com
ちなみに、windowsへのインストールについては、下記サイトを参照してください
www.okadajp.org
カイ2乗検定の実行方法
以下の記事では、カイ2乗検定を手計算で行っています。
www.wanna-continue.com
まったく同じことをRでもやってみます。
使用するデータは以下です。
まず、以下のようにして、行列を作成します。
x <- matrix(c(481, 361, 161, 519, 314, 147), ncol=3, byrow=T)
matrixを利用して、作成します。引数の意味は、
- ncol:列の数
- byrow:要素を上の行から埋めていく指定
です。
次にカイ二乗検定を実行します。
chisq.test(x) と入力し実行。以下のように結果が表示されます。
> chisq.test(x) Pearson's Chi-squared test data: x X-squared = 5.0869, df = 2, p-value = 0.0786
各数値の意味ですが、
- X-squared:検定統計量
- df:自由度 ※Degree of Freedom
- p-value:p値
です。
手計算で実施した時と、検定統計量の値はほとんど一致しています(当たり前だが)。
p値が0.0786で0.05より大きいので、「7月から8月で、支持率が上がった」とは必ずしもいえないですが、
けっこう近い値なので、ほとんど「支持率が上がった」と言っていいのかもしれません。
ちなみに、「支持する」、「支持しない」、「その他」の比率はそのままに、サンプル数だけ増やしていくと、
以下のようなときにp値がほぼ0.05になります。
Rで実行してみると、
と、p値がほぼ0.05になってます。
以上です。
Rのほうが計算が圧倒的に早くて便利ですね。
ただ、どんな理論で計算しているのかは理解して使用していきたいもの。