シュンカの日記

基本的に書きたいことを書いていくスタイル。

Rを利用したカイ二乗検定の実行

【スポンサーリンク】

別記事で、「NHK世論調査の政権支持率」を題材にして、統計手法である「カイ二乗検定」を手計算で行いました。
www.wanna-continue.com


今回は、統計解析ツールのRを利用してまったく同じことをやってみようと思います。

Rのインストール

LinuxへのRのインストールについては、別の記事に書きました。
http://shunukano.com/it_memos/ubuntu_r_install/www.wanna-continue.com


ちなみに、windowsへのインストールについては、下記サイトを参照してください
www.okadajp.org

カイ2乗検定の実行方法

以下の記事では、カイ2乗検定を手計算で行っています。
www.wanna-continue.com

まったく同じことをRでもやってみます。
使用するデータは以下です。
f:id:nukano0522:20161022094455p:plain

まず、以下のようにして、行列を作成します。

x <- matrix(c(481, 361, 161, 519, 314, 147), ncol=3, byrow=T)

matrixを利用して、作成します。引数の意味は、

  • ncol:列の数
  • byrow:要素を上の行から埋めていく指定

です。

次にカイ二乗検定を実行します。
chisq.test(x) と入力し実行。以下のように結果が表示されます。

> chisq.test(x)
 
	Pearson's Chi-squared test
 
data:  x
X-squared = 5.0869, df = 2, p-value = 0.0786

各数値の意味ですが、

  • X-squared:検定統計量
  • df:自由度 ※Degree of Freedom
  • p-value:p値


です。

手計算で実施した時と、検定統計量の値はほとんど一致しています(当たり前だが)。

p値が0.0786で0.05より大きいので、「7月から8月で、支持率が上がった」とは必ずしもいえないですが、
けっこう近い値なので、ほとんど「支持率が上がった」と言っていいのかもしれません。

ちなみに、「支持する」、「支持しない」、「その他」の比率はそのままに、サンプル数だけ増やしていくと、
以下のようなときにp値がほぼ0.05になります。
f:id:nukano0522:20161022095004p:plain

Rで実行してみると、
f:id:nukano0522:20161022095033p:plain

と、p値がほぼ0.05になってます。

以上です。
Rのほうが計算が圧倒的に早くて便利ですね。
ただ、どんな理論で計算しているのかは理解して使用していきたいもの。